【IT】日本HP製ソフトの不具合で京大スパコンのデータ77TBが消失 [田杉山脈★]
■ このスレッドは過去ログ倉庫に格納されています
京都大学学術情報メディアセンターは28日、日本ヒューレット・パッカードが開発したスパコン用ストレージバックアップするプログラムの不具合により、大容量ストレージ(/LARGE0)の一部が意図せず削除されたと発表した。
不具合が発生したのは、2021年12月14日〜16日の内、12月3日17時32分以降更新がなかったファイルで、消失ファイル数は約3,400万、容量は約77TBに達する。ファイル消失の原因は、バックアッププログラムの機能改修において、不用意なプログラムの修正とその適用手順に問題があったことで、本来は不要になった過去のバックアップログファイルを削除する処理が、/LARGE0ディレクトリ配下のファイル群を削除してしまう処理として誤動作した。
日本HPでは、京都大学宛の報告書で「弊社100%の責任によりLustreファイルシステムのファイル消失の重大障害を来し、多大なるご迷惑をお掛けしたことを深くお詫び申し上げます」と述べている。
現在はバックアップ処理を停止しており、プログラムの問題を改善し、確実に再発しない対策をした上で1月末までにはバックアップを再開する予定。
また、ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから、将来的にはこれまでのミラーリングによるバックアップだけでなく、1世代分の増分バックアップを残す等の機能強化を検討する。
https://pc.watch.impress.co.jp/docs/news/1378005.html
「1TB当たり○○万円」とかの賠償金や保険はあるのかな Linux知らんからhpの報告書を読んでも発生原因がよく分からん
こういうことでいいの?詳しい人教えて?
@hpが旧Verのシェルスクリプトが走っているのを知らずに、新Verのシェル
スクリプトをファイル上書きでリリース
Abashは実行中にスクリプトをファイルから適時読み込む方式なので、途中から
上書きされた後の新Verのスクリプトがロードされる
B新Verでは変数定義を変えていたので、旧Verには無い変数を使った新Verの
スクリプトが実行される
旧Verには無い変数は当然未定義なので空文字として処理される
C結果、間違ったfindコマンドが実行される
(findコマンドの指定が”/LARGE0/$hogehoge”みたいな感じで、変数hogehoge
が未定義だったってこと?
それにより、”/LARGE0/logs”みたいなディレクトリを指定するはずが”/LARGE0”
になってしまって、“/LARGE0”配下の10日以上古いファイルを根こそぎ消したとか?) >>100
あー、hpって昔からfind使ったスクリプトをバックアップ関連で使ってるな bashがシェルスクリプトを実行中に適時読み込むとか、今回始めて知ったわ
プログラマーなら実行時に読む込むのが普通だと思ってるしな
俺みたいなLinuxに詳しくないIT土方が担当したら、普通に間違えそうw
まあでも、俺みたいな低レベル土方でも、スクリプト実行中に当該のスクリプト
ファイルを上書きするとか頭おかしいんじゃねーの?って思うが
Linux界隈ってそういうの普通なんかね? 関係者は京都にある77寺が一辺に消失したようなもんだろうね >>111
俺がヒューレットパッカードの仕事してたときは、バックアップ機材の処理するひとは
むちゃくちゃ高価な教育コース受けたひとだけで、そこまで教えてるかしらんが
通常ではやんないようなことはしてたんだろな、現場で 俺のエロ動画コレクションの6倍ものデータが消えたとかひでーな 果たして本インシデントで何人の首が飛ぶんだろか?老舗のHPもIBMも業績や株価がパッとしないし、サラリーも外資なのに抑えられてるから人材流出しまくり。 メンテ用の社外秘パスワードで立ち上げて
コマンドを何か勘違いして
書き換えただけ? ニュース速報プラスでもスレッド立ってて、28TBが復旧できないぶんとか書いてたから
個人研究者データがとんだぐらいか、>>116がほんとならな エロ動画1本多めに見て2ギガだとすると
38500本のエロデータが消えたのか。 Linaxのログって保存して何か意味あるの?
制御ソフトのバグ探しだけじゃねーの?
あれ解析して分かることってあるの? >>116
動画を多用する職種じゃなきゃ
データでテラは使わんでしょ これも官需な
損害の規模よりも
真摯に対応して公表
ちゃんと謝罪する営業的配慮が大事 富士通のスパコン富岳に買い替えろ、というお告げだな。 >>11
言わせたが正しいだろうね、外資系特有の責任逃れの言い回しでぶちギレして論理的に詰めた教授がいたと予想 >>105
概ねそのようなことが起きたんだと思う
展開する削除階層のディレクトリ名の環境変数が未定義(空文字列)になったため
より上位階層のディレクトリが find の検索結果になってしまい
削除対象でない範囲まで削除してしまったんだろう
作業対象のスクリプトなりサービスなりは止めておくのが常識だろうが
ユーザからできるだけサービス止めるなって言われることも多いんで
問題なさそうなところは動かしたままにしたかったんだろう
やらかしたエンジニアは大変だろうがHPEはまともな会社なんで
守ってくれるはずだから、あまり気に病まないでほしいものだ HPEの日本法人が
日本ヒューレット・パッカード(合同会社)
なのね
ややこしい
なんでHPEジャパンとかにしなかったんだ? HPはプリンタ製造からも撤退したらしくインクの製造ももはややってないようだな。 >>139
こういうHPとHPEの違いが理解できないレベル向けにも社名は明確にしといた方が無難
という例でした
早速 >>139
こういう輩はクレイがHPE傘下になってるってのも知らない気がする こういうど素人なバグを謝罪だけで済まされて言い訳が無い。
日本HPは、自分たちがど素人レベルの技術しか無いことをまず認めるべき。
そして、損害に対して賠償金を払え。何十億とするだろう。税金から来た金だ、賠償金無しで済むと思うな。 >>77
HPまた分社したのか最初から数えたらどんだけ増殖したのだか >処理として誤動作した。
素人目には 行き届いていない不完全なプログラムが
正しく動作したようにも見えるけどw
どうなんだろうね? 学会発表のために計算回してた人達涙目だな
ストレージから引き抜かずに放置してた人は自業自得 俺の扱ってる職場のサーバで20TBだけど、容量食ってんのは写真と動画だな 一番悲惨なのは卒論とか修論で追い込みかけてた人達かな スパコンって、むろんハードは他に無い特注に近いもんだが
ソフトはLinuxを移植して使ってるのが多いみたいだね。
バカ高いハードにチープなオープンソースのOS入れて
使うからこうなるんじゃねえの? マシンがどんだけ高価で
入ってるデータが如何に需要な内容かについて認識の薄い
Linuxオタに任したんだろな。 昔からオペレータは派遣野郎だもんな。 手順ミスるってなんだ?
テスト環境ではうまくいって本番は手順まりが得たのか? 俺の存在ごと消えてたらどうしよう
そんな学生居ませんとか言われて >>23
入れ物の容量は分かった。
で、自分で作った&収集したデータはどれくらいなの? >>1
わざとだろ、謝罪しないでいいから元に戻せよ反日企業 >>32
ファイルを切り取り→貼り付け失敗で完全消滅パターンだな
なので切り取りは使わずコピーにしている >>150
Linuxヲタつかカーネルとかの開発してるのはIBMとかの人間だぞ
リーナスはそれをまとめてるだけ 先任が使ってたバックアップスクリプト
引数無しで打てばusage出ると聞いてやってみたら
カレント全消ししやがってな新人時代を思い出した >データ77TBが消失
77T=77兆だが、それで思い出した。
コロナ関連で77兆円の国家予算を使った
らしいな。 これも無駄と云えば無駄に消えた
カネだわな。 でも、これで潤った利権絡みの野郎どもも
多いらしいな。胸糞悪いわ。 自分もこの業界で働いているプレイングマネージャだけど
こんな事あったらもうたまらんね
胃に穴開くだろうし正月どころじゃ無いわ
フロント担当の人、その上司の人、お気の毒に
まあ命までは獲られんから頑張ってくれ ハードの故障じゃなくてバックアップの失敗て
笑ってすまんなこれ 日本の癌、富士通・NEC・NTTデータ以外に頼めば大丈夫だと思ってたのに.... データの消失時のリスクを低減するためのバックアップなのに
そのバックアップで消されちゃたまったもんじゃねぇな かわいそうだけど担当者正月なくなったな
俺も市場トラブルで正月なかったことある
会社も寒いんだよなあ
がんばれ みずほもそうだけど、バックアップや災対機への切替が失敗してシステムが止まるケースが多いな
バックアップ機能をつけてシステムの可用性が低下するとは本末転倒だな 三流大学のデータならわかるけど
京都大学のデータを削除をしたのは大問題だろ。
経済的損失、社会的損失は計り知れない。
損害賠償責任で5000億円ぐらい取った方がいいと思う。
ふざけすぎ、なめすぎ。 >>4
今となっちゃいろいろだるい面あるけども間違いはないね HPはテープいまだに開発しとるよね。
なんでこうなるの。 FUJIFILM製の磁気テープにバックアップとった方がましですね IT土方のテロだろw
ありえないわこんなの
テロを隠蔽してんだろ
ばっかじゃねーのまじで 米国C社製のスーパーコンピュータで起こったミスで、日本国の国の機関のデータをミスで消したことから、重大なインシデントのミスですね。
使えないスーパーコンピュータは、とっととリコールして、日本製のF社、N社、H社のスーパーコンピュータに変えた方がいいと思います。 もうジャップってなにやらせてもダメだなwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww >>182
ホームページのことをHPと書いているようです。
社名とは関係ないと思うので気を付けましょう。 元データを消すバックアップとは?
ファイルの移動をバックアップと行っているのか? >>31
ミラーリングもRAIDだぞ
あとミラーリングは良くないぞ >>186
>>1に書いてることさえ理解できないの? ◆マイクロソフト・・・「だからクラウドを使えとあれほど」
◆Google・・・「だからクラウドを使えとあれほど」
◆RedHat・・・「だからクラウドを使えとあれほど」
◆ジャストシステム・・・「だからクラウドを使えとあれほど」
◆カノニカル・・・「だからクラウドを使えとあれほど」
◆富士通・・・「だからクラウドを使えとあれほど」
◆アップル・・・「だからクラウドを使えとあれほど」
◆日本政府・・・「だからクラウドを使えとあれほど」
◆京大生・・・「だからクラウドを使えとあれほど」
◆京大教授陣・・・「だからクラウドを使えとあれほど」 >>10
俺一人で150GBのデータがあるけど...
ちな、転職してイチから、3年半で
メールだけでも20GBあるけど... ベンダーが弊社100%の責任て言うなんて珍しいな
そんなに旨い仕事なのか? >2021年12月14日〜16日の内、12月3日17時32分以降更新がなかったファイル
この範囲だけだとそこまで大事じゃ無いんかな?77TBって演算用が主だったりするんかね 相変わらずHP製はクソなのか
プリンタ、デスクトップ、ノートパソコン…
いずれもHP製はすぐに壊れた。 >>165
そこらは逆に時代遅れの磁気テープ使ってるから
ヒューマンエラーは少ないんじゃね >>105
自分とこのシステムでもディレクトリを変数にした処理があった気がする。
ていうかrm -rfするときは下の階層のとこまでcdしとかないと怖い
>>136
>ユーザからできるだけサービス止めるなって言われることも多いんで
そっか。
バッチのスケジュールを見てると常に何かしら動いてる
重くて長時間かかるバックアップが邪魔
でも他のデータ更新系のバッチの時間帯にリリースするぐらいならバックアップの処理中のほうがまだ安全に見えると ■ このスレッドは過去ログ倉庫に格納されています