【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
■ このスレッドは過去ログ倉庫に格納されています
三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク(HDD)が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。
マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。
故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/ 3個壊れた事が原因じゃなくて、3個同時に壊した何か外的要因を見付けないと再発するんじゃ… ガチで壊れることもあるとか想像できんのかここの馬鹿は ミラーとかいろいろな障害対応機器にしてないのか?
故障率減らす対策 これまでどう補修してきたかだねぇ。壊れるごとに1つずつ交換していくと
だんだん壊れる確率は上がってくるんだが... ニコスを語った詐欺メールも最近出回ってる
情報も漏れたな
メールにちゃんと本名書かれてる 核EMPだと 全システムこれだもんな
北朝鮮危険すぎ
こういうのはさ、本当の原因を明らかにしないこともある。
とりあえず出して来た報告はRaid6?の訂正不能エラーだけどさ。
「同時に」ってのがどのくらいかだよなあ
例えば1週間かけて壊れたなら、監視体制が完全に悪い
本当に1秒の狂いもなく同時に壊れたなら、外的要因だからそれを解決しないといかん
偶然では済まされない話 >7
俺もそう思うけど、そんなしょぼい電源つかうのかな。。原因教えてほしいな
ハード的には15HDDで2台故障を許容というのは、
まあNICOS程度の重要性ならいいかなって思うけど、
>一部の利用会員に2重請求が発生したほか、
これはダメっしょ。
ジャーナルとかシステムの欠陥臭い。
それから3台壊れたのも特定の原因が無いか調べた方がいいね。
本当に偶発かどうか。
HDDに負担の大きい周波数の振動が伝わってないかとかだけど。
SSDは増えてるよ。法人向けでは多少高くても。
でもクレカ業界は競争が激しいからなあ。
RAID組んでたHDDが2台同時に逝った事はあったわ。
HDDに、データ転送量が一定量に達すると使用不能になる致命的なバグがあった。
Seagateめ… 同一の初期ロットで何か問題あつろたと考えれるよ
多分公表しないけど 同時故障なんて普通ない
ディスクを収容してるハードウェアの問題を疑う 3個でシステム障害ってRAID6か何かかしら
SOHOとか小規模オフィスレベルの冗長性だのう >>1
なか〜ま
俺もバックアップ含めて3つの同時に飛んだ
物理的にぶっ壊れてだからしょうがないけどね
でも企業がこれはだらしないね >>15
文系の経営は馬鹿だからこういうことがわからんのです
対応は講じても原因を追求するという研究心がない RAID6での複数HDD故障は、業務用ならありえる話。
品質の悪い某社製のHDDが多数出回っていて、そいつが連鎖的に壊れる糞製品で、ババ抜き状態に陥ってる。
全部、茨城にあるあの会社のせい!! 昔似たようなことを経験したなぁ。
実際には HDD は故障していないにもかかわらず RAID カードが故障と
みなしてちょいちょい HDD が故障が頻発、データロストしてくれましたよ。
たまたま別サーバ増設時に再発して、新規サーバの RAID カードに
交換してみたら直って原因が発覚したが。
新品で導入すると、
HDDで最初の1台が故障すると、短期間のうちの次々と故障することがよくある。
まあ当たり前なんだけどね。
最初の1台故障でHDD全台入替でもいい気がする。
因みに対策は、バックアップを取るかレプリケーションを構築することな。
金をけちって、ストレージ1台でやろうとするから、こんなことになるんだよ。
警報監視の強化とかは短期的な施策であって全然根本解決にならない。
基幹システムなら、金をかけて2重化しろってこと。
ニコスの担当役員がアホなんだろうな。 復旧後に重複請求やらかてるあたり、トランザクションDBだと思うので RAID は 10 かな。
3個同時に壊れたとかいってるけど、プレスリリースで対応策のいの一番に監視強化とか
出してる辺り、監視システムの設定忘れなだけだと思う。 同じロットのHDDは同じタイミングで壊れる。何台並列にしていても無意味 >>25
RAID 製品はロット不良回避するためにシャッフルしてメーカが出荷してくるよ。
>>26
RAIDカードが誤動作して(実際には故障してないのに)HDD故障連発してくれるやつを
引いたことがあるんで、その可能性はあるね。
>>27
3.5インチの HDD なら 2U で12個収容なので、HDDx15構成の場合はエンクロージャ
2台目にHDD3個収容。 これもありうるね。 ニュータニックスのコンバインドサーバーならしのげたんか? >>40
Nutanix オンリーでDB組んでも速度でず使い物にならないないから普通は
ストレージだけ外出しにするね。 そうなると Nutanix でもしのげない。 同時3個のハードディスクじゃなく
壊れてたけどほったらかし状態だったハードが
3個目でトラブルが出たって言う事でしょ
サーバー的なハードって2個で同じ情報を管理し
1個が壊れても修復が出来るって言う品物 他の基幹システムでも、同じ程度の基準で作られていないか?
同程度のあり得ない確率の障害試験も実施を義務付けないと。 基幹システムはraid0+1の考え方の3重ミラーじゃないと駄目なんだよな。
2重だと片ミラー状態からの復旧時にコピー元が壊れてはいさようならになるし。
raid5とか6なんて信頼性無いと思う。 ミラー作っても壊れたデータからミラー作ると被害拡大するだけだしね
色々難しい 誰かが意図的にやったか、HDDが故障するような環境状態になったか
まあいずれにしても無理やり偶然だったことにするか RAID6って、全く同じ情報を二つ持っておくやり方と比べて
どっちが安全性が高いですか? >>6
ニコスでつから (*つ∀`)テヘッ なんつって │ 偶然だぞ │
└∩───∩┘
ヽ(`・ω・)ノ ユーチューバーと大差ないストレージ環境でカード会社を運営してるのだろうか? 個人でもHDD15台って運用している奴いそうなのに、何だろな 故障という意味ではどのメーカーも故障する
RAID6だから安心ってアカンやろ 社内にメイン、サブ、遠隔地にバックアップって3重ぐらいの安全策取ってるかと思ってたけどそうでもないのね 今までで数回、RAIDコントローラーが故障したことある
あれは泣ける RAID6か
2台壊れてリビルド中になんてことも割とある
同じモデルや近いロット使うから時期はかぶりやすいよな >>53
同じ情報を持っておくやり方が「3冗長Raid1」であるなら
3冗長Raid1のほうが安全とされる
Disk8枚分の 3冗長Raid1 なら必要な枚数は
8*3=24枚必要
対してRaid6なら
8+2=10枚必要 RAID6だね。こんな良く壊れるものを使ったら事故って当然だろう
RAIDは5とか6とかは設計に欠陥があるから使ったらダメって誰も指摘しなかったんだろうかねー
RAIDで使っていいのは、0+1だけだよ
ホットスタンバイとかバッテリバックアップのRAIDとか全てにおいてRAIDは使わない方がいい
常に3台に同じものを格納しておくのが今の普通のやり方 >>67
HDDみたいな消耗品かつ値段の安いものをケチケチして、会社のイメージ失墜してたら意味ないよな
>>65
RAIDコントローラー自体が何か多重化されてないなら、それが壊れたら全滅だね
RAIDコントローラーは使わない、もし使うとしても、HDDを繋ぐポートが足りないから使う、程度の扱いじゃないとね
ありとあらゆるものがいつか、どこか壊れるのは必然
サーバーのマザーボードも壊れるだろうし、悪くするとラックの電源が切れるかもしれない
いろいろ心配な人は、無停電電源を入れると安心ですよなどと、いい加減なことを言うが、
無停電電源が故障する可能性をわかってない
何もせずに、電源系統を2つにした方がいい
LANケーブルのコネクタも壊れるし、ケーブル切断もするし、到底壊れそうに見えないものも確率で壊れる
信頼性向上のために、余計な装置を、例えばRAIDカードを使うのは、ダメ
唯一の解決法はどれがどう壊れてもいいように多重化すること、2重じゃ足りないので3重が今時 繋げてる大元がパチッと逝けば連動して死ぬのはトーゼンだろバカかよそれでもシステム屋かよ どうせ新しい検証で破壊耐性調べてないロットを3つ使ってほぼ同時に壊れただけじゃないか?
普通製造週離すしアホ運用だったんだろう こういうのがあるから、いまだに金融期間はホスト使ってるんだよな。
くそ高いけど ちょいちょいしったかで RAID6 はダメ RAID 0+1 だとか言ってる奴いるが、まず RAID 1+0(orRAID10) だからな。
RAID 0+1 とは別。
あと通常のファイルサーバの類は大概 RAID6。 RAID10 を使うのはデータベースだけで、その理由も
RAID5/6 がランダム書き込みアクセスで IOPS 出せないから。 >>76
ホストってシャンパンタワーやってるあれか もともと2台壊れていて、修理する前に3台目が逝ったんだろう?
保守がしょぼい部署はだいたいこれ。 >>81
うがった見方をすれば、メーカーを明かさないのはその辺が理由かな。
でも3発同時故障が無いとも限らないし、原因解析・解明結果で役に立つ情報は公開してほしい。 道連れで壊れていくことあるよ
同じコントローラで繋がっているんだし 1個壊れる→RAID6だからいいか
2個壊れる→保守会社に連絡しないと・・・
保守会社がやって来てHDD交換とRAID再構成が終わる前に3個目故障→/(^o^)\
とか? >>31
同じロットの製品を同時交換だとあり得るよなぁ。
今回は電源とか冷却が怪しそうだけど。 1月の請求書が来なかったのはこのせいなのか?まー、Webでは請求額乗ってたから引き落としはされたけど。 おれもストレージの障害出てたの見落として危うくデータ飛ばすとこだったから
こういうの見ると思い出して背筋が寒くなる 対策だせーとかいって
また意味不明なコストをかける
これは考慮しなくていい 基幹系システムはRAID6+1は必須だろ
6で留めるからこうなる RAID5で安心だと思ってた馬鹿か・・・
NTT DATAがまたやらかしたのか・・・
RAID5で組んだRAIDアレイ2組をRAID10で二重化するか、DBを冗長化しとけば
ハードウェアの物理故障なんてそもそも影響を受けない
システム設計した奴が無能すぎ
素人以下だわ ストレージのロットを分けるとか基本的なことすらしないのかよ これは、巨額の引き落としを阻止するための、テロかもしれない。
内部犯行あるで 三基同時トラブルってどういう天文学的数字だよ
負荷が半端なかったのかな
実はリビルト失敗だったりして 自動復旧か2台同時までって言い方ならデータ自体の破損はしてないのかな。
データか失われて復旧できなくなるまで壊れるにはもう1、2台余力あるんじゃね?
ってpdfよくみたらデータの一部が毀損したって書いてあったわ。 保守用として大昔のHDDがいまだに・・・
とか有るからMaxtorだなw >>68
ただの三重書きじゃ同時に3台壊れるとデータが飛ぶのだが HDDが同時に3個壊れる確率より共通部分の不良の確率が高いよね。
電源とかRAIDコントローラーあたりも交換しないと同じトラブルが
起きそう。 SEAGATEかな?
ここのはタイマーが付いてるかのように狙った時期に壊れる
RAID組んだらおおよそ全滅する 3個とも同じメーカー同じ品種のHDDを使っていたという落ちじゃね? >>5
同じラインで製造されたものはだいたい同じ時期に逝くんだよね。
まぁSamsungかseagateだわな。 ただ監視してる君は悪くないよ設計構築した奴らが悪い
だから糞みたいな仕事させられてる監視要員は気に病むな 素人 多すぎワロス
レスしてる奴の95%くらい的外れだよ。 2001年ごろウェスタンデジタルがやらかしてデータセンターがひどいことになってたわ たぶん、この会社もシステム構築時の現場担当者は判っていたと思われ
ても、上がバカだとこういう事になる
システム担当重役が名前だけで権限がないとか、素人同然でコスト重視だと、
安全設計にまでコスト節減するんだよね いまどきのストレージってどういうハードウェア構成なのかな
昔で言う ultra enterprise 450 + Solaris + ZFS みたいな?
raid6(raidz2) + hotspare でリカバリ中に死んだんか >>109
そうだね、ただの3重書きじゃね
普通のサイズというのも変だが、何十、何百とHDDを使うよね、1000台もあるだろうね
それらに分散させるんだよ 細かいブロックというかパーティションというかで、
もちろんデータセンターは物理的に離れた、隣町にでも別の建物を用意し、電源なども全部別々。
容量に空きがあれば、4重にすればいいし、全体の容量が足りなければHDDを増やせばいい
正確に3重ではなく、常に最低3重にしておくわけ
HDDが1台死んだ瞬間に、その死んだHDDを例えば8TBだかを再現するのではなく、どこかのHDDに分散されてデータが3つある状態にすればいい
8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所
そして、今回のように2個壊れている状況でリビルドに失敗すると、飛ぶ
これが結構あるんだよな
2個までは大丈夫な設計なのに死んだ、同時に3台壊れたからだってのは、実はこういう仕組み
何十、何百というHDDのどこかに物理的に同じではないHDDに3重のデータが格納されていて、余っているどこかに、
生き残った2個、あるいは1個でもいい、のデータを負荷をかけずに配置する、のが今のやり方
何十・何百とあるHDDのうち1個や2個死んでも全体の負荷、つまりリビルドの負荷は増えないし、
HDDを1本丸ごと再現するために残りのHDD全てを高負荷にして、通常処理が重くなるのも愚かなやり方
そしてなにより、RAID6じゃ、別の建屋に分散収容できないね
そのラックが死んだら終わりじゃんか
旧時代的すぎるよ
1000台も使ってたら、毎日何個かは死ぬんだから、そのたびにリビルド負荷高かったら、やってられない
1000台のうち特定の3台が完全に同時に死ぬなんてことはあり得ない確率だし、心配なら4重にすればいい
書くの面倒なので、今時の分散ファイルシステムで検索しておくれ >>118
それな、ほんとかウソか知らんが
大量のラックが並んでいるような所は厳重にカギがかかっているし、そもそも掃除する必要が無いんだよね
ガンガン空調が回ってるから、ほこりとかは空調に全部行っちゃう
入れるのは何個かのドアを通過できる訓練された要員だけだよ
空調のメンテにしても、妙なことにならないか見てるし
寒いしうるさいし、特別な用事が無い限り入りたいとも思わないんじゃないの なんだなんだ?範囲限定極小EMPにでも
やられたんか? 同じロットは購入しないのはデータ保守の鉄則だろww
そんな事も知らないのか? 今のガキは >>81
保守がショボい場合どこの保守に責任があるかって話もあるからなあ
・保守監視設計が悪い→担当したベンダが悪い
・保守運用が無視してた→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い
・検出後の対応を怠った→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い バックアップ取ってるだろ。普通は翌日には復旧できるよ。 HDD3台死んだだけで業務が止まるとか職務怠慢だろ。企業としてアウト。 2個同時に壊れるとかよく聞くので、3個壊れても別に不思議じゃない。 なんか日本って想定してなかったとか言い訳する馬鹿ばっかだな
壊れる前に定期的にメンテ期間作って取り替えとけばいいだけだろ >>129
金払うから保守よろしくって言って、全部他人任せにした発注者が悪いね
どのように保守したのかのチェックさえ丸投げだったんだろう
ベンダーが何を設計して、何を担保してくれるのかさえ分かってないケースだな
下の者は各人の領域で完璧に仕事をしたし、仕様通りに完全な仕事をしたので、隕石が頭にぶつかるような確率の不幸でしたねってなだめてる最中じゃないの
RAID6はダメだから、RAID7にしましょう、とか誰かプレゼン資料作ってるんじゃないの
某大手金融業に見る失敗事例
5では当然ダメ、6でもダメ、これからは我が社の7を
→ 故障確率1000年に一度、これで安心 パチパチ いわゆる「稀によくある」ってやつだな
自転車で他の人は何もないのに、俺だけ普通の道路で数キロおきに四回連続パンクしたことある >>21
海門は故障じゃなくて設計から不良だったしな >>36
RAID10でデータの保証ができるのは1台故障までだよ
2台以上だと無事なケースとそうでないケースが出てくる >>135
監視設計しても監視した結果出てきたアラームが報告されて来なくて、サービス影響が出る障害に繋がってから連絡来たときはお前ら真面目に仕事しろよと思ったわ…
障害起きたことについてはそりゃ謝罪するけど今後もその杜撰な予兆監視のやり方だと保守がろくに回るわけないっつーの 天下のUFJ様のクレジットカードがHDD3個逝っただけで業務停止
NICOSカードなんてマイナーなカードは控えるべきだな >>141
まあ真っ先に想像されるのはそれだよねw 電源をHDD毎に独立させろよ
電源が死ねばそれに繋がっているHDDは一緒に死ぬぞ >HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。
SeaGateなんか使うから・・・ これHDDの故障じゃなくてシステムのバグが原因で一部のデータが破壊されたとかだったりして >>5
経験上、このような壊れ方はRAIDコントローラかバックプレーンの不具合の場合が多い。
あとはレアケースでHDDが同じロットで、そのロットごと不具合があった場合ぐらいか。 故障確率が低くても、それがいつ発生するかまでは把握できて
ないのが痛いね。 初期故障が無ければ、あとは時間経過とともに
故障確率は上がって行くと思うけど、それの変化カーブを元に
HDDを定期交換するとシステム停止は回避できると思うよ。 2個故障したのに気付かず、ついに3代目も故障したのでは? どこかにSPFがあるんだろう。アホが設計するとありがちだ。 中間ファイル用だからと思って適当にやってたら、思ったよりクリティカルだったと raidって障害出たときにサービスしたままリカバリ入るから、別のHDDにまで負荷かかって連鎖的に逝くこと多すぎだよね。 HDDの起源は
ゴキブリ韓国(ゴキ韓)
ニダ!<*`∀´> RAIDが死ぬのはよくある話
そのためのバックアップなんだけどね SSDはもっと厄介だぞ
壊れてないようで壊れてたりする奇妙な挙動起こす
システムからのチェックでは検出出来ないパターンがある 今時分、朝一冷えきったのを起動するのって
ドキドキだね! 状況が理解できないがニコスともあろうものがたった15台のHDDで業務を回してたってことか? >>30
それを言うなら探究心
実務かかってるのに研究心はないわ HDDの話でなくて申し訳ないけど、サーバーのメモリーが起動してから日が経つにつれて、使用量が増えていくけど何でなの? >>124
悪意を持ったおばちゃんを想定していない
やり直し >>166
メモリリークしてるんだろ
あとはメモリの確認法によるがlinuxならファイルキャッシュに空きメモリ使えるだけ使うからsarとかで単純に見ると増え続けるように見えるよ >>144
HDD毎に別電源ユニットってことはさすがにないけど、電源系統は多重化されているのが普通
電源にユニットが1台壊れても各HDDへの給電は続くよ 同時に3台故障した可能性よりも気づかない間に2台壊れていて3台目の故障がトドメになった可能性の方が高いと思うわ
普段あまりアクセスされないセクタがいつの間にか壊れていて
リビルドの際にセクタ不良が顕在化したとか >>158
今回のがそれなら「同時に」とは書かないと思う
コントローラが派手に逝ったか、もしくは監視漏れの馬鹿障害だな。 >>146
HDD15個だと1か月に1回くらいリビルドが走ったよ
ちなみにそこに付けたのは箱買いしたWD
16台接続のRAID6で、ホットスペア1個、稼働するの15個
どこもご家庭にもあるこのRAIDゆにっとが・・・
みたいなしょぼい感じ
録画NAS作ってる個人と変わらないレベルだよなあ
せめてデータセンター用のSSDにしろと >>148
RAIDカードのファームウエアを変更する時の恐怖
バージョン履歴に、安定性の向上とか書いてあったら、もうね >>162
それどこの?
こっちの経験則だと、SSDの寿命予測と実際の寿命があまり変わらず、SSDは凄いなと思ったんだけども
SSDの電源を入れている限り、ファームが自動的に壊れてる箇所が無いか検査して、スペア領域を消費してる印象だったけどな >>167
全角を要求されるケースがあって、もちろん相手は文系だ、
更に、文字が小さい、めっちゃ小さくなるモニター入れてから全角も悪くないなと思った >>173
詳しく説明したところで理解されないから適当に広報しとこうくらいのなんちゃって広報の感触がある >>179
中の人もちゃんと理解してるか怪しいような >>105
リビルド失敗の典型例。
勘定系でここまでしょぼいのは業務改善命令出ても仕方ない。2時間ルール違反。 >>178
全半角バラバラだからその言い訳は通らない >>122
> 8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
> つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所
これはない。 通常の Hardware RAID ならそれを回避するのも含めてスクラブかかるから。
スクラブは定期的に HDD なめて、単体HDDでのECCによるエラー訂正や、それでダメなら
RAIDのパリティでのチャンク単位のエラー訂正する処理な。
寧ろ問題なのは RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない場合。
なぜ RAID-Z が作られたかを勉強するべき。
君の言う障害が発生した要因はバッテリがヘタってるか RAID カード壊れているかであって RAID-6
の問題ではない。
あと、えらく分散ファイルシステムを持ち上げてくれちゃってるが、HDFSやハイパーコンバージドシステム
が速いのは大して更新がすくないディスクに対してのみ。
だからWeb検索とかのビッグデータや仮想マシンのOS側ディスクだけにしか使えない。
トランザクショナルDBを分散ファイルシステムに置いてしまうと応答速度面で致命的に遅くなる。
やるにしてもトランザクションログをレプリケーション先にリアルタイムで同期するぐらいだ。
RAID10 や RAID6、RAID60、Luster系分散ファイルシステム、クラウド向けの分散ファイル
システム、ビッグデータ系分散ファイルシステムそれぞれ何が長所で何が短所か、何が得意
なのかを勉強してくれ。 >>185
定期スクラブはもちろん毎日や毎週行うべきだけども、容量を全てスキャンするにはかなりの時間と負荷がかかる
そして、この際にアラートが出ても、1個だから平気などと運用される事例は見る。
どうせ自動的に修復されると信じてしまっている運用はあり得る。
2日連続、あるいは2回連続でアラートが出たら、真剣に交換しよう等とね
運用中にスクラブをするということは、HDDのヘッドを激しく移動させることになる
最近の大容量HDDはヘッドの平均移動距離が短いから、もしヘッドが大移動を繰り返した結果、
プラッターに傷がつくと、そこからカスが生じ、すぐにダメになる
なので、スクラブ中に他の所が壊れるメカニズムはある
RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない、というのは私には想像できない。
もし、バッテリーに問題が生じるような設計をしたならば、設計欠陥を指摘され、致命的なミスと叩かれるだろう。
RAID-Zについては使っているし、その利点も欠点も、長期の運用での状況もある程度押さえているが、
安全に使える環境の問題から、避ける人もいる。
分散ファイルシステムを使うのはとても高速な専用の線を用いて、高速なSSDを使うことが前提として要求されるのは言うまでもない。
性能が足りなければ、どこかで工夫をしなければならない。
ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。
DBはDBそのもので分散機能を持っているものがあるだろう?
それをまず検討すべきで、ファイルシステムに全てをゆだねるなどはしない
まあ、どの程度の費用をかけ、どの程度の信頼性を得るか、そして、その流れの方向は押さえておいたほうがいいだろう
例え、今現在、性能が足りないとしても
だいたいのケースにおいて性能が問題になる場合には、根本的にDBの設計が腐ってる場合が多いね
妥協に妥協を加えて、これくらいはいいだろう等と、手を抜いた結果が階層的に積みあがると、腐ってくる
DBが本質的に何をして、どのような処理が行われるのかを理解せずに、SQLを投げたり、
安易にDBの最適化機能に頼ろうとすると、ものすごく遅くなる
そもそも、DBに何を入れるべきかが真剣に検討されていないものが多いからね
言われるまでもないことだろうが・・・あなたにとっては SeagateとSamsung
買った後にフォームウェアのバクとか知った後の絶望感 普通は複数の物理サーバで仮想化してるから
HDDが同時に3個壊れようがRAIDカードに不具合があろうが問題にならない
これだけのシステムを素人が設計・運用するとも思えないので
コストをケチって敢えて脆弱な構成にしたか
コストをケチって敢えてHDD障害を放置する運用体制にしたとしか考えられない
まあ無能な経営者揃いの三菱らしくていいんじゃない?w 重要なシステムは、ホットスワップ付きRAID5ストレージを2台ミラーリングするもんだ
また、メインストレージが飛んでも、バックアップデータとログから再実行して復元できるようにしとくもんだ >>1
今の企業ってどこも 壊れるまで使うっていうのが糞みたいな当たり前の話だからな
だから絶対に障害は生じるわけだよ 壊れなくても定期交換するのがリスク回避
そういう極当たりまえの経営判断をできないのが 日本の企業経営者 事案が発生しようが
責任はぜーぶん現場のせいにする 見てみなよ 神戸製鋼 東芝 日産 スバル 三菱マテリアル 全部そうだろw 昔IBM製のHDDが立て続けに2台逝った事のある身としてはよく分かる >>191
RAID5やホットスワップは気休め。
万能じゃない。
このスレに「RAIDにしとけよ」とか言っている人がたくさんいるが、
ファイルサーバー程度しか作ったことがない人なのだろう。
RAIDにより、データ損失はないかもしれないが、パリティからの
データ自動回復で一気にシステムが遅滞する。
ファイルサーバーや静的なコンテンツ参照のWebサイトなら
それでもなんとかなる。
だけど、オンライントランザクションシステムやバッチ処理システムだと、
自動回復が始まったとたんに急速にレスポンスが低下する。
さらに、パリティからデータ自動回復をやりながらシステムを動かすと、
回復と処理の負荷で、他のディスクまで壊れるということもたまにある
というのが俺の実経験。
三菱UFJニコスで起きたのも、そういうことなんだろう。
玉突き事故を、「(ほぼ)同時」と言っているのだと思われる。
オンラインやバッチ系のシステムでは、RAIDはさらなるディスク故障を
招く原因になることもある。
それを防ぐには
・機械部品の動作がないオールフラッシュのストレージにする
・そんな金がないなら、パリティからのデータ回復がはじまったら
すみやかにシステムを停止するか、処理を書き込みがない
参照オンリーにシステムの設定を変更する。
ホットスワップはあくまで、即時システムダウンしないための
一時しのぎであると理解し、「ホットスワップがあるから動かし続けよう」
ではなく、まずはシステムを止めることを優先する
と理解すべきだ。 まぁ究極的には運頼みだな。
技術的な事情はほとんど公開されてないのに、バカだの素人だのこき下ろせる人がいるのが不思議だ。
自分んとこのシステムは盤石だと信じられるのは、勝手に自分の責任範囲を線引きしてるか、
それこそバカと素人だけではないだろうか。 >>186
> 定期スクラブはもちろん毎日や毎週行うべきだけども
長文だなーって思ったけど、しょっぱなのここですでにアウトだわ。
> 2日連続、あるいは2回連続でアラートが出たら、
RAID-5 カード使わないのが想像できない人がこんなことは言わない。
> ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。
なんでバッテリ付きなのかわかってないね、君は。
あと処理には同期書き込みと非同期書き込みがある事を全く考慮していないな。
> DBはDBそのもので分散機能を持っているものがあるだろう?
予算という物があってだね、全てのプロジェクトで Oracle Exadata が使えるわけじゃないんだよ。
ストレージ業界で生きてないなら知ったかやめてくれ、ほんとに。 >>191
業務用途の場合は RAID6 か RAID60、RAID6だと物足りないという客向けにここ最近で
トリプルパリティが出てきた。 RAID51 なんてやってる/客に薦めるところなんて聞いたことが無いな。
どこの何て言う製品を使ってるんだ?
やるにしても製品固有の機能での別筐体/別拠点への非リアルタイム系同期で RAID51相当/
RAID61相当にするぐらいだわ。
あと、ログから再実行ってトランザクショナルDBのロールフォワードの事を言っているんだと思うが、
データベースの時点で RAID10 一択で RAID5,6 はあり得んよ。 >>191
ミラーリング+3ndがよいとされていね
RAIDカードがやられたときにも対処できるように
ソフトRAIDも併用するとか >>177
何台も扱った修理専門のCEの感想
検出しきれずチェックツールがウソ返しやがる
正常に読み書き出来てるようで出来てない壊れ方する >>200
無い
インテルだろうがサムスンだろうがマイクロンだろうがどこでも起きた
チェックツール上では正常だと返してくるのに
なんで動かないか悩んで交換したら直るのが何度かあった
修理対応時は交換用SSD持っていくのが必須 フラッシュの書き込み(実際は消去)の深さが閾値近くに落ちちゃってるんじゃない?
そうなると読みこみの値はランダムになるけど
アクセスパターン依存もあるかも たまにしか起きないものが同時には起こるのは別の理由が必ずある
同時に2つの地震があったとか言いうのもそうだ >>196
いやー、ストレージ業界とか、最近は狭い業務分担が流行りだけども、
私は、そういうのは気にしないし、どうしても作ってくれと言われるものしか作らないんだよ
そして、大規模な仕事が多いのでね
ろくなDBも使えないような、利益が出ない案件には興味がないんだよ
金がないならアキラメロン
業界が糞なら転職するかフリーになれ
どんな箇所でも手を入れていいし、予算も潤沢にある、どこかのSierに2回依頼したけども完成しなかった、というのはいい仕事になる >>199
インテルのデータセンター用のでもそうなの?
何千回も強制電源断しても壊れなかったから、信用してたんだが
ちょっと詳しく教えてくれないかい
修理専門の人の話なら信じられるから >>202
フラッシュは劣化するわけだけども、常にコントローラーがチェックしてるし、劣化も温度等の物理特性で傾向があるから
それを十分に考慮した耐久性と残りの稼働可能時間がわかる仕組み
ギリギリの状況で使って、読めなかった、などはしないんだよ、普通は
データセンター用じゃないものを、強制電源断したら、もちろん高負荷中に、だいたいこわれる
何回かやるとね なんとかPROみたいなものもダメ
そうじゃなく、データセンター用のが壊れるかどうかはとても興味がある 三菱のATM
手 認証 20回ぐらいやって認証する 同一ロットで、同じような使われ方してたら死期は似てくるらしいよ。 >>212
読めなくなったから、サルベージしてファイル回収したい、ようなのはあるよ
raid-zが壊れてサルベージする話は見たな
その時に、故障状況見れるって話でしょ
ファクトリーコマンドとか使って >>210
いやいや俺半導体専門だけど
もともと不良セルだったら予想外の故障しても何も不思議はないよ
それはフラッシュに限らずどんな半導体セルにも言えることだけど
ただフラッシュはロジックなんかと比べて閾値のレベルがシビアだから
突然中間に落ちて読めなくなったたとかよく聞く話
コントローラなんて所詮ロジックでフラッシュセルの状態なんてモニタしてないでしょ
つまり半導体はあなたの言う普通はないという壊れ方をよくするし
フラッシュはその点特に繊細だということ 半導体がやっかいなのはある時故障してても
負荷をかけてやると復活しちゃうものがあったりと
とにかく不安定な状態の故障モードが多数あること
実際何が起こってるかなんて切ってみないと分からんw >>215
プロセスやってるの? それとも物性?
フラッシュは容量増やすためにかなり無理なことをしてるけど、結局エラー訂正で直すしかないよね。
単セルの信頼性など求められてなくて、もちろん多値を盛り込んだりで、エラーありきで、検出して直すじゃない。
大昔のEEPROMじゃないわけだし。
それで、いろんなパラメーターからフローティングゲート周りの状況が解明できて、寿命予測が当たるようになってきたって話だと思ったけども。
私は半導体専門でもないし、現在フラッシュのセルの設計をしているわけでもないけどもね。
まあ、基本は理解してるし、いろんなことをやったから、半導体がどう動いて、どう壊れて、何を何が担保しているのかは押さえているよ。
いくつか作らせてももらえたしね。
もし詳しいなら、コントローラーの訂正と寿命予測について書いてくれないか。
いろんなコントローラーがあるが、各社独自でね。謎な所が多いんだよね。
突然変な壊れ方をする、だけじゃあ、そりゃあらゆる物が予想外に壊れることもあるだろうさ、って一般論と変わらない。
フラッシュに限らずHDDもだけど、エラー訂正ありきで容量を稼いでる時代が長くなったね。
HDDのスクラブどうのって言ってた人がいたけども、フラッシュはコントローラーが勝手にスクラブして、勝手に直すんだよね。
だから、電源が入って無いと、どんどん壊れる。時間経過でも壊れるし、アクセスしても壊れるし、隣接の線をいじっても壊れるし、
ありとあらゆる操作がダメージを与えるし、スクラブしなきゃ話にならないしでね。
各社コントローラーに腐心してるが、それゆえに、情報が少ないんだよ。 >>216
まあ、そういうデータを多数集めて、コントローラーに反映しているんだろうなー、と思って、
インテルのデータセンター用のは信用することにしたんだよ。
とある膜がどのくらい劣化して、どのくらいいらない電子が滞留しているかなんてのは、各社の秘中の秘だろう?
テスト用にいろんなパラメーターを変えて、実験して、解析して、最後は断面見てとかやっても、
量産でマスクはズレるし、だいたい動いたら売らなきゃいけないしで、いちいち一品物を作るわけにもいかないから、
結局、ものすごく沢山あるセルを確率的に壊れるものとして、大雑把に数学的に、これくらいの訂正でいいかな、とやって、
ユーザーに長時間使わせて、合ってた、合ってなかった、とやるしかないんじゃないの。 ああ、あとね
HDDのロットどうのこうの言ってる人が多いけど、そういう人に聞きたいのは、
SDDでもロット分ける?
メインメモリーでもロット分ける?
CPUやマザーボードもロット分ける?
LANケーブルや電源もロット分ける?
言いたいことわかるよね
DRAMはペアで使うから、同一ロット品が安心
このロットのCPUはクロック耐性が高いから云々
で、HDDケーブルがビローンって垂れていたりする
短くしろよ
シールドしろよ
電源に気を使えよ
いろいろ面倒なら、製造業を信用しろよ(確率的に)
大昔は、複数のHDDを並べて密集させる場合には、円盤の回転を同期させてたんだよね
そういう同期用の端子があったから
HDDを密集させて同じ金属板に固定する意味を理解している人がどこまでいるのか知らないけどもさ >>197
ゴミクズIBMだと10の選択肢がねーんだわ 半導体の話だけど上で解説されてることは全くその通りで
壊れるの前提でエラー訂正するしコントローラも設計する
俺が言いたかったのは製造欠陥の話でもともと不良セルだったものが
ある程度動いてたけど負荷によって突然中間値に落ちたりしたんじゃってだけのこと
あらゆるものが予想外に壊れるってのはその通りだけど
半導体が面白いのはフラッシュの場合広い閾値のレンジと
あまりにも多すぎる故障モードだと思う
それゆえ壊れてるのに正しく動いているように見えるなんてのはよくある
特に特定の手順で操作したときだけ故障が顕在化するなんてこともある
だからチェックツールでパスしても実際は壊れてるなんてのは
半導体の世界では当たり前すぎる話でしょってことだけが言いたかった
チェックツールにウソと言われてもねえ…
これ以上はスレ違いかな これは5台でRaid0を組んで3グループでRaid1にしてた感じ?
そして2グループ死んでるのに気づかずにそのまま運用してたとか? >>69
プロは大変だな
オレのはポエムばかりだから消えたら脳内再生するさとたかw >>221
ほー、面白いな。フラッシュ。
HDDの場合だけど、壊れてるセクターがあって、何度も何度も、例えば10回読むと、エラー訂正できたりする。
微妙に磁石が狂ってて、不安定なのが、0か1かどっちかに転んだタイミングで、セクターが読め、予備に転送できる。
なので、しくこく読み続けてたら、100セクターくらい回収できた。
フラッシュでも、同じこと出来るだろうね。
やっぱり心配なので、最終的には多重化するけども、根本的な仕組みには興味あるわ。 >>223
個人用の大量のデータを思い切って捨てたら、すっきりした。
ミニマリスト最高だよ >>222
これレイド0+1?
3重ってどういう実装になるの?
カードに3台つなぐと3台でraid1組んでくれるの? 物理的に別のストレージにあるものをソフトウェアミラーリング
が必須
ホットスワップ付きRAID6ディスクアレイを2台用意(もちろん仮想的に2台じゃなく、物理的に2台)
これをOSによるソフトウェアミラーリングで使用 RAID1+6にしておけば・・・
まあ、エラーメッセージ見てなかったのが最たる原因だろう 3個同時て
それ同じ電源に接続してたとか?
つか、どっか別の場所でマイグレできるようにしとかんといかん奴なんじゃないの? >>121
俺もそう思った
そうじゃないと考えられない RAID0+1とかホットスワップとか、知ったかさん多いな >>232
学校で勉強して、テストで1文字でも間違えたら、×つけられて?
会社でプレゼン資料作って、1文字でも間違えたら、上司に、×つけられて?
現役の下働きは大変だね。上に行きなよ。
これ、任せたいんだけど、いいかな?から始まって、
やれるだけのことはやりましょう、予算は自由に使うけども、いいよね?
ああ、いいよ、トラブルよりもいいもの
完成、3年ノートラブル。
ほー、いいね。どうやってるの? コピーしてもいいかな?
そりゃ、いいよ。売ったんだし。
説明はしないけど、ここにドキュメント入ってるから、見て。
誰かに、解析させてもいいかな?
運用終わってからの方がいいんじゃない?
途中で勝手に止めたら、面倒みないよ。
RAIDのレベルがどうのこうのなんてのは、実績の前にはどうでもいいし、客の関心事はそこじゃない。
どんな手段でもいいから、壊れないのを与えたら、なーんにも言わなくなる。
プレゼンする必要もない。
前のと同じ感じで、容量増やしたいんだけど、しか言われない。
そんで、客が勝手に、適当な資料作って、稟議通ればOK
実際に作ったものとプレゼンが違うなんてのはざら。
我が社の過去システムで、これだけの稼働実績のある・・・・の最初の1ページしか、誰も興味ないよ。 >>232はすごいな
あんな短文で>>233をここまでヒートアップさせるなんて 技術用語の扱いがいい加減なやつはシステムの扱いもいい加減だからね
RAID0+1はそれ以前の問題だが RAID6(ホットスワップ付き)を物理的に別筐体で2セット用意して、
さらにミラーリング
これが必須だよ
RAID1+6ってやつ それホントにRAID1+6って呼ぶの?
ディスクの冗長化じゃないと思うけど >>238
RAID0+1 & ホットスワップさん乙 ストレージの耐障害性にFTサーバーがどう関係すんのさ? 大規模なデータセンターならディスクの多点故障とか日常茶飯事 1cm間隔でずらっとSDカードをが刺さってて死んだら自動で排出。
マガジンに空のSDカードがいっぱい入ってて空いたスロットに自動装填、みたいな装置できないかな。
保守は空メディアの補充だけでいいの。 >>244
FTするならSSDしか選択肢ないし
ストレージも2系統
ファイバーのスイッチも2系統
回線もストレージの速度も最高
などのデラックス仕様になって
しかも何かトラブっても予備常時待機でそっちに切り替わるんだから
何の心配もなくなるんだろ
このニコスみたいにケチケチしたようなのだと何が起こっても知らんな
FTじゃないと心配って客はいい客 >>246
テープがそうなってるな
古いのだとMOのオートチェンジャーとか
CDの400スタックのとかな
SDカードはドライブユニットのコストがほぼゼロだから
チェンジャーで変えるメリットがない
もしSDが1000枚刺さってるのが欲しいなら、常時1000枚さしておき、
定格容量を800枚分にすればノーメンテになる
大規模なの作ると、物理的に力がかかることで死ぬことも心配しなきゃならなくなるから
装置の中に全部収めて、パネルを開けない方が長持ちする ショッピングのリボ払いで臨時増額返済をATMで受け付けてくれないのはこのせいか? 誰かが障害原因の言い訳で嘘をつくと、業界全体が迷惑を受けるパターンじゃないかと。
15台中3台が同時なんて 最近明細見てないけど何か最近多く引かれてる様な気が
久しぶりに確認してみるか >>5
2個壊れてたのを気づかず放置してただけじゃないかと思ってしまう。 >>247
問題を全然理解してないよね。。。
単純にストレージを2系統ってのは>>238のRAID6+1的な考え方 >>255
これの解決方法はいくらでも思いつくが
予算ないからこうなってるんだろう
しかも予算を節約するために頭も使ってないし
まずは、DBがダメなんだからオラクル買えよって話
オラクル買えないならストレージで何とかした上で運用で巻き戻しするとかログから再生しかないが、
そんな面倒なことをニコスが出来る筈もないからこのざま
予算も無い上に今まで動いたたから今後も大丈夫って考えとしか思えない
FT云々ってのは極端な例を出しただけ
予算があるなら全部任せろ
予算が無いなら客が考えろ、その通りに作るから
ってのが私ののやり方
ストレージが死なないとかマシンが落ちても継続ってのはミニマム条件なんすよ
その上でオペミスとか他社のものがぶっ壊れたとかあってもリカバリーどこまで出来るのか
例えサービス止めてでも取り消ししたい場合もあるし
こういう各種アノマリーを上乗せしてやるが客が全部を想定できるはずもなく
説明もメンドイし緊急事態になるまで関心も示さない
なので、予算重視になるわけ
FTの予算出せるってのはそういうこと ディスクが三個同時に壊れるのは確かに相当珍しいし、何か外的要因がある気もする。
とは言え普通はディスク装置ごと飛んでも外部バックアップがあるし、広域災害に備えて遠隔地バックアップもしてるでしょ。
1日くらいは止まってもあとに影響なく復旧できるはず。
ここまで大混乱が起きるほどの重要システムならなおさら。
機器の故障くらいでここまでの影響がでるのは、そもそものシステム設計が悪かったとしか思えない。 >>256
やったことないのにこんな所で知ったかしなくていいよ
RAID6やRAID6+1が何でダメなのかっていう基礎から勉強してくれ
>>257
リビルド時の故障も広義では同時
サクッとシステムが死んでれば傷口はもっと浅かっただろうね raid6の問題ってホールの話?
固定ブロックの場合トランザクションが必要って奴だっけ >>259
書き込みホールは理論的にはどのRAIDレベルでも発生しうるけど
ハードウェアRAIDの場合は普通対策済みだから現実的に問題になることはまずないよ RAIDコントローラーが正常に動いてればな
それがSPOFだったら終わり >>219
海門にやられたからな
ロットごと不良。 >>261
それは全く別の問題だから対策も別だよ
クリティカルなシステムでRAIDコントローラをSPOFにしたりしないしね ニコスはRAIDコントローラの障害じゃないよ
典型的なリビルトの問題
カード会社の基幹システムで
RAIDコントローラがSPOFのストレージユニットなんて使うわけない リビルドに失敗するようなシステムは良くないと思う
故障検出も含めて 先月の1月15日にニコスポイントをTポイントに移行申込したのに
いまだに移行されていないのもそのせいなのか??? ニコスといえば昔の話だが芸能人の明細が目に留まると社内で話題になってたんだよな
○○が△△△を買ったぜなんてな
今じゃーセキュリティーがガチガチで無理だがね
by内部告発ではなく、内部つぶやき者 >>266
今は知らんが当時は汎用系でCOBOL
よってそれを言うならリビルドでなくリコンパイルな >>269
そっちのリビルドじゃなくRAIDのリビルドなw これは同時に導入したsegateなら、結構あるあるネタだね クリティカルなシステムならSeagateは使わないこと
HGST >>>>> Western Digital >>>>>>>>>>>>>>>>> Seagate
https://www.backblaze.com/blog/hard-drive-stats-for-2017/ まぁsnmpでRAID状態も管理できずに「発見時は同時に壊れていることを認識した」んだろうなぁ。
同時なんかあるわけねーだろが。 普通にあるよ
球数が数百台の小規模なら無いだろうけど 入金を待ってる店側には、ごめんなさい通知が二回。
しかもまだ全額入金されてない ひどいな
データロストしてて端末側のログと照会してもらう必要あるかもね ポーリングしてるからパケットロスしても問題なく障害検知できる
なぜUDPを使ってるのか理解すべき ■ このスレッドは過去ログ倉庫に格納されています