【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
■ このスレッドは過去ログ倉庫に格納されています
三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク(HDD)が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。
マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。
故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/ 3個壊れた事が原因じゃなくて、3個同時に壊した何か外的要因を見付けないと再発するんじゃ… ガチで壊れることもあるとか想像できんのかここの馬鹿は ミラーとかいろいろな障害対応機器にしてないのか?
故障率減らす対策 これまでどう補修してきたかだねぇ。壊れるごとに1つずつ交換していくと
だんだん壊れる確率は上がってくるんだが... ニコスを語った詐欺メールも最近出回ってる
情報も漏れたな
メールにちゃんと本名書かれてる 核EMPだと 全システムこれだもんな
北朝鮮危険すぎ
こういうのはさ、本当の原因を明らかにしないこともある。
とりあえず出して来た報告はRaid6?の訂正不能エラーだけどさ。
「同時に」ってのがどのくらいかだよなあ
例えば1週間かけて壊れたなら、監視体制が完全に悪い
本当に1秒の狂いもなく同時に壊れたなら、外的要因だからそれを解決しないといかん
偶然では済まされない話 >7
俺もそう思うけど、そんなしょぼい電源つかうのかな。。原因教えてほしいな
ハード的には15HDDで2台故障を許容というのは、
まあNICOS程度の重要性ならいいかなって思うけど、
>一部の利用会員に2重請求が発生したほか、
これはダメっしょ。
ジャーナルとかシステムの欠陥臭い。
それから3台壊れたのも特定の原因が無いか調べた方がいいね。
本当に偶発かどうか。
HDDに負担の大きい周波数の振動が伝わってないかとかだけど。
SSDは増えてるよ。法人向けでは多少高くても。
でもクレカ業界は競争が激しいからなあ。
RAID組んでたHDDが2台同時に逝った事はあったわ。
HDDに、データ転送量が一定量に達すると使用不能になる致命的なバグがあった。
Seagateめ… 同一の初期ロットで何か問題あつろたと考えれるよ
多分公表しないけど 同時故障なんて普通ない
ディスクを収容してるハードウェアの問題を疑う 3個でシステム障害ってRAID6か何かかしら
SOHOとか小規模オフィスレベルの冗長性だのう >>1
なか〜ま
俺もバックアップ含めて3つの同時に飛んだ
物理的にぶっ壊れてだからしょうがないけどね
でも企業がこれはだらしないね >>15
文系の経営は馬鹿だからこういうことがわからんのです
対応は講じても原因を追求するという研究心がない RAID6での複数HDD故障は、業務用ならありえる話。
品質の悪い某社製のHDDが多数出回っていて、そいつが連鎖的に壊れる糞製品で、ババ抜き状態に陥ってる。
全部、茨城にあるあの会社のせい!! 昔似たようなことを経験したなぁ。
実際には HDD は故障していないにもかかわらず RAID カードが故障と
みなしてちょいちょい HDD が故障が頻発、データロストしてくれましたよ。
たまたま別サーバ増設時に再発して、新規サーバの RAID カードに
交換してみたら直って原因が発覚したが。
新品で導入すると、
HDDで最初の1台が故障すると、短期間のうちの次々と故障することがよくある。
まあ当たり前なんだけどね。
最初の1台故障でHDD全台入替でもいい気がする。
因みに対策は、バックアップを取るかレプリケーションを構築することな。
金をけちって、ストレージ1台でやろうとするから、こんなことになるんだよ。
警報監視の強化とかは短期的な施策であって全然根本解決にならない。
基幹システムなら、金をかけて2重化しろってこと。
ニコスの担当役員がアホなんだろうな。 復旧後に重複請求やらかてるあたり、トランザクションDBだと思うので RAID は 10 かな。
3個同時に壊れたとかいってるけど、プレスリリースで対応策のいの一番に監視強化とか
出してる辺り、監視システムの設定忘れなだけだと思う。 同じロットのHDDは同じタイミングで壊れる。何台並列にしていても無意味 >>25
RAID 製品はロット不良回避するためにシャッフルしてメーカが出荷してくるよ。
>>26
RAIDカードが誤動作して(実際には故障してないのに)HDD故障連発してくれるやつを
引いたことがあるんで、その可能性はあるね。
>>27
3.5インチの HDD なら 2U で12個収容なので、HDDx15構成の場合はエンクロージャ
2台目にHDD3個収容。 これもありうるね。 ニュータニックスのコンバインドサーバーならしのげたんか? >>40
Nutanix オンリーでDB組んでも速度でず使い物にならないないから普通は
ストレージだけ外出しにするね。 そうなると Nutanix でもしのげない。 同時3個のハードディスクじゃなく
壊れてたけどほったらかし状態だったハードが
3個目でトラブルが出たって言う事でしょ
サーバー的なハードって2個で同じ情報を管理し
1個が壊れても修復が出来るって言う品物 他の基幹システムでも、同じ程度の基準で作られていないか?
同程度のあり得ない確率の障害試験も実施を義務付けないと。 基幹システムはraid0+1の考え方の3重ミラーじゃないと駄目なんだよな。
2重だと片ミラー状態からの復旧時にコピー元が壊れてはいさようならになるし。
raid5とか6なんて信頼性無いと思う。 ミラー作っても壊れたデータからミラー作ると被害拡大するだけだしね
色々難しい 誰かが意図的にやったか、HDDが故障するような環境状態になったか
まあいずれにしても無理やり偶然だったことにするか RAID6って、全く同じ情報を二つ持っておくやり方と比べて
どっちが安全性が高いですか? >>6
ニコスでつから (*つ∀`)テヘッ なんつって │ 偶然だぞ │
└∩───∩┘
ヽ(`・ω・)ノ ユーチューバーと大差ないストレージ環境でカード会社を運営してるのだろうか? 個人でもHDD15台って運用している奴いそうなのに、何だろな 故障という意味ではどのメーカーも故障する
RAID6だから安心ってアカンやろ 社内にメイン、サブ、遠隔地にバックアップって3重ぐらいの安全策取ってるかと思ってたけどそうでもないのね 今までで数回、RAIDコントローラーが故障したことある
あれは泣ける RAID6か
2台壊れてリビルド中になんてことも割とある
同じモデルや近いロット使うから時期はかぶりやすいよな >>53
同じ情報を持っておくやり方が「3冗長Raid1」であるなら
3冗長Raid1のほうが安全とされる
Disk8枚分の 3冗長Raid1 なら必要な枚数は
8*3=24枚必要
対してRaid6なら
8+2=10枚必要 RAID6だね。こんな良く壊れるものを使ったら事故って当然だろう
RAIDは5とか6とかは設計に欠陥があるから使ったらダメって誰も指摘しなかったんだろうかねー
RAIDで使っていいのは、0+1だけだよ
ホットスタンバイとかバッテリバックアップのRAIDとか全てにおいてRAIDは使わない方がいい
常に3台に同じものを格納しておくのが今の普通のやり方 >>67
HDDみたいな消耗品かつ値段の安いものをケチケチして、会社のイメージ失墜してたら意味ないよな
>>65
RAIDコントローラー自体が何か多重化されてないなら、それが壊れたら全滅だね
RAIDコントローラーは使わない、もし使うとしても、HDDを繋ぐポートが足りないから使う、程度の扱いじゃないとね
ありとあらゆるものがいつか、どこか壊れるのは必然
サーバーのマザーボードも壊れるだろうし、悪くするとラックの電源が切れるかもしれない
いろいろ心配な人は、無停電電源を入れると安心ですよなどと、いい加減なことを言うが、
無停電電源が故障する可能性をわかってない
何もせずに、電源系統を2つにした方がいい
LANケーブルのコネクタも壊れるし、ケーブル切断もするし、到底壊れそうに見えないものも確率で壊れる
信頼性向上のために、余計な装置を、例えばRAIDカードを使うのは、ダメ
唯一の解決法はどれがどう壊れてもいいように多重化すること、2重じゃ足りないので3重が今時 繋げてる大元がパチッと逝けば連動して死ぬのはトーゼンだろバカかよそれでもシステム屋かよ どうせ新しい検証で破壊耐性調べてないロットを3つ使ってほぼ同時に壊れただけじゃないか?
普通製造週離すしアホ運用だったんだろう こういうのがあるから、いまだに金融期間はホスト使ってるんだよな。
くそ高いけど ちょいちょいしったかで RAID6 はダメ RAID 0+1 だとか言ってる奴いるが、まず RAID 1+0(orRAID10) だからな。
RAID 0+1 とは別。
あと通常のファイルサーバの類は大概 RAID6。 RAID10 を使うのはデータベースだけで、その理由も
RAID5/6 がランダム書き込みアクセスで IOPS 出せないから。 >>76
ホストってシャンパンタワーやってるあれか もともと2台壊れていて、修理する前に3台目が逝ったんだろう?
保守がしょぼい部署はだいたいこれ。 >>81
うがった見方をすれば、メーカーを明かさないのはその辺が理由かな。
でも3発同時故障が無いとも限らないし、原因解析・解明結果で役に立つ情報は公開してほしい。 道連れで壊れていくことあるよ
同じコントローラで繋がっているんだし 1個壊れる→RAID6だからいいか
2個壊れる→保守会社に連絡しないと・・・
保守会社がやって来てHDD交換とRAID再構成が終わる前に3個目故障→/(^o^)\
とか? >>31
同じロットの製品を同時交換だとあり得るよなぁ。
今回は電源とか冷却が怪しそうだけど。 1月の請求書が来なかったのはこのせいなのか?まー、Webでは請求額乗ってたから引き落としはされたけど。 おれもストレージの障害出てたの見落として危うくデータ飛ばすとこだったから
こういうの見ると思い出して背筋が寒くなる 対策だせーとかいって
また意味不明なコストをかける
これは考慮しなくていい 基幹系システムはRAID6+1は必須だろ
6で留めるからこうなる RAID5で安心だと思ってた馬鹿か・・・
NTT DATAがまたやらかしたのか・・・
RAID5で組んだRAIDアレイ2組をRAID10で二重化するか、DBを冗長化しとけば
ハードウェアの物理故障なんてそもそも影響を受けない
システム設計した奴が無能すぎ
素人以下だわ ■ このスレッドは過去ログ倉庫に格納されています