【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

**ノチラ ★** · 2018/02/09(金) 00:02:10.35

　三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク（HDD）が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」（広報）。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

　故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/

**名刺は切らしておりまして** · 2018/02/10(土) 21:26:18.57

同一ロットで、同じような使われ方してたら死期は似てくるらしいよ。

**名刺は切らしておりまして** · 2018/02/10(土) 21:33:58.48

>>212
読めなくなったから、サルベージしてファイル回収したい、ようなのはあるよ
raid-zが壊れてサルベージする話は見たな
その時に、故障状況見れるって話でしょ
ファクトリーコマンドとか使って

**名刺は切らしておりまして** · 2018/02/11(日) 00:25:04.32

>>210
いやいや俺半導体専門だけど
もともと不良セルだったら予想外の故障しても何も不思議はないよ
それはフラッシュに限らずどんな半導体セルにも言えることだけど
ただフラッシュはロジックなんかと比べて閾値のレベルがシビアだから
突然中間に落ちて読めなくなったたとかよく聞く話
コントローラなんて所詮ロジックでフラッシュセルの状態なんてモニタしてないでしょ

つまり半導体はあなたの言う普通はないという壊れ方をよくするし
フラッシュはその点特に繊細だということ

**名刺は切らしておりまして** · 2018/02/11(日) 00:37:24.43

半導体がやっかいなのはある時故障してても
負荷をかけてやると復活しちゃうものがあったりと
とにかく不安定な状態の故障モードが多数あること
実際何が起こってるかなんて切ってみないと分からんw

**名刺は切らしておりまして** · 2018/02/11(日) 01:07:30.83

>>215
プロセスやってるの？　それとも物性？

フラッシュは容量増やすためにかなり無理なことをしてるけど、結局エラー訂正で直すしかないよね。
単セルの信頼性など求められてなくて、もちろん多値を盛り込んだりで、エラーありきで、検出して直すじゃない。
大昔のEEPROMじゃないわけだし。
それで、いろんなパラメーターからフローティングゲート周りの状況が解明できて、寿命予測が当たるようになってきたって話だと思ったけども。

私は半導体専門でもないし、現在フラッシュのセルの設計をしているわけでもないけどもね。
まあ、基本は理解してるし、いろんなことをやったから、半導体がどう動いて、どう壊れて、何を何が担保しているのかは押さえているよ。
いくつか作らせてももらえたしね。

もし詳しいなら、コントローラーの訂正と寿命予測について書いてくれないか。
いろんなコントローラーがあるが、各社独自でね。謎な所が多いんだよね。
突然変な壊れ方をする、だけじゃあ、そりゃあらゆる物が予想外に壊れることもあるだろうさ、って一般論と変わらない。

フラッシュに限らずHDDもだけど、エラー訂正ありきで容量を稼いでる時代が長くなったね。
HDDのスクラブどうのって言ってた人がいたけども、フラッシュはコントローラーが勝手にスクラブして、勝手に直すんだよね。
だから、電源が入って無いと、どんどん壊れる。時間経過でも壊れるし、アクセスしても壊れるし、隣接の線をいじっても壊れるし、
ありとあらゆる操作がダメージを与えるし、スクラブしなきゃ話にならないしでね。
各社コントローラーに腐心してるが、それゆえに、情報が少ないんだよ。

**名刺は切らしておりまして** · 2018/02/11(日) 01:20:08.89

>>216
まあ、そういうデータを多数集めて、コントローラーに反映しているんだろうなー、と思って、
インテルのデータセンター用のは信用することにしたんだよ。

とある膜がどのくらい劣化して、どのくらいいらない電子が滞留しているかなんてのは、各社の秘中の秘だろう？
テスト用にいろんなパラメーターを変えて、実験して、解析して、最後は断面見てとかやっても、
量産でマスクはズレるし、だいたい動いたら売らなきゃいけないしで、いちいち一品物を作るわけにもいかないから、
結局、ものすごく沢山あるセルを確率的に壊れるものとして、大雑把に数学的に、これくらいの訂正でいいかな、とやって、
ユーザーに長時間使わせて、合ってた、合ってなかった、とやるしかないんじゃないの。

**名刺は切らしておりまして** · 2018/02/11(日) 01:29:30.12

ああ、あとね

HDDのロットどうのこうの言ってる人が多いけど、そういう人に聞きたいのは、
SDDでもロット分ける？
メインメモリーでもロット分ける？
CPUやマザーボードもロット分ける？
LANケーブルや電源もロット分ける？

言いたいことわかるよね

DRAMはペアで使うから、同一ロット品が安心
このロットのCPUはクロック耐性が高いから云々
で、HDDケーブルがビローンって垂れていたりする
短くしろよ
シールドしろよ
電源に気を使えよ

いろいろ面倒なら、製造業を信用しろよ（確率的に）

大昔は、複数のHDDを並べて密集させる場合には、円盤の回転を同期させてたんだよね
そういう同期用の端子があったから
HDDを密集させて同じ金属板に固定する意味を理解している人がどこまでいるのか知らないけどもさ

**名刺は切らしておりまして** · 2018/02/11(日) 03:52:12.46

>>197
ゴミクズIBMだと10の選択肢がねーんだわ

**名刺は切らしておりまして** · 2018/02/11(日) 17:12:27.75

半導体の話だけど上で解説されてることは全くその通りで
壊れるの前提でエラー訂正するしコントローラも設計する

俺が言いたかったのは製造欠陥の話でもともと不良セルだったものが
ある程度動いてたけど負荷によって突然中間値に落ちたりしたんじゃってだけのこと

あらゆるものが予想外に壊れるってのはその通りだけど
半導体が面白いのはフラッシュの場合広い閾値のレンジと
あまりにも多すぎる故障モードだと思う

それゆえ壊れてるのに正しく動いているように見えるなんてのはよくある
特に特定の手順で操作したときだけ故障が顕在化するなんてこともある

だからチェックツールでパスしても実際は壊れてるなんてのは
半導体の世界では当たり前すぎる話でしょってことだけが言いたかった
チェックツールにウソと言われてもねえ…

これ以上はスレ違いかな

**名刺は切らしておりまして** · 2018/02/12(月) 07:47:47.71

これは5台でRaid0を組んで3グループでRaid1にしてた感じ？
そして2グループ死んでるのに気づかずにそのまま運用してたとか？

**名刺は切らしておりまして** · 2018/02/12(月) 07:48:14.87

>>69
プロは大変だな
オレのはポエムばかりだから消えたら脳内再生するさとたかｗ

**名刺は切らしておりまして** · 2018/02/12(月) 08:06:30.14

>>221
ほー、面白いな。フラッシュ。

HDDの場合だけど、壊れてるセクターがあって、何度も何度も、例えば１０回読むと、エラー訂正できたりする。
微妙に磁石が狂ってて、不安定なのが、０か１かどっちかに転んだタイミングで、セクターが読め、予備に転送できる。
なので、しくこく読み続けてたら、１００セクターくらい回収できた。

フラッシュでも、同じこと出来るだろうね。

やっぱり心配なので、最終的には多重化するけども、根本的な仕組みには興味あるわ。

**名刺は切らしておりまして** · 2018/02/12(月) 08:10:00.24

>>223
個人用の大量のデータを思い切って捨てたら、すっきりした。
ミニマリスト最高だよ

**名刺は切らしておりまして** · 2018/02/12(月) 08:52:47.85

>>222
これレイド0+1？
3重ってどういう実装になるの？
カードに3台つなぐと3台でraid1組んでくれるの？

**名刺は切らしておりまして** · 2018/02/12(月) 10:48:37.08

物理的に別のストレージにあるものをソフトウェアミラーリング
が必須

ホットスワップ付きRAID6ディスクアレイを2台用意(もちろん仮想的に2台じゃなく、物理的に2台)
これをOSによるソフトウェアミラーリングで使用

**名刺は切らしておりまして** · 2018/02/12(月) 11:02:03.31

同じ製品の同じロットを使ったんだろう
寒寸製の

**名刺は切らしておりまして** · 2018/02/12(月) 11:10:41.43

RAID1+6にしておけば・・・
まあ、エラーメッセージ見てなかったのが最たる原因だろう

**名刺は切らしておりまして** · 2018/02/12(月) 11:39:45.34

３個同時て
それ同じ電源に接続してたとか？

つか、どっか別の場所でマイグレできるようにしとかんといかん奴なんじゃないの？

**名刺は切らしておりまして** · 2018/02/12(月) 12:02:09.03

>>121
俺もそう思った
そうじゃないと考えられない

**名刺は切らしておりまして** · 2018/02/13(火) 04:11:40.95

RAID0+1とかホットスワップとか、知ったかさん多いな

**名刺は切らしておりまして** · 2018/02/13(火) 10:06:19.39

>>232
学校で勉強して、テストで１文字でも間違えたら、×つけられて？
会社でプレゼン資料作って、１文字でも間違えたら、上司に、×つけられて？
現役の下働きは大変だね。上に行きなよ。

これ、任せたいんだけど、いいかな？から始まって、
やれるだけのことはやりましょう、予算は自由に使うけども、いいよね？
ああ、いいよ、トラブルよりもいいもの
完成、３年ノートラブル。
ほー、いいね。どうやってるの？　コピーしてもいいかな？
そりゃ、いいよ。売ったんだし。
説明はしないけど、ここにドキュメント入ってるから、見て。
誰かに、解析させてもいいかな？
運用終わってからの方がいいんじゃない？
途中で勝手に止めたら、面倒みないよ。

RAIDのレベルがどうのこうのなんてのは、実績の前にはどうでもいいし、客の関心事はそこじゃない。
どんな手段でもいいから、壊れないのを与えたら、なーんにも言わなくなる。
プレゼンする必要もない。
前のと同じ感じで、容量増やしたいんだけど、しか言われない。
そんで、客が勝手に、適当な資料作って、稟議通ればＯＫ
実際に作ったものとプレゼンが違うなんてのはざら。

我が社の過去システムで、これだけの稼働実績のある・・・・の最初の１ページしか、誰も興味ないよ。

**名刺は切らしておりまして** · 2018/02/13(火) 12:48:25.10

>>232はすごいな
あんな短文で>>233をここまでヒートアップさせるなんて

**名刺は切らしておりまして** · 2018/02/13(火) 12:58:34.53

でもサーバー1台とかのしょっぼいオモチャでしょ

**名刺は切らしておりまして** · 2018/02/13(火) 13:26:28.74

技術用語の扱いがいい加減なやつはシステムの扱いもいい加減だからね
RAID0+1はそれ以前の問題だが

**名刺は切らしておりまして** · 2018/02/13(火) 14:19:17.41

seagateの4TBだな。

**名刺は切らしておりまして** · 2018/02/14(水) 08:04:59.72

RAID6(ホットスワップ付き)を物理的に別筐体で２セット用意して、
さらにミラーリング

これが必須だよ

RAID1+6ってやつ

**名刺は切らしておりまして** · 2018/02/14(水) 11:16:44.80

それホントにRAID1+6って呼ぶの？
ディスクの冗長化じゃないと思うけど

**名刺は切らしておりまして** · 2018/02/14(水) 18:57:25.31

>>238
RAID0+1 & ホットスワップさん乙

**名刺は切らしておりまして** · 2018/02/15(木) 15:12:44.29

>>238
それニコスよりヒドイ構成だなw

**名刺は切らしておりまして** · 2018/02/15(木) 16:48:29.20

酷いと言われても必須ですし

**名刺は切らしておりまして** · 2018/02/15(木) 20:58:51.21

>>238
FTサーバーじゃだめなん？

**名刺は切らしておりまして** · 2018/02/15(木) 21:11:10.88

ストレージの耐障害性にFTサーバーがどう関係すんのさ？

**名刺は切らしておりまして** · 2018/02/15(木) 21:20:39.45

大規模なデータセンターならディスクの多点故障とか日常茶飯事

**名刺は切らしておりまして** · 2018/02/15(木) 21:32:47.48

1cm間隔でずらっとSDカードをが刺さってて死んだら自動で排出。
マガジンに空のSDカードがいっぱい入ってて空いたスロットに自動装填、みたいな装置できないかな。
保守は空メディアの補充だけでいいの。

**名刺は切らしておりまして** · 2018/02/15(木) 21:53:04.97

>>244
ＦＴするならＳＳＤしか選択肢ないし
ストレージも２系統
ファイバーのスイッチも２系統
回線もストレージの速度も最高
などのデラックス仕様になって

しかも何かトラブっても予備常時待機でそっちに切り替わるんだから
何の心配もなくなるんだろ

このニコスみたいにケチケチしたようなのだと何が起こっても知らんな

ＦＴじゃないと心配って客はいい客

**名刺は切らしておりまして** · 2018/02/15(木) 21:59:51.58

>>246
テープがそうなってるな

古いのだとMOのオートチェンジャーとか
CDの４００スタックのとかな

SDカードはドライブユニットのコストがほぼゼロだから
チェンジャーで変えるメリットがない

もしSDが１０００枚刺さってるのが欲しいなら、常時１０００枚さしておき、
定格容量を８００枚分にすればノーメンテになる
大規模なの作ると、物理的に力がかかることで死ぬことも心配しなきゃならなくなるから
装置の中に全部収めて、パネルを開けない方が長持ちする

**名刺は切らしておりまして** · 2018/02/15(木) 22:02:20.35

ショッピングのリボ払いで臨時増額返済をATMで受け付けてくれないのはこのせいか？

**名刺は切らしておりまして** · 2018/02/15(木) 22:10:32.88

>>249
その条件で金利請求来たら激おこ

**名刺は切らしておりまして** · 2018/02/15(木) 22:13:03.81

同時3台なら他の要因だろ

**名刺は切らしておりまして** · 2018/02/15(木) 22:15:26.79

誰かが障害原因の言い訳で嘘をつくと、業界全体が迷惑を受けるパターンじゃないかと。
15台中3台が同時なんて

**名刺は切らしておりまして** · 2018/02/15(木) 22:30:28.49

最近明細見てないけど何か最近多く引かれてる様な気が
久しぶりに確認してみるか

**名刺は切らしておりまして** · 2018/02/15(木) 22:46:22.19

>>5
2個壊れてたのを気づかず放置してただけじゃないかと思ってしまう。

**名刺は切らしておりまして** · 2018/02/15(木) 23:41:33.55

>>247
問題を全然理解してないよね。。。
単純にストレージを2系統ってのは>>238のRAID6+1的な考え方

**名刺は切らしておりまして** · 2018/02/16(金) 00:09:47.49

>>255
これの解決方法はいくらでも思いつくが
予算ないからこうなってるんだろう
しかも予算を節約するために頭も使ってないし

まずは、ＤＢがダメなんだからオラクル買えよって話
オラクル買えないならストレージで何とかした上で運用で巻き戻しするとかログから再生しかないが、
そんな面倒なことをニコスが出来る筈もないからこのざま

予算も無い上に今まで動いたたから今後も大丈夫って考えとしか思えない
ＦＴ云々ってのは極端な例を出しただけ

予算があるなら全部任せろ
予算が無いなら客が考えろ、その通りに作るから
ってのが私ののやり方

ストレージが死なないとかマシンが落ちても継続ってのはミニマム条件なんすよ
その上でオペミスとか他社のものがぶっ壊れたとかあってもリカバリーどこまで出来るのか
例えサービス止めてでも取り消ししたい場合もあるし
こういう各種アノマリーを上乗せしてやるが客が全部を想定できるはずもなく
説明もメンドイし緊急事態になるまで関心も示さない
なので、予算重視になるわけ
ＦＴの予算出せるってのはそういうこと

**名刺は切らしておりまして** · 2018/02/16(金) 01:42:35.77

ディスクが三個同時に壊れるのは確かに相当珍しいし、何か外的要因がある気もする。

とは言え普通はディスク装置ごと飛んでも外部バックアップがあるし、広域災害に備えて遠隔地バックアップもしてるでしょ。
１日くらいは止まってもあとに影響なく復旧できるはず。
ここまで大混乱が起きるほどの重要システムならなおさら。

機器の故障くらいでここまでの影響がでるのは、そもそものシステム設計が悪かったとしか思えない。

**名刺は切らしておりまして** · 2018/02/16(金) 23:18:04.91

>>256
やったことないのにこんな所で知ったかしなくていいよ
RAID6やRAID6+1が何でダメなのかっていう基礎から勉強してくれ

>>257
リビルド時の故障も広義では同時
サクッとシステムが死んでれば傷口はもっと浅かっただろうね

**名刺は切らしておりまして** · 2018/02/16(金) 23:38:46.81

raid6の問題ってホールの話？
固定ブロックの場合トランザクションが必要って奴だっけ

**名刺は切らしておりまして** · 2018/02/17(土) 01:14:05.09

>>259
書き込みホールは理論的にはどのRAIDレベルでも発生しうるけど
ハードウェアRAIDの場合は普通対策済みだから現実的に問題になることはまずないよ

**名刺は切らしておりまして** · 2018/02/17(土) 02:21:04.87

RAIDコントローラーが正常に動いてればな
それがSPOFだったら終わり

**名刺は切らしておりまして** · 2018/02/17(土) 08:48:26.39

>>219
海門にやられたからな
ロットごと不良。

**名刺は切らしておりまして** · 2018/02/17(土) 18:40:37.70

>>261
それは全く別の問題だから対策も別だよ
クリティカルなシステムでRAIDコントローラをSPOFにしたりしないしね

**名刺は切らしておりまして** · 2018/02/17(土) 19:28:41.03

ニコス・・・・・

**名刺は切らしておりまして** · 2018/02/17(土) 23:06:27.66

ニコスはRAIDコントローラの障害じゃないよ
典型的なリビルトの問題

カード会社の基幹システムで
RAIDコントローラがSPOFのストレージユニットなんて使うわけない

**名刺は切らしておりまして** · 2018/02/17(土) 23:19:05.17

リビルドに失敗するようなシステムは良くないと思う
故障検出も含めて

**名刺は切らしておりまして** · 2018/02/19(月) 19:27:26.49

先月の１月１５日にニコスポイントをTポイントに移行申込したのに
いまだに移行されていないのもそのせいなのか？？？

**名刺は切らしておりまして** · 2018/02/19(月) 19:43:14.84

ニコスといえば昔の話だが芸能人の明細が目に留まると社内で話題になってたんだよな
○○が△△△を買ったぜなんてな
今じゃーセキュリティーがガチガチで無理だがね
ｂｙ内部告発ではなく、内部つぶやき者

**名刺は切らしておりまして** · 2018/02/19(月) 19:48:01.73

>>266
今は知らんが当時は汎用系でCOBOL
よってそれを言うならリビルドでなくリコンパイルな

**名刺は切らしておりまして** · 2018/02/19(月) 20:31:36.31

>>269
そっちのリビルドじゃなくRAIDのリビルドなw

**名刺は切らしておりまして** · 2018/02/19(月) 20:33:35.81

>>270
失礼！

**名刺は切らしておりまして** · 2018/02/19(月) 20:34:46.78

これは同時に導入したsegateなら、結構あるあるネタだね

**名刺は切らしておりまして** · 2018/02/19(月) 21:14:40.46

ロット不良とかで、たまに食らう。

**名刺は切らしておりまして** · 2018/02/20(火) 00:24:03.64

クリティカルなシステムならSeagateは使わないこと
HGST >>>>> Western Digital >>>>>>>>>>>>>>>>> Seagate

https://www.backblaze.com/blog/hard-drive-stats-for-2017/

**名刺は切らしておりまして** · 2018/02/24(土) 02:48:04.79

まぁsnmpでRAID状態も管理できずに「発見時は同時に壊れていることを認識した」んだろうなぁ。
同時なんかあるわけねーだろが。

**名刺は切らしておりまして** · 2018/02/24(土) 03:27:36.17

普通にあるよ
球数が数百台の小規模なら無いだろうけど

**名刺は切らしておりまして** · 2018/02/24(土) 05:31:38.56

入金を待ってる店側には、ごめんなさい通知が二回。
しかもまだ全額入金されてない

**名刺は切らしておりまして** · 2018/02/24(土) 16:25:30.61

ひどいな
データロストしてて端末側のログと照会してもらう必要あるかもね

**名刺は切らしておりまして** · 2018/02/24(土) 21:49:27.43

>>275
UDPなんか信用できるか

**名刺は切らしておりまして** · 2018/02/25(日) 03:09:48.01

ポーリングしてるからパケットロスしても問題なく障害検知できる
なぜUDPを使ってるのか理解すべき