【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★2018/02/09(金) 00:02:10.35ID:CAP_USER
 三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク(HDD)が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

 故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/

0230名刺は切らしておりまして2018/02/12(月) 11:39:45.34ID:oOtXKe6M
3個同時て
それ同じ電源に接続してたとか?

つか、どっか別の場所でマイグレできるようにしとかんといかん奴なんじゃないの?

0231名刺は切らしておりまして2018/02/12(月) 12:02:09.03ID:JwXj9qwH
>>121
俺もそう思った
そうじゃないと考えられない

0232名刺は切らしておりまして2018/02/13(火) 04:11:40.95ID:IFfvwg4d
RAID0+1とかホットスワップとか、知ったかさん多いな

0233名刺は切らしておりまして2018/02/13(火) 10:06:19.39ID:Y8bnPM68
>>232
学校で勉強して、テストで1文字でも間違えたら、×つけられて?
会社でプレゼン資料作って、1文字でも間違えたら、上司に、×つけられて?
現役の下働きは大変だね。上に行きなよ。

これ、任せたいんだけど、いいかな?から始まって、
やれるだけのことはやりましょう、予算は自由に使うけども、いいよね?
ああ、いいよ、トラブルよりもいいもの
完成、3年ノートラブル。
ほー、いいね。どうやってるの? コピーしてもいいかな?
そりゃ、いいよ。売ったんだし。
説明はしないけど、ここにドキュメント入ってるから、見て。
誰かに、解析させてもいいかな?
運用終わってからの方がいいんじゃない?
途中で勝手に止めたら、面倒みないよ。

RAIDのレベルがどうのこうのなんてのは、実績の前にはどうでもいいし、客の関心事はそこじゃない。
どんな手段でもいいから、壊れないのを与えたら、なーんにも言わなくなる。
プレゼンする必要もない。
前のと同じ感じで、容量増やしたいんだけど、しか言われない。
そんで、客が勝手に、適当な資料作って、稟議通ればOK
実際に作ったものとプレゼンが違うなんてのはざら。

我が社の過去システムで、これだけの稼働実績のある・・・・の最初の1ページしか、誰も興味ないよ。

0234名刺は切らしておりまして2018/02/13(火) 12:48:25.10ID:BZs2L6+E
>>232はすごいな
あんな短文で>>233をここまでヒートアップさせるなんて

0235名刺は切らしておりまして2018/02/13(火) 12:58:34.53ID:t7bNhx4E
でもサーバー1台とかのしょっぼいオモチャでしょ

0236名刺は切らしておりまして2018/02/13(火) 13:26:28.74ID:qcA1pvli
技術用語の扱いがいい加減なやつはシステムの扱いもいい加減だからね
RAID0+1はそれ以前の問題だが

0237名刺は切らしておりまして2018/02/13(火) 14:19:17.41ID:l4RBPEpn
seagateの4TBだな。

0238名刺は切らしておりまして2018/02/14(水) 08:04:59.72ID:On/8Uaf9
RAID6(ホットスワップ付き)を物理的に別筐体で2セット用意して、
さらにミラーリング

これが必須だよ

RAID1+6ってやつ

0239名刺は切らしておりまして2018/02/14(水) 11:16:44.80ID:cyO3SU+q
それホントにRAID1+6って呼ぶの?
ディスクの冗長化じゃないと思うけど

0240名刺は切らしておりまして2018/02/14(水) 18:57:25.31ID:6BtQpgaE
>>238
RAID0+1 & ホットスワップさん乙

0241名刺は切らしておりまして2018/02/15(木) 15:12:44.29ID:lG6EcdIz
>>238
それニコスよりヒドイ構成だなw

0242名刺は切らしておりまして2018/02/15(木) 16:48:29.20ID:WJrtk5g3
酷いと言われても必須ですし

0243名刺は切らしておりまして2018/02/15(木) 20:58:51.21ID:MqxmmuV0
>>238
FTサーバーじゃだめなん?

0244名刺は切らしておりまして2018/02/15(木) 21:11:10.88ID:lG6EcdIz
ストレージの耐障害性にFTサーバーがどう関係すんのさ?

0245名刺は切らしておりまして2018/02/15(木) 21:20:39.45ID:2cncSgCT
大規模なデータセンターならディスクの多点故障とか日常茶飯事

0246名刺は切らしておりまして2018/02/15(木) 21:32:47.48ID:bnftCxmF
1cm間隔でずらっとSDカードをが刺さってて死んだら自動で排出。
マガジンに空のSDカードがいっぱい入ってて空いたスロットに自動装填、みたいな装置できないかな。
保守は空メディアの補充だけでいいの。

0247名刺は切らしておりまして2018/02/15(木) 21:53:04.97ID:tjB5U6hU
>>244
FTするならSSDしか選択肢ないし
ストレージも2系統
ファイバーのスイッチも2系統
回線もストレージの速度も最高
などのデラックス仕様になって

しかも何かトラブっても予備常時待機でそっちに切り替わるんだから
何の心配もなくなるんだろ

このニコスみたいにケチケチしたようなのだと何が起こっても知らんな

FTじゃないと心配って客はいい客

0248名刺は切らしておりまして2018/02/15(木) 21:59:51.58ID:tjB5U6hU
>>246
テープがそうなってるな

古いのだとMOのオートチェンジャーとか
CDの400スタックのとかな

SDカードはドライブユニットのコストがほぼゼロだから
チェンジャーで変えるメリットがない

もしSDが1000枚刺さってるのが欲しいなら、常時1000枚さしておき、
定格容量を800枚分にすればノーメンテになる
大規模なの作ると、物理的に力がかかることで死ぬことも心配しなきゃならなくなるから
装置の中に全部収めて、パネルを開けない方が長持ちする

0249名刺は切らしておりまして2018/02/15(木) 22:02:20.35ID:r7vIhHTO
ショッピングのリボ払いで臨時増額返済をATMで受け付けてくれないのはこのせいか?

0250名刺は切らしておりまして2018/02/15(木) 22:10:32.88ID:tjB5U6hU
>>249
その条件で金利請求来たら激おこ

0251名刺は切らしておりまして2018/02/15(木) 22:13:03.81ID:c0GINld+
同時3台なら他の要因だろ

0252名刺は切らしておりまして2018/02/15(木) 22:15:26.79ID:S6fwokrJ
誰かが障害原因の言い訳で嘘をつくと、業界全体が迷惑を受けるパターンじゃないかと。
15台中3台が同時なんて

0253名刺は切らしておりまして2018/02/15(木) 22:30:28.49ID:r7vIhHTO
最近明細見てないけど何か最近多く引かれてる様な気が
久しぶりに確認してみるか

0254名刺は切らしておりまして2018/02/15(木) 22:46:22.19ID:Kq3fjjIS
>>5
2個壊れてたのを気づかず放置してただけじゃないかと思ってしまう。

0255名刺は切らしておりまして2018/02/15(木) 23:41:33.55ID:lG6EcdIz
>>247
問題を全然理解してないよね。。。
単純にストレージを2系統ってのは>>238のRAID6+1的な考え方

0256名刺は切らしておりまして2018/02/16(金) 00:09:47.49ID:qQQowzCM
>>255
これの解決方法はいくらでも思いつくが
予算ないからこうなってるんだろう
しかも予算を節約するために頭も使ってないし

まずは、DBがダメなんだからオラクル買えよって話
オラクル買えないならストレージで何とかした上で運用で巻き戻しするとかログから再生しかないが、
そんな面倒なことをニコスが出来る筈もないからこのざま

予算も無い上に今まで動いたたから今後も大丈夫って考えとしか思えない
FT云々ってのは極端な例を出しただけ

予算があるなら全部任せろ
予算が無いなら客が考えろ、その通りに作るから
ってのが私ののやり方

ストレージが死なないとかマシンが落ちても継続ってのはミニマム条件なんすよ
その上でオペミスとか他社のものがぶっ壊れたとかあってもリカバリーどこまで出来るのか
例えサービス止めてでも取り消ししたい場合もあるし
こういう各種アノマリーを上乗せしてやるが客が全部を想定できるはずもなく
説明もメンドイし緊急事態になるまで関心も示さない
なので、予算重視になるわけ
FTの予算出せるってのはそういうこと

0257名刺は切らしておりまして2018/02/16(金) 01:42:35.77ID:TmmcYMOv
ディスクが三個同時に壊れるのは確かに相当珍しいし、何か外的要因がある気もする。

とは言え普通はディスク装置ごと飛んでも外部バックアップがあるし、広域災害に備えて遠隔地バックアップもしてるでしょ。
1日くらいは止まってもあとに影響なく復旧できるはず。
ここまで大混乱が起きるほどの重要システムならなおさら。

機器の故障くらいでここまでの影響がでるのは、そもそものシステム設計が悪かったとしか思えない。

0258名刺は切らしておりまして2018/02/16(金) 23:18:04.91ID:Yfx3vYFB
>>256
やったことないのにこんな所で知ったかしなくていいよ
RAID6やRAID6+1が何でダメなのかっていう基礎から勉強してくれ

>>257
リビルド時の故障も広義では同時
サクッとシステムが死んでれば傷口はもっと浅かっただろうね

0259名刺は切らしておりまして2018/02/16(金) 23:38:46.81ID:ra4sbVyC
raid6の問題ってホールの話?
固定ブロックの場合トランザクションが必要って奴だっけ

0260名刺は切らしておりまして2018/02/17(土) 01:14:05.09ID:AwbM99Dk
>>259
書き込みホールは理論的にはどのRAIDレベルでも発生しうるけど
ハードウェアRAIDの場合は普通対策済みだから現実的に問題になることはまずないよ

0261名刺は切らしておりまして2018/02/17(土) 02:21:04.87ID:i3KgyGJo
RAIDコントローラーが正常に動いてればな
それがSPOFだったら終わり

0262名刺は切らしておりまして2018/02/17(土) 08:48:26.39ID:4ITvGo0z
>>219
海門にやられたからな
ロットごと不良。

0263名刺は切らしておりまして2018/02/17(土) 18:40:37.70ID:AwbM99Dk
>>261
それは全く別の問題だから対策も別だよ
クリティカルなシステムでRAIDコントローラをSPOFにしたりしないしね

0264名刺は切らしておりまして2018/02/17(土) 19:28:41.03ID:i3KgyGJo
ニコス・・・・・

0265名刺は切らしておりまして2018/02/17(土) 23:06:27.66ID:AwbM99Dk
ニコスはRAIDコントローラの障害じゃないよ
典型的なリビルトの問題

カード会社の基幹システムで
RAIDコントローラがSPOFのストレージユニットなんて使うわけない

0266名刺は切らしておりまして2018/02/17(土) 23:19:05.17ID:i3KgyGJo
リビルドに失敗するようなシステムは良くないと思う
故障検出も含めて

0267名刺は切らしておりまして2018/02/19(月) 19:27:26.49ID:LuOQlpoy
先月の1月15日にニコスポイントをTポイントに移行申込したのに
いまだに移行されていないのもそのせいなのか???

0268名刺は切らしておりまして2018/02/19(月) 19:43:14.84ID:LuOQlpoy
ニコスといえば昔の話だが芸能人の明細が目に留まると社内で話題になってたんだよな
○○が△△△を買ったぜなんてな
今じゃーセキュリティーがガチガチで無理だがね
by内部告発ではなく、内部つぶやき者

0269名刺は切らしておりまして2018/02/19(月) 19:48:01.73ID:LuOQlpoy
>>266
今は知らんが当時は汎用系でCOBOL
よってそれを言うならリビルドでなくリコンパイルな

0270名刺は切らしておりまして2018/02/19(月) 20:31:36.31ID:CKa4w/5g
>>269
そっちのリビルドじゃなくRAIDのリビルドなw

0271名刺は切らしておりまして2018/02/19(月) 20:33:35.81ID:LuOQlpoy
>>270
失礼!

0272名刺は切らしておりまして2018/02/19(月) 20:34:46.78ID:60KX5Hqq
これは同時に導入したsegateなら、結構あるあるネタだね

0273名刺は切らしておりまして2018/02/19(月) 21:14:40.46ID:tHnudopE
ロット不良とかで、たまに食らう。

0274名刺は切らしておりまして2018/02/20(火) 00:24:03.64ID:BQZf1EBP
クリティカルなシステムならSeagateは使わないこと
HGST >>>>> Western Digital >>>>>>>>>>>>>>>>> Seagate

https://www.backblaze.com/blog/hard-drive-stats-for-2017/

0275名刺は切らしておりまして2018/02/24(土) 02:48:04.79ID:/CuTE3sw
まぁsnmpでRAID状態も管理できずに「発見時は同時に壊れていることを認識した」んだろうなぁ。
同時なんかあるわけねーだろが。

0276名刺は切らしておりまして2018/02/24(土) 03:27:36.17ID:1wKiRvk6
普通にあるよ
球数が数百台の小規模なら無いだろうけど

0277名刺は切らしておりまして2018/02/24(土) 05:31:38.56ID:GS6/FL/b
入金を待ってる店側には、ごめんなさい通知が二回。
しかもまだ全額入金されてない

0278名刺は切らしておりまして2018/02/24(土) 16:25:30.61ID:WExCnq+f
ひどいな
データロストしてて端末側のログと照会してもらう必要あるかもね

0279名刺は切らしておりまして2018/02/24(土) 21:49:27.43ID:H2xFZw3p
>>275
UDPなんか信用できるか

0280名刺は切らしておりまして2018/02/25(日) 03:09:48.01ID:XgQIBg7b
ポーリングしてるからパケットロスしても問題なく障害検知できる
なぜUDPを使ってるのか理解すべき

■ このスレッドは過去ログ倉庫に格納されています