【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

**ノチラ ★** · 2018/02/09(金) 00:02:10.35

　三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク（HDD）が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」（広報）。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

　故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/

**名刺は切らしておりまして** · 2018/02/09(金) 00:04:02.26

んなわけあるカー位

**名刺は切らしておりまして** · 2018/02/09(金) 00:08:30.64

はいはい、想定外想定外

**名刺は切らしておりまして** · 2018/02/09(金) 00:10:18.24

糞寒い時期なのに珍しいな

**名刺は切らしておりまして** · 2018/02/09(金) 00:11:06.70

３個壊れた事が原因じゃなくて、３個同時に壊した何か外的要因を見付けないと再発するんじゃ…

**名刺は切らしておりまして** · 2018/02/09(金) 00:13:16.40

どうせ二個まで大丈夫だから放置してたんだろ

**名刺は切らしておりまして** · 2018/02/09(金) 00:15:32.33

ＨＤＤが３個同時に　　ね。
電源だろ。

**名刺は切らしておりまして** · 2018/02/09(金) 00:16:33.84

ガチで壊れることもあるとか想像できんのかここの馬鹿は

**名刺は切らしておりまして** · 2018/02/09(金) 00:17:01.41

ミラーとかいろいろな障害対応機器にしてないのか？
故障率減らす対策

**名刺は切らしておりまして** · 2018/02/09(金) 00:17:41.75

これまでどう補修してきたかだねぇ。壊れるごとに1つずつ交換していくと
だんだん壊れる確率は上がってくるんだが...

**名刺は切らしておりまして** · 2018/02/09(金) 00:20:12.73

大昔のメインフレームＨＤＤのほうが壊れないとかｗ

**名刺は切らしておりまして** · 2018/02/09(金) 00:20:29.17

ニコスを語った詐欺メールも最近出回ってる
情報も漏れたな
メールにちゃんと本名書かれてる

**名刺は切らしておりまして** · 2018/02/09(金) 00:21:37.11

核EMPだと全システムこれだもんな
北朝鮮危険すぎ

**名刺は切らしておりまして** · 2018/02/09(金) 00:22:19.24

　

こういうのはさ、本当の原因を明らかにしないこともある。
とりあえず出して来た報告はRaid6？の訂正不能エラーだけどさ。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:25:16.00

「同時に」ってのがどのくらいかだよなあ
例えば1週間かけて壊れたなら、監視体制が完全に悪い
本当に1秒の狂いもなく同時に壊れたなら、外的要因だからそれを解決しないといかん

偶然では済まされない話

**名刺は切らしておりまして** · 2018/02/09(金) 00:26:04.20

＞7
俺もそう思うけど、そんなしょぼい電源つかうのかな。。原因教えてほしいな

**名刺は切らしておりまして** · 2018/02/09(金) 00:27:08.11

SDDに変えよう

**名刺は切らしておりまして** · 2018/02/09(金) 00:28:30.29

SSDです　ごめんなさい

**名刺は切らしておりまして** · 2018/02/09(金) 00:28:39.07

　

ハード的には15HDDで2台故障を許容というのは、
まあNICOS程度の重要性ならいいかなって思うけど、

＞一部の利用会員に2重請求が発生したほか、

これはダメっしょ。
ジャーナルとかシステムの欠陥臭い。

それから3台壊れたのも特定の原因が無いか調べた方がいいね。
本当に偶発かどうか。
HDDに負担の大きい周波数の振動が伝わってないかとかだけど。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:30:28.89

　

SSDは増えてるよ。法人向けでは多少高くても。

でもクレカ業界は競争が激しいからなあ。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:38:44.67

RAID組んでたHDDが2台同時に逝った事はあったわ。
HDDに、データ転送量が一定量に達すると使用不能になる致命的なバグがあった。

Seagateめ…

**名刺は切らしておりまして** · 2018/02/09(金) 00:45:07.50

15個くらいSSDに替えろや

**名刺は切らしておりまして** · 2018/02/09(金) 00:46:32.24

何処製だよww

**名刺は切らしておりまして** · 2018/02/09(金) 00:50:09.46

どうせバラ○ーダやろｗ

**名刺は切らしておりまして** · 2018/02/09(金) 00:50:52.72

同一の初期ロットで何か問題あつろたと考えれるよ
多分公表しないけど

**名刺は切らしておりまして** · 2018/02/09(金) 00:52:23.42

同時故障なんて普通ない
ディスクを収容してるハードウェアの問題を疑う

**名刺は切らしておりまして** · 2018/02/09(金) 00:53:29.11

まあ、電源が原因だろうな。

**名刺は切らしておりまして** · 2018/02/09(金) 00:54:38.87

3個でシステム障害ってRAID6か何かかしら
SOHOとか小規模オフィスレベルの冗長性だのう

**名刺は切らしておりまして** · 2018/02/09(金) 00:58:05.28

>>1
なか～ま
俺もバックアップ含めて3つの同時に飛んだ
物理的にぶっ壊れてだからしょうがないけどね

でも企業がこれはだらしないね

**名刺は切らしておりまして** · 2018/02/09(金) 01:00:40.96

>>15
文系の経営は馬鹿だからこういうことがわからんのです
対応は講じても原因を追求するという研究心がない

**名刺は切らしておりまして** · 2018/02/09(金) 01:08:05.92

RAID6での複数HDD故障は、業務用ならありえる話。

品質の悪い某社製のHDDが多数出回っていて、そいつが連鎖的に壊れる糞製品で、ババ抜き状態に陥ってる。

全部、茨城にあるあの会社のせい！！

**名刺は切らしておりまして** · 2018/02/09(金) 01:12:30.62

昔似たようなことを経験したなぁ。
実際には HDD は故障していないにもかかわらず RAID カードが故障と
みなしてちょいちょい HDD が故障が頻発、データロストしてくれましたよ。
たまたま別サーバ増設時に再発して、新規サーバの RAID カードに
交換してみたら直って原因が発覚したが。

**名刺は切らしておりまして** · 2018/02/09(金) 01:16:40.15

　

新品で導入すると、

HDDで最初の1台が故障すると、短期間のうちの次々と故障することがよくある。
まあ当たり前なんだけどね。

最初の1台故障でHDD全台入替でもいい気がする。

　

**名刺は切らしておりまして** · 2018/02/09(金) 01:22:13.21

>>5

**名刺は切らしておりまして** · 2018/02/09(金) 01:22:17.52

因みに対策は、バックアップを取るかレプリケーションを構築することな。

金をけちって、ストレージ1台でやろうとするから、こんなことになるんだよ。

警報監視の強化とかは短期的な施策であって全然根本解決にならない。
基幹システムなら、金をかけて2重化しろってこと。
ニコスの担当役員がアホなんだろうな。

**名刺は切らしておりまして** · 2018/02/09(金) 01:23:33.33

復旧後に重複請求やらかてるあたり、トランザクションＤＢだと思うので RAID は 10 かな。
３個同時に壊れたとかいってるけど、プレスリリースで対応策のいの一番に監視強化とか
出してる辺り、監視システムの設定忘れなだけだと思う。

**名刺は切らしておりまして** · 2018/02/09(金) 01:23:53.43

同じロットのＨＤＤは同じタイミングで壊れる。何台並列にしていても無意味

**名刺は切らしておりまして** · 2018/02/09(金) 01:24:51.98

これがリスク分散の現実

**名刺は切らしておりまして** · 2018/02/09(金) 01:31:31.06

>>25
RAID 製品はロット不良回避するためにシャッフルしてメーカが出荷してくるよ。

>>26
RAIDカードが誤動作して(実際には故障してないのに)HDD故障連発してくれるやつを
引いたことがあるんで、その可能性はあるね。

>>27
3.5インチの HDD なら 2U で12個収容なので、HDDx15構成の場合はエンクロージャ
２台目にHDD3個収容。これもありうるね。

**名刺は切らしておりまして** · 2018/02/09(金) 01:33:21.64

ニュータニックスのコンバインドサーバーならしのげたんか？

**名刺は切らしておりまして** · 2018/02/09(金) 01:43:06.34

3台に共通してる部分がなんかしらあるはず

**名刺は切らしておりまして** · 2018/02/09(金) 01:43:19.27

だから同一メーカーの同時期導入は辞めろと

**名刺は切らしておりまして** · 2018/02/09(金) 01:49:22.12

>>40
Nutanix オンリーでDB組んでも速度でず使い物にならないないから普通は
ストレージだけ外出しにするね。そうなると Nutanix でもしのげない。

**名刺は切らしておりまして** · 2018/02/09(金) 01:51:05.56

Quantum Fireball に違いない！

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:01.78

シーゲートだな

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:35.87

同時３個のハードディスクじゃなく
壊れてたけどほったらかし状態だったハードが
３個目でトラブルが出たって言う事でしょ
サーバー的なハードって２個で同じ情報を管理し
１個が壊れても修復が出来るって言う品物

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:42.25

ここ、予算カツカツだったからなぁ

**名刺は切らしておりまして** · 2018/02/09(金) 01:58:04.16

これはしょうがない気もするんだが、続報ほしい

**名刺は切らしておりまして** · 2018/02/09(金) 02:03:09.24

他の基幹システムでも、同じ程度の基準で作られていないか？
同程度のあり得ない確率の障害試験も実施を義務付けないと。

**名刺は切らしておりまして** · 2018/02/09(金) 02:03:10.41

基幹システムはraid0+1の考え方の３重ミラーじゃないと駄目なんだよな。
２重だと片ミラー状態からの復旧時にコピー元が壊れてはいさようならになるし。
raid5とか6なんて信頼性無いと思う。

**名刺は切らしておりまして** · 2018/02/09(金) 02:09:02.96

ミラー作っても壊れたデータからミラー作ると被害拡大するだけだしね
色々難しい

**名刺は切らしておりまして** · 2018/02/09(金) 02:13:37.06

誰かが意図的にやったか、ＨＤＤが故障するような環境状態になったか
まあいずれにしても無理やり偶然だったことにするか

**名刺は切らしておりまして** · 2018/02/09(金) 02:41:19.50

RAID6って、全く同じ情報を二つ持っておくやり方と比べて
どっちが安全性が高いですか？

**名刺は切らしておりまして** · 2018/02/09(金) 02:59:17.45

>>6
ニコスでつから　(*つ∀`)ﾃﾍｯ　なんつって

**名刺は切らしておりまして** · 2018/02/09(金) 03:04:01.18

│ 偶然だぞ │
└∩───∩┘
　ヽ(`･ω･)ﾉ

**名刺は切らしておりまして** · 2018/02/09(金) 03:21:20.04

こりゃ、ApplePay対応は期待出来んか。

**名刺は切らしておりまして** · 2018/02/09(金) 03:23:05.06

ユーチューバーと大差ないストレージ環境でカード会社を運営してるのだろうか？

**名刺は切らしておりまして** · 2018/02/09(金) 03:54:54.37

メーカー・モデル名を発表してくれ

**名刺は切らしておりまして** · 2018/02/09(金) 04:15:16.50

個人でもHDD１５台って運用している奴いそうなのに、何だろな

**名刺は切らしておりまして** · 2018/02/09(金) 04:16:07.83

シーゲート製かな

**名刺は切らしておりまして** · 2018/02/09(金) 04:20:45.34

故障という意味ではどのメーカーも故障する
RAID６だから安心ってアカンやろ

**名刺は切らしておりまして** · 2018/02/09(金) 04:24:56.08

社内にメイン、サブ、遠隔地にバックアップって３重ぐらいの安全策取ってるかと思ってたけどそうでもないのね

**名刺は切らしておりまして** · 2018/02/09(金) 04:29:51.73

Raid10
Raid60

**名刺は切らしておりまして** · 2018/02/09(金) 04:37:10.24

流石クレカ業界のみずほと言うべきか

**名刺は切らしておりまして** · 2018/02/09(金) 04:41:26.41

今までで数回、RAIDコントローラーが故障したことある
あれは泣ける

**名刺は切らしておりまして** · 2018/02/09(金) 04:43:30.08

RAID6か
2台壊れてリビルド中になんてことも割とある
同じモデルや近いロット使うから時期はかぶりやすいよな

**名刺は切らしておりまして** · 2018/02/09(金) 04:43:52.07

>>53
同じ情報を持っておくやり方が「3冗長Raid1」であるなら
3冗長Raid1のほうが安全とされる
Disk8枚分の 3冗長Raid1 なら必要な枚数は
8*3=24枚必要
対してRaid6なら
8+2=10枚必要

**名刺は切らしておりまして** · 2018/02/09(金) 04:46:51.27

RAID６だね。こんな良く壊れるものを使ったら事故って当然だろう
RAIDは５とか６とかは設計に欠陥があるから使ったらダメって誰も指摘しなかったんだろうかねー

RAIDで使っていいのは、0+1だけだよ
ホットスタンバイとかバッテリバックアップのRAIDとか全てにおいてRAIDは使わない方がいい
常に３台に同じものを格納しておくのが今の普通のやり方

**名刺は切らしておりまして** · 2018/02/09(金) 04:57:12.68

>>67
ＨＤＤみたいな消耗品かつ値段の安いものをケチケチして、会社のイメージ失墜してたら意味ないよな

>>65
ＲＡＩＤコントローラー自体が何か多重化されてないなら、それが壊れたら全滅だね
RAIDコントローラーは使わない、もし使うとしても、HDDを繋ぐポートが足りないから使う、程度の扱いじゃないとね
ありとあらゆるものがいつか、どこか壊れるのは必然
サーバーのマザーボードも壊れるだろうし、悪くするとラックの電源が切れるかもしれない
いろいろ心配な人は、無停電電源を入れると安心ですよなどと、いい加減なことを言うが、
無停電電源が故障する可能性をわかってない
何もせずに、電源系統を２つにした方がいい
LANケーブルのコネクタも壊れるし、ケーブル切断もするし、到底壊れそうに見えないものも確率で壊れる
信頼性向上のために、余計な装置を、例えばＲＡＩＤカードを使うのは、ダメ

唯一の解決法はどれがどう壊れてもいいように多重化すること、２重じゃ足りないので３重が今時

**名刺は切らしておりまして** · 2018/02/09(金) 04:57:13.23

Seagateかな？

**名刺は切らしておりまして** · 2018/02/09(金) 04:59:27.28

海門かな

**名刺は切らしておりまして** · 2018/02/09(金) 05:07:17.61

繋げてる大元がﾊﾟﾁｯと逝けば連動して死ぬのはトーゼンだろバカかよそれでもシステム屋かよ

**名刺は切らしておりまして** · 2018/02/09(金) 06:17:46.58

>>5
天才

**名刺は切らしておりまして** · 2018/02/09(金) 07:15:14.08

どうせ新しい検証で破壊耐性調べてないロットを3つ使ってほぼ同時に壊れただけじゃないか？
普通製造週離すしアホ運用だったんだろう

**名刺は切らしておりまして** · 2018/02/09(金) 07:50:50.27

三個同時・・・
三菱・・・

**名刺は切らしておりまして** · 2018/02/09(金) 07:53:05.66

こういうのがあるから、いまだに金融期間はホスト使ってるんだよな。
くそ高いけど

**名刺は切らしておりまして** · 2018/02/09(金) 07:55:54.89

ちょいちょいしったかで RAID6 はダメ RAID 0+1 だとか言ってる奴いるが、まず RAID 1+0(orRAID10) だからな。
RAID 0+1 とは別。
あと通常のファイルサーバの類は大概 RAID6。 RAID10 を使うのはデータベースだけで、その理由も
RAID5/6 がランダム書き込みアクセスで IOPS 出せないから。

**名刺は切らしておりまして** · 2018/02/09(金) 07:56:21.11

どうせ海門だろうｗ

**名刺は切らしておりまして** · 2018/02/09(金) 07:57:30.02

意外とショボいハード構成なんだな

**名刺は切らしておりまして** · 2018/02/09(金) 08:11:28.37

>>76
ホストってシャンパンタワーやってるあれか

**名刺は切らしておりまして** · 2018/02/09(金) 08:17:05.03

もともと2台壊れていて、修理する前に3台目が逝ったんだろう？
保守がしょぼい部署はだいたいこれ。

**名刺は切らしておりまして** · 2018/02/09(金) 08:33:45.22

>>81
うがった見方をすれば、メーカーを明かさないのはその辺が理由かな。

でも３発同時故障が無いとも限らないし、原因解析・解明結果で役に立つ情報は公開してほしい。

**名刺は切らしておりまして** · 2018/02/09(金) 08:36:48.54

バックアップとってないの？

**名刺は切らしておりまして** · 2018/02/09(金) 08:37:51.97

このざまで仮想通貨事業とかやめとけマジで

**名刺は切らしておりまして** · 2018/02/09(金) 08:44:47.13

HDDのメーカーはシーゲートかｗ

**名刺は切らしておりまして** · 2018/02/09(金) 08:49:22.60

動物電源でも使ってたんかな

**名刺は切らしておりまして** · 2018/02/09(金) 08:49:58.34

道連れで壊れていくことあるよ
同じコントローラで繋がっているんだし

**名刺は切らしておりまして** · 2018/02/09(金) 08:54:35.49

>>1
２個目の故障までは放置してたんだろ

**名刺は切らしておりまして** · 2018/02/09(金) 08:54:48.87

1個壊れる→RAID6だからいいか
2個壊れる→保守会社に連絡しないと・・・
保守会社がやって来てHDD交換とRAID再構成が終わる前に3個目故障→／(^o^)＼

とか？

**名刺は切らしておりまして** · 2018/02/09(金) 09:04:37.03

>>31
同じロットの製品を同時交換だとあり得るよなぁ。
今回は電源とか冷却が怪しそうだけど。

**名刺は切らしておりまして** · 2018/02/09(金) 09:05:35.46

>>1
RAID 6？

**名刺は切らしておりまして** · 2018/02/09(金) 09:06:56.57

電源が不安定だったんじゃね？

**名刺は切らしておりまして** · 2018/02/09(金) 09:09:41.99

「故障は２個までＯＫ、３個だめ」ニコス

**名刺は切らしておりまして** · 2018/02/09(金) 09:10:07.76

1月の請求書が来なかったのはこのせいなのか？まー、Webでは請求額乗ってたから引き落としはされたけど。

**名刺は切らしておりまして** · 2018/02/09(金) 09:13:28.66

RAIDいくつー？

**名刺は切らしておりまして** · 2018/02/09(金) 09:13:59.75

おれもストレージの障害出てたの見落として危うくデータ飛ばすとこだったから
こういうの見ると思い出して背筋が寒くなる

**名刺は切らしておりまして** · 2018/02/09(金) 09:14:47.34

対策だせーとかいって
また意味不明なコストをかける
これは考慮しなくていい

**名刺は切らしておりまして** · 2018/02/09(金) 09:33:03.71

基幹系システムはRAID6+1は必須だろ
6で留めるからこうなる

**名刺は切らしておりまして** · 2018/02/09(金) 09:39:44.60

ねーーーーーーよ
テロの方が確立あるだろ

**名刺は切らしておりまして** · 2018/02/09(金) 09:42:25.52

RAID5で安心だと思ってた馬鹿か・・・

NTT DATAがまたやらかしたのか・・・

RAID5で組んだRAIDアレイ2組をRAID10で二重化するか、DBを冗長化しとけば
ハードウェアの物理故障なんてそもそも影響を受けない

システム設計した奴が無能すぎ
素人以下だわ