【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

**ノチラ ★** · 2018/02/09(金) 00:02:10.35

　三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク（HDD）が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」（広報）。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

　故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/

**名刺は切らしておりまして** · 2018/02/09(金) 00:04:02.26

んなわけあるカー位

**名刺は切らしておりまして** · 2018/02/09(金) 00:08:30.64

はいはい、想定外想定外

**名刺は切らしておりまして** · 2018/02/09(金) 00:10:18.24

糞寒い時期なのに珍しいな

**名刺は切らしておりまして** · 2018/02/09(金) 00:11:06.70

３個壊れた事が原因じゃなくて、３個同時に壊した何か外的要因を見付けないと再発するんじゃ…

**名刺は切らしておりまして** · 2018/02/09(金) 00:13:16.40

どうせ二個まで大丈夫だから放置してたんだろ

**名刺は切らしておりまして** · 2018/02/09(金) 00:15:32.33

ＨＤＤが３個同時に　　ね。
電源だろ。

**名刺は切らしておりまして** · 2018/02/09(金) 00:16:33.84

ガチで壊れることもあるとか想像できんのかここの馬鹿は

**名刺は切らしておりまして** · 2018/02/09(金) 00:17:01.41

ミラーとかいろいろな障害対応機器にしてないのか？
故障率減らす対策

**名刺は切らしておりまして** · 2018/02/09(金) 00:17:41.75

これまでどう補修してきたかだねぇ。壊れるごとに1つずつ交換していくと
だんだん壊れる確率は上がってくるんだが...

**名刺は切らしておりまして** · 2018/02/09(金) 00:20:12.73

大昔のメインフレームＨＤＤのほうが壊れないとかｗ

**名刺は切らしておりまして** · 2018/02/09(金) 00:20:29.17

ニコスを語った詐欺メールも最近出回ってる
情報も漏れたな
メールにちゃんと本名書かれてる

**名刺は切らしておりまして** · 2018/02/09(金) 00:21:37.11

核EMPだと全システムこれだもんな
北朝鮮危険すぎ

**名刺は切らしておりまして** · 2018/02/09(金) 00:22:19.24

　

こういうのはさ、本当の原因を明らかにしないこともある。
とりあえず出して来た報告はRaid6？の訂正不能エラーだけどさ。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:25:16.00

「同時に」ってのがどのくらいかだよなあ
例えば1週間かけて壊れたなら、監視体制が完全に悪い
本当に1秒の狂いもなく同時に壊れたなら、外的要因だからそれを解決しないといかん

偶然では済まされない話

**名刺は切らしておりまして** · 2018/02/09(金) 00:26:04.20

＞7
俺もそう思うけど、そんなしょぼい電源つかうのかな。。原因教えてほしいな

**名刺は切らしておりまして** · 2018/02/09(金) 00:27:08.11

SDDに変えよう

**名刺は切らしておりまして** · 2018/02/09(金) 00:28:30.29

SSDです　ごめんなさい

**名刺は切らしておりまして** · 2018/02/09(金) 00:28:39.07

　

ハード的には15HDDで2台故障を許容というのは、
まあNICOS程度の重要性ならいいかなって思うけど、

＞一部の利用会員に2重請求が発生したほか、

これはダメっしょ。
ジャーナルとかシステムの欠陥臭い。

それから3台壊れたのも特定の原因が無いか調べた方がいいね。
本当に偶発かどうか。
HDDに負担の大きい周波数の振動が伝わってないかとかだけど。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:30:28.89

　

SSDは増えてるよ。法人向けでは多少高くても。

でもクレカ業界は競争が激しいからなあ。

　

**名刺は切らしておりまして** · 2018/02/09(金) 00:38:44.67

RAID組んでたHDDが2台同時に逝った事はあったわ。
HDDに、データ転送量が一定量に達すると使用不能になる致命的なバグがあった。

Seagateめ…

**名刺は切らしておりまして** · 2018/02/09(金) 00:45:07.50

15個くらいSSDに替えろや

**名刺は切らしておりまして** · 2018/02/09(金) 00:46:32.24

何処製だよww

**名刺は切らしておりまして** · 2018/02/09(金) 00:50:09.46

どうせバラ○ーダやろｗ

**名刺は切らしておりまして** · 2018/02/09(金) 00:50:52.72

同一の初期ロットで何か問題あつろたと考えれるよ
多分公表しないけど

**名刺は切らしておりまして** · 2018/02/09(金) 00:52:23.42

同時故障なんて普通ない
ディスクを収容してるハードウェアの問題を疑う

**名刺は切らしておりまして** · 2018/02/09(金) 00:53:29.11

まあ、電源が原因だろうな。

**名刺は切らしておりまして** · 2018/02/09(金) 00:54:38.87

3個でシステム障害ってRAID6か何かかしら
SOHOとか小規模オフィスレベルの冗長性だのう

**名刺は切らしておりまして** · 2018/02/09(金) 00:58:05.28

>>1
なか～ま
俺もバックアップ含めて3つの同時に飛んだ
物理的にぶっ壊れてだからしょうがないけどね

でも企業がこれはだらしないね

**名刺は切らしておりまして** · 2018/02/09(金) 01:00:40.96

>>15
文系の経営は馬鹿だからこういうことがわからんのです
対応は講じても原因を追求するという研究心がない

**名刺は切らしておりまして** · 2018/02/09(金) 01:08:05.92

RAID6での複数HDD故障は、業務用ならありえる話。

品質の悪い某社製のHDDが多数出回っていて、そいつが連鎖的に壊れる糞製品で、ババ抜き状態に陥ってる。

全部、茨城にあるあの会社のせい！！

**名刺は切らしておりまして** · 2018/02/09(金) 01:12:30.62

昔似たようなことを経験したなぁ。
実際には HDD は故障していないにもかかわらず RAID カードが故障と
みなしてちょいちょい HDD が故障が頻発、データロストしてくれましたよ。
たまたま別サーバ増設時に再発して、新規サーバの RAID カードに
交換してみたら直って原因が発覚したが。

**名刺は切らしておりまして** · 2018/02/09(金) 01:16:40.15

　

新品で導入すると、

HDDで最初の1台が故障すると、短期間のうちの次々と故障することがよくある。
まあ当たり前なんだけどね。

最初の1台故障でHDD全台入替でもいい気がする。

　

**名刺は切らしておりまして** · 2018/02/09(金) 01:22:13.21

>>5

**名刺は切らしておりまして** · 2018/02/09(金) 01:22:17.52

因みに対策は、バックアップを取るかレプリケーションを構築することな。

金をけちって、ストレージ1台でやろうとするから、こんなことになるんだよ。

警報監視の強化とかは短期的な施策であって全然根本解決にならない。
基幹システムなら、金をかけて2重化しろってこと。
ニコスの担当役員がアホなんだろうな。

**名刺は切らしておりまして** · 2018/02/09(金) 01:23:33.33

復旧後に重複請求やらかてるあたり、トランザクションＤＢだと思うので RAID は 10 かな。
３個同時に壊れたとかいってるけど、プレスリリースで対応策のいの一番に監視強化とか
出してる辺り、監視システムの設定忘れなだけだと思う。

**名刺は切らしておりまして** · 2018/02/09(金) 01:23:53.43

同じロットのＨＤＤは同じタイミングで壊れる。何台並列にしていても無意味

**名刺は切らしておりまして** · 2018/02/09(金) 01:24:51.98

これがリスク分散の現実

**名刺は切らしておりまして** · 2018/02/09(金) 01:31:31.06

>>25
RAID 製品はロット不良回避するためにシャッフルしてメーカが出荷してくるよ。

>>26
RAIDカードが誤動作して(実際には故障してないのに)HDD故障連発してくれるやつを
引いたことがあるんで、その可能性はあるね。

>>27
3.5インチの HDD なら 2U で12個収容なので、HDDx15構成の場合はエンクロージャ
２台目にHDD3個収容。これもありうるね。

**名刺は切らしておりまして** · 2018/02/09(金) 01:33:21.64

ニュータニックスのコンバインドサーバーならしのげたんか？

**名刺は切らしておりまして** · 2018/02/09(金) 01:43:06.34

3台に共通してる部分がなんかしらあるはず

**名刺は切らしておりまして** · 2018/02/09(金) 01:43:19.27

だから同一メーカーの同時期導入は辞めろと

**名刺は切らしておりまして** · 2018/02/09(金) 01:49:22.12

>>40
Nutanix オンリーでDB組んでも速度でず使い物にならないないから普通は
ストレージだけ外出しにするね。そうなると Nutanix でもしのげない。

**名刺は切らしておりまして** · 2018/02/09(金) 01:51:05.56

Quantum Fireball に違いない！

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:01.78

シーゲートだな

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:35.87

同時３個のハードディスクじゃなく
壊れてたけどほったらかし状態だったハードが
３個目でトラブルが出たって言う事でしょ
サーバー的なハードって２個で同じ情報を管理し
１個が壊れても修復が出来るって言う品物

**名刺は切らしておりまして** · 2018/02/09(金) 01:55:42.25

ここ、予算カツカツだったからなぁ

**名刺は切らしておりまして** · 2018/02/09(金) 01:58:04.16

これはしょうがない気もするんだが、続報ほしい

**名刺は切らしておりまして** · 2018/02/09(金) 02:03:09.24

他の基幹システムでも、同じ程度の基準で作られていないか？
同程度のあり得ない確率の障害試験も実施を義務付けないと。

**名刺は切らしておりまして** · 2018/02/09(金) 02:03:10.41

基幹システムはraid0+1の考え方の３重ミラーじゃないと駄目なんだよな。
２重だと片ミラー状態からの復旧時にコピー元が壊れてはいさようならになるし。
raid5とか6なんて信頼性無いと思う。

**名刺は切らしておりまして** · 2018/02/09(金) 02:09:02.96

ミラー作っても壊れたデータからミラー作ると被害拡大するだけだしね
色々難しい

**名刺は切らしておりまして** · 2018/02/09(金) 02:13:37.06

誰かが意図的にやったか、ＨＤＤが故障するような環境状態になったか
まあいずれにしても無理やり偶然だったことにするか

**名刺は切らしておりまして** · 2018/02/09(金) 02:41:19.50

RAID6って、全く同じ情報を二つ持っておくやり方と比べて
どっちが安全性が高いですか？

**名刺は切らしておりまして** · 2018/02/09(金) 02:59:17.45

>>6
ニコスでつから　(*つ∀`)ﾃﾍｯ　なんつって

**名刺は切らしておりまして** · 2018/02/09(金) 03:04:01.18

│ 偶然だぞ │
└∩───∩┘
　ヽ(`･ω･)ﾉ

**名刺は切らしておりまして** · 2018/02/09(金) 03:21:20.04

こりゃ、ApplePay対応は期待出来んか。

**名刺は切らしておりまして** · 2018/02/09(金) 03:23:05.06

ユーチューバーと大差ないストレージ環境でカード会社を運営してるのだろうか？

**名刺は切らしておりまして** · 2018/02/09(金) 03:54:54.37

メーカー・モデル名を発表してくれ

**名刺は切らしておりまして** · 2018/02/09(金) 04:15:16.50

個人でもHDD１５台って運用している奴いそうなのに、何だろな

**名刺は切らしておりまして** · 2018/02/09(金) 04:16:07.83

シーゲート製かな

**名刺は切らしておりまして** · 2018/02/09(金) 04:20:45.34

故障という意味ではどのメーカーも故障する
RAID６だから安心ってアカンやろ

**名刺は切らしておりまして** · 2018/02/09(金) 04:24:56.08

社内にメイン、サブ、遠隔地にバックアップって３重ぐらいの安全策取ってるかと思ってたけどそうでもないのね

**名刺は切らしておりまして** · 2018/02/09(金) 04:29:51.73

Raid10
Raid60

**名刺は切らしておりまして** · 2018/02/09(金) 04:37:10.24

流石クレカ業界のみずほと言うべきか

**名刺は切らしておりまして** · 2018/02/09(金) 04:41:26.41

今までで数回、RAIDコントローラーが故障したことある
あれは泣ける

**名刺は切らしておりまして** · 2018/02/09(金) 04:43:30.08

RAID6か
2台壊れてリビルド中になんてことも割とある
同じモデルや近いロット使うから時期はかぶりやすいよな

**名刺は切らしておりまして** · 2018/02/09(金) 04:43:52.07

>>53
同じ情報を持っておくやり方が「3冗長Raid1」であるなら
3冗長Raid1のほうが安全とされる
Disk8枚分の 3冗長Raid1 なら必要な枚数は
8*3=24枚必要
対してRaid6なら
8+2=10枚必要

**名刺は切らしておりまして** · 2018/02/09(金) 04:46:51.27

RAID６だね。こんな良く壊れるものを使ったら事故って当然だろう
RAIDは５とか６とかは設計に欠陥があるから使ったらダメって誰も指摘しなかったんだろうかねー

RAIDで使っていいのは、0+1だけだよ
ホットスタンバイとかバッテリバックアップのRAIDとか全てにおいてRAIDは使わない方がいい
常に３台に同じものを格納しておくのが今の普通のやり方

**名刺は切らしておりまして** · 2018/02/09(金) 04:57:12.68

>>67
ＨＤＤみたいな消耗品かつ値段の安いものをケチケチして、会社のイメージ失墜してたら意味ないよな

>>65
ＲＡＩＤコントローラー自体が何か多重化されてないなら、それが壊れたら全滅だね
RAIDコントローラーは使わない、もし使うとしても、HDDを繋ぐポートが足りないから使う、程度の扱いじゃないとね
ありとあらゆるものがいつか、どこか壊れるのは必然
サーバーのマザーボードも壊れるだろうし、悪くするとラックの電源が切れるかもしれない
いろいろ心配な人は、無停電電源を入れると安心ですよなどと、いい加減なことを言うが、
無停電電源が故障する可能性をわかってない
何もせずに、電源系統を２つにした方がいい
LANケーブルのコネクタも壊れるし、ケーブル切断もするし、到底壊れそうに見えないものも確率で壊れる
信頼性向上のために、余計な装置を、例えばＲＡＩＤカードを使うのは、ダメ

唯一の解決法はどれがどう壊れてもいいように多重化すること、２重じゃ足りないので３重が今時

**名刺は切らしておりまして** · 2018/02/09(金) 04:57:13.23

Seagateかな？

**名刺は切らしておりまして** · 2018/02/09(金) 04:59:27.28

海門かな

**名刺は切らしておりまして** · 2018/02/09(金) 05:07:17.61

繋げてる大元がﾊﾟﾁｯと逝けば連動して死ぬのはトーゼンだろバカかよそれでもシステム屋かよ

**名刺は切らしておりまして** · 2018/02/09(金) 06:17:46.58

>>5
天才

**名刺は切らしておりまして** · 2018/02/09(金) 07:15:14.08

どうせ新しい検証で破壊耐性調べてないロットを3つ使ってほぼ同時に壊れただけじゃないか？
普通製造週離すしアホ運用だったんだろう

**名刺は切らしておりまして** · 2018/02/09(金) 07:50:50.27

三個同時・・・
三菱・・・

**名刺は切らしておりまして** · 2018/02/09(金) 07:53:05.66

こういうのがあるから、いまだに金融期間はホスト使ってるんだよな。
くそ高いけど

**名刺は切らしておりまして** · 2018/02/09(金) 07:55:54.89

ちょいちょいしったかで RAID6 はダメ RAID 0+1 だとか言ってる奴いるが、まず RAID 1+0(orRAID10) だからな。
RAID 0+1 とは別。
あと通常のファイルサーバの類は大概 RAID6。 RAID10 を使うのはデータベースだけで、その理由も
RAID5/6 がランダム書き込みアクセスで IOPS 出せないから。

**名刺は切らしておりまして** · 2018/02/09(金) 07:56:21.11

どうせ海門だろうｗ

**名刺は切らしておりまして** · 2018/02/09(金) 07:57:30.02

意外とショボいハード構成なんだな

**名刺は切らしておりまして** · 2018/02/09(金) 08:11:28.37

>>76
ホストってシャンパンタワーやってるあれか

**名刺は切らしておりまして** · 2018/02/09(金) 08:17:05.03

もともと2台壊れていて、修理する前に3台目が逝ったんだろう？
保守がしょぼい部署はだいたいこれ。

**名刺は切らしておりまして** · 2018/02/09(金) 08:33:45.22

>>81
うがった見方をすれば、メーカーを明かさないのはその辺が理由かな。

でも３発同時故障が無いとも限らないし、原因解析・解明結果で役に立つ情報は公開してほしい。

**名刺は切らしておりまして** · 2018/02/09(金) 08:36:48.54

バックアップとってないの？

**名刺は切らしておりまして** · 2018/02/09(金) 08:37:51.97

このざまで仮想通貨事業とかやめとけマジで

**名刺は切らしておりまして** · 2018/02/09(金) 08:44:47.13

HDDのメーカーはシーゲートかｗ

**名刺は切らしておりまして** · 2018/02/09(金) 08:49:22.60

動物電源でも使ってたんかな

**名刺は切らしておりまして** · 2018/02/09(金) 08:49:58.34

道連れで壊れていくことあるよ
同じコントローラで繋がっているんだし

**名刺は切らしておりまして** · 2018/02/09(金) 08:54:35.49

>>1
２個目の故障までは放置してたんだろ

**名刺は切らしておりまして** · 2018/02/09(金) 08:54:48.87

1個壊れる→RAID6だからいいか
2個壊れる→保守会社に連絡しないと・・・
保守会社がやって来てHDD交換とRAID再構成が終わる前に3個目故障→／(^o^)＼

とか？

**名刺は切らしておりまして** · 2018/02/09(金) 09:04:37.03

>>31
同じロットの製品を同時交換だとあり得るよなぁ。
今回は電源とか冷却が怪しそうだけど。

**名刺は切らしておりまして** · 2018/02/09(金) 09:05:35.46

>>1
RAID 6？

**名刺は切らしておりまして** · 2018/02/09(金) 09:06:56.57

電源が不安定だったんじゃね？

**名刺は切らしておりまして** · 2018/02/09(金) 09:09:41.99

「故障は２個までＯＫ、３個だめ」ニコス

**名刺は切らしておりまして** · 2018/02/09(金) 09:10:07.76

1月の請求書が来なかったのはこのせいなのか？まー、Webでは請求額乗ってたから引き落としはされたけど。

**名刺は切らしておりまして** · 2018/02/09(金) 09:13:28.66

RAIDいくつー？

**名刺は切らしておりまして** · 2018/02/09(金) 09:13:59.75

おれもストレージの障害出てたの見落として危うくデータ飛ばすとこだったから
こういうの見ると思い出して背筋が寒くなる

**名刺は切らしておりまして** · 2018/02/09(金) 09:14:47.34

対策だせーとかいって
また意味不明なコストをかける
これは考慮しなくていい

**名刺は切らしておりまして** · 2018/02/09(金) 09:33:03.71

基幹系システムはRAID6+1は必須だろ
6で留めるからこうなる

**名刺は切らしておりまして** · 2018/02/09(金) 09:39:44.60

ねーーーーーーよ
テロの方が確立あるだろ

**名刺は切らしておりまして** · 2018/02/09(金) 09:42:25.52

RAID5で安心だと思ってた馬鹿か・・・

NTT DATAがまたやらかしたのか・・・

RAID5で組んだRAIDアレイ2組をRAID10で二重化するか、DBを冗長化しとけば
ハードウェアの物理故障なんてそもそも影響を受けない

システム設計した奴が無能すぎ
素人以下だわ

**名刺は切らしておりまして** · 2018/02/09(金) 09:55:37.47

ストレージのロットを分けるとか基本的なことすらしないのかよ

**名刺は切らしておりまして** · 2018/02/09(金) 09:59:05.33

これは、巨額の引き落としを阻止するための、テロかもしれない。
内部犯行あるで

**名刺は切らしておりまして** · 2018/02/09(金) 10:00:34.68

魔法の言葉ソウテイガイ♪

**名刺は切らしておりまして** · 2018/02/09(金) 10:16:09.05

RAID0だったら笑うがさすがにそれはないな

**名刺は切らしておりまして** · 2018/02/09(金) 10:30:33.72

三基同時トラブルってどういう天文学的数字だよ
負荷が半端なかったのかな
実はリビルト失敗だったりして

**名刺は切らしておりまして** · 2018/02/09(金) 10:36:10.29

同ロットで構成するのは怖いよw

**名刺は切らしておりまして** · 2018/02/09(金) 10:36:16.37

自動復旧か2台同時までって言い方ならデータ自体の破損はしてないのかな。
データか失われて復旧できなくなるまで壊れるにはもう1、2台余力あるんじゃね？

ってpdfよくみたらデータの一部が毀損したって書いてあったわ。

**名刺は切らしておりまして** · 2018/02/09(金) 10:40:04.46

保守用として大昔のHDDがいまだに・・・
とか有るからMaxtorだなｗ

**名刺は切らしておりまして** · 2018/02/09(金) 10:42:30.33

>>68
ただの三重書きじゃ同時に3台壊れるとデータが飛ぶのだが

**名刺は切らしておりまして** · 2018/02/09(金) 10:54:29.75

ありがちなのは同一ロットだろうな

**名刺は切らしておりまして** · 2018/02/09(金) 11:05:46.40

HDDが同時に3個壊れる確率より共通部分の不良の確率が高いよね。
電源とかRAIDコントローラーあたりも交換しないと同じトラブルが
起きそう。

**名刺は切らしておりまして** · 2018/02/09(金) 11:07:08.11

SEAGATEかな？
ここのはタイマーが付いてるかのように狙った時期に壊れる
RAID組んだらおおよそ全滅する

**名刺は切らしておりまして** · 2018/02/09(金) 11:07:23.87

３個とも同じメーカー同じ品種のHDDを使っていたという落ちじゃね？

**名刺は切らしておりまして** · 2018/02/09(金) 11:08:49.14

>>5
同じラインで製造されたものはだいたい同じ時期に逝くんだよね。
まぁSamsungかseagateだわな。

**名刺は切らしておりまして** · 2018/02/09(金) 11:09:37.32

コントローラが壊れたのでは？

**名刺は切らしておりまして** · 2018/02/09(金) 11:09:57.60

ただ監視してる君は悪くないよ設計構築した奴らが悪い
だから糞みたいな仕事させられてる監視要員は気に病むな

**名刺は切らしておりまして** · 2018/02/09(金) 11:12:23.19

素人多すぎﾜﾛｽ

レスしてる奴の95%くらい的外れだよ。

**名刺は切らしておりまして** · 2018/02/09(金) 11:23:36.53

掃除のおばちゃんが電源引っこ抜いた？

**名刺は切らしておりまして** · 2018/02/09(金) 11:24:55.91

2001年ごろウェスタンデジタルがやらかしてデータセンターがひどいことになってたわ

**名刺は切らしておりまして** · 2018/02/09(金) 11:27:14.30

たぶん、この会社もシステム構築時の現場担当者は判っていたと思われ
ても、上がバカだとこういう事になる
システム担当重役が名前だけで権限がないとか、素人同然でコスト重視だと、
安全設計にまでコスト節減するんだよね

**名刺は切らしておりまして** · 2018/02/09(金) 11:37:41.19

いまどきのストレージってどういうハードウェア構成なのかな
昔で言う ultra enterprise 450 + Solaris + ZFS みたいな？
raid6(raidz2) + hotspare でリカバリ中に死んだんか

**名刺は切らしておりまして** · 2018/02/09(金) 11:40:35.21

>>109
そうだね、ただの３重書きじゃね

普通のサイズというのも変だが、何十、何百とＨＤＤを使うよね、１０００台もあるだろうね
それらに分散させるんだよ　細かいブロックというかパーティションというかで、

もちろんデータセンターは物理的に離れた、隣町にでも別の建物を用意し、電源なども全部別々。
容量に空きがあれば、４重にすればいいし、全体の容量が足りなければＨＤＤを増やせばいい
正確に３重ではなく、常に最低３重にしておくわけ

ＨＤＤが１台死んだ瞬間に、その死んだＨＤＤを例えば８ＴＢだかを再現するのではなく、どこかのＨＤＤに分散されてデータが３つある状態にすればいい

８ＴＢをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで２台目の故障、
つまり本来は１台壊れていて、２台目のリビルド時にやっと気が付くってのがRAID6の最悪な所
そして、今回のように２個壊れている状況でリビルドに失敗すると、飛ぶ
これが結構あるんだよな
２個までは大丈夫な設計なのに死んだ、同時に３台壊れたからだってのは、実はこういう仕組み

何十、何百というＨＤＤのどこかに物理的に同じではないＨＤＤに３重のデータが格納されていて、余っているどこかに、
生き残った２個、あるいは１個でもいい、のデータを負荷をかけずに配置する、のが今のやり方
何十・何百とあるＨＤＤのうち１個や２個死んでも全体の負荷、つまりリビルドの負荷は増えないし、
ＨＤＤを１本丸ごと再現するために残りのＨＤＤ全てを高負荷にして、通常処理が重くなるのも愚かなやり方
そしてなにより、RAID6じゃ、別の建屋に分散収容できないね
そのラックが死んだら終わりじゃんか
旧時代的すぎるよ

１０００台も使ってたら、毎日何個かは死ぬんだから、そのたびにリビルド負荷高かったら、やってられない
１０００台のうち特定の３台が完全に同時に死ぬなんてことはあり得ない確率だし、心配なら４重にすればいい

書くの面倒なので、今時の分散ファイルシステムで検索しておくれ

**名刺は切らしておりまして** · 2018/02/09(金) 11:42:30.74

RAID カードの異常だろ？

**名刺は切らしておりまして** · 2018/02/09(金) 11:47:15.44

>>118
それな、ほんとかウソか知らんが

大量のラックが並んでいるような所は厳重にカギがかかっているし、そもそも掃除する必要が無いんだよね
ガンガン空調が回ってるから、ほこりとかは空調に全部行っちゃう

入れるのは何個かのドアを通過できる訓練された要員だけだよ
空調のメンテにしても、妙なことにならないか見てるし
寒いしうるさいし、特別な用事が無い限り入りたいとも思わないんじゃないの

**名刺は切らしておりまして** · 2018/02/09(金) 11:53:45.37

>>31
日立？

**名刺は切らしておりまして** · 2018/02/09(金) 11:58:22.76

>>125
日立のストレージ部門なら神奈川じゃね

**名刺は切らしておりまして** · 2018/02/09(金) 11:58:49.56

なんだなんだ？範囲限定極小EMPにでも
やられたんか？

**名刺は切らしておりまして** · 2018/02/09(金) 11:59:49.10

同じロットは購入しないのはデータ保守の鉄則だろww

そんな事も知らないのか? 今のガキは

**名刺は切らしておりまして** · 2018/02/09(金) 12:09:33.15

>>81
保守がショボい場合どこの保守に責任があるかって話もあるからなあ
・保守監視設計が悪い→担当したベンダが悪い
・保守運用が無視してた→担当した会社（発注元のシステム部門or保守担当ベンダ）が悪い
・検出後の対応を怠った→担当した会社（発注元のシステム部門or保守担当ベンダ）が悪い

**名刺は切らしておりまして** · 2018/02/09(金) 12:14:48.25

バックアップ取ってるだろ。普通は翌日には復旧できるよ。

**名刺は切らしておりまして** · 2018/02/09(金) 12:15:32.98

HDD3台死んだだけで業務が止まるとか職務怠慢だろ。企業としてアウト。

**名刺は切らしておりまして** · 2018/02/09(金) 12:15:56.65

2個同時に壊れるとかよく聞くので、3個壊れても別に不思議じゃない。

**名刺は切らしておりまして** · 2018/02/09(金) 12:16:45.33

なんか日本って想定してなかったとか言い訳する馬鹿ばっかだな
壊れる前に定期的にメンテ期間作って取り替えとけばいいだけだろ

**名刺は切らしておりまして** · 2018/02/09(金) 12:18:07.28

>>75
ニクいねｗ

**名刺は切らしておりまして** · 2018/02/09(金) 12:19:54.03

>>129
金払うから保守よろしくって言って、全部他人任せにした発注者が悪いね
どのように保守したのかのチェックさえ丸投げだったんだろう
ベンダーが何を設計して、何を担保してくれるのかさえ分かってないケースだな
下の者は各人の領域で完璧に仕事をしたし、仕様通りに完全な仕事をしたので、隕石が頭にぶつかるような確率の不幸でしたねってなだめてる最中じゃないの

RAID6はダメだから、RAID7にしましょう、とか誰かプレゼン資料作ってるんじゃないの
某大手金融業に見る失敗事例
５では当然ダメ、６でもダメ、これからは我が社の７を
→　故障確率１０００年に一度、これで安心　パチパチ

**名刺は切らしておりまして** · 2018/02/09(金) 12:23:54.59

いわゆる｢稀によくある｣ってやつだな

自転車で他の人は何もないのに、俺だけ普通の道路で数キロおきに四回連続パンクしたことある

**名刺は切らしておりまして** · 2018/02/09(金) 12:24:29.55

ビデオニッピ
って何？

**名刺は切らしておりまして** · 2018/02/09(金) 12:27:10.18

>>21
海門は故障じゃなくて設計から不良だったしな

**名刺は切らしておりまして** · 2018/02/09(金) 12:29:12.89

>>36
RAID10でデータの保証ができるのは1台故障までだよ
2台以上だと無事なケースとそうでないケースが出てくる

**名刺は切らしておりまして** · 2018/02/09(金) 12:31:01.46

三菱製のHDD？

**名刺は切らしておりまして** · 2018/02/09(金) 12:31:56.95

>>135
監視設計しても監視した結果出てきたアラームが報告されて来なくて、サービス影響が出る障害に繋がってから連絡来たときはお前ら真面目に仕事しろよと思ったわ…
障害起きたことについてはそりゃ謝罪するけど今後もその杜撰な予兆監視のやり方だと保守がろくに回るわけないっつーの

**名刺は切らしておりまして** · 2018/02/09(金) 12:34:10.00

天下のUFJ様のクレジットカードがHDD３個逝っただけで業務停止

NICOSカードなんてマイナーなカードは控えるべきだな

**名刺は切らしておりまして** · 2018/02/09(金) 12:37:04.34

>>141
まあ真っ先に想像されるのはそれだよねw

**名刺は切らしておりまして** · 2018/02/09(金) 12:38:14.08

電源をHDD毎に独立させろよ
電源が死ねばそれに繋がっているHDDは一緒に死ぬぞ

**名刺は切らしておりまして** · 2018/02/09(金) 12:42:27.23

>>142
まったくだ
時代はDCカード

**名刺は切らしておりまして** · 2018/02/09(金) 12:45:43.52

>HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。

SeaGateなんか使うから・・・

**名刺は切らしておりまして** · 2018/02/09(金) 12:50:34.91

リビルド中に別の一台が死亡って事か

**名刺は切らしておりまして** · 2018/02/09(金) 12:59:54.59

これHDDの故障じゃなくてシステムのバグが原因で一部のデータが破壊されたとかだったりして

**名刺は切らしておりまして** · 2018/02/09(金) 13:01:22.03

SSD半導体ディスクはもっと危険

**名刺は切らしておりまして** · 2018/02/09(金) 13:03:47.08

>>5

経験上、このような壊れ方はRAIDコントローラかバックプレーンの不具合の場合が多い。
あとはレアケースでHDDが同じロットで、そのロットごと不具合があった場合ぐらいか。

**名刺は切らしておりまして** · 2018/02/09(金) 13:07:48.72

故障確率が低くても、それがいつ発生するかまでは把握できて
ないのが痛いね。　初期故障が無ければ、あとは時間経過とともに
故障確率は上がって行くと思うけど、それの変化カーブを元に
ＨＤＤを定期交換するとシステム停止は回避できると思うよ。

**名刺は切らしておりまして** · 2018/02/09(金) 13:12:49.36

2個故障したのに気付かず、ついに3代目も故障したのでは？

**名刺は切らしておりまして** · 2018/02/09(金) 13:13:51.38

どこかにSPFがあるんだろう。アホが設計するとありがちだ。

**名刺は切らしておりまして** · 2018/02/09(金) 13:19:15.55

一個、二個、サンコーン w

**名刺は切らしておりまして** · 2018/02/09(金) 13:19:41.72

raid6だなw

**名刺は切らしておりまして** · 2018/02/09(金) 13:20:53.77

ここの連中アホばかりだからなー。
ウンザリする。

**名刺は切らしておりまして** · 2018/02/09(金) 13:23:38.62

中間ファイル用だからと思って適当にやってたら、思ったよりクリティカルだったと

**名刺は切らしておりまして** · 2018/02/09(金) 13:24:08.72

raidって障害出たときにサービスしたままリカバリ入るから、別のHDDにまで負荷かかって連鎖的に逝くこと多すぎだよね。

**名刺は切らしておりまして** · 2018/02/09(金) 13:25:31.16

ああ、Seagateか

**名刺は切らしておりまして** · 2018/02/09(金) 13:34:04.26

ＨＤＤの起源は
ゴキブリ韓国（ゴキ韓）
ニダ！<*｀∀´>

**名刺は切らしておりまして** · 2018/02/09(金) 13:36:22.31

RAIDが死ぬのはよくある話
そのためのバックアップなんだけどね

**名刺は切らしておりまして** · 2018/02/09(金) 13:41:46.76

SSDはもっと厄介だぞ
壊れてないようで壊れてたりする奇妙な挙動起こす
システムからのチェックでは検出出来ないパターンがある

**名刺は切らしておりまして** · 2018/02/09(金) 13:53:29.39

今時分、朝一冷えきったのを起動するのって
ドキドキだね！

**名刺は切らしておりまして** · 2018/02/09(金) 13:57:50.85

状況が理解できないがニコスともあろうものがたった１５台のHDDで業務を回してたってことか？

**名刺は切らしておりまして** · 2018/02/09(金) 14:10:50.24

>>30
それを言うなら探究心
実務かかってるのに研究心はないわ

**名刺は切らしておりまして** · 2018/02/09(金) 14:13:53.76

HDDの話でなくて申し訳ないけど、サーバーのメモリーが起動してから日が経つにつれて、使用量が増えていくけど何でなの？

**名刺は切らしておりまして** · 2018/02/09(金) 14:16:20.07

>>122
長文で全角か

**名刺は切らしておりまして** · 2018/02/09(金) 14:19:35.92

>>124
悪意を持ったおばちゃんを想定していない
やり直し

**名刺は切らしておりまして** · 2018/02/09(金) 14:23:29.77

>>166
キーロガーが居座ってるんじゃない？

**名刺は切らしておりまして** · 2018/02/09(金) 14:34:58.40

>>166
メモリリークしてるんだろ
あとはメモリの確認法によるがlinuxならファイルキャッシュに空きメモリ使えるだけ使うからsarとかで単純に見ると増え続けるように見えるよ

**名刺は切らしておりまして** · 2018/02/09(金) 14:45:49.23

>>144
HDD毎に別電源ユニットってことはさすがにないけど、電源系統は多重化されているのが普通
電源にユニットが1台壊れても各HDDへの給電は続くよ

**名刺は切らしておりまして** · 2018/02/09(金) 14:51:14.37

同時に3台故障した可能性よりも気づかない間に2台壊れていて3台目の故障がトドメになった可能性の方が高いと思うわ
普段あまりアクセスされないセクタがいつの間にか壊れていて
リビルドの際にセクタ不良が顕在化したとか

**名刺は切らしておりまして** · 2018/02/09(金) 18:02:59.75

>>158
今回のがそれなら「同時に」とは書かないと思う
コントローラが派手に逝ったか、もしくは監視漏れの馬鹿障害だな。

**名刺は切らしておりまして** · 2018/02/09(金) 18:05:52.10

RAID6ですね
わかります＾＾

**名刺は切らしておりまして** · 2018/02/09(金) 18:17:34.76

>>146
ＨＤＤ１５個だと１か月に１回くらいリビルドが走ったよ
ちなみにそこに付けたのは箱買いしたＷＤ

１６台接続のRAID6で、ホットスペア１個、稼働するの１５個

どこもご家庭にもあるこのRAIDゆにっとが・・・
みたいなしょぼい感じ

録画ＮＡＳ作ってる個人と変わらないレベルだよなあ

せめてデータセンター用のＳＳＤにしろと

**名刺は切らしておりまして** · 2018/02/09(金) 18:19:58.98

>>148
RAIDカードのファームウエアを変更する時の恐怖
バージョン履歴に、安定性の向上とか書いてあったら、もうね

**名刺は切らしておりまして** · 2018/02/09(金) 18:23:44.15

>>162
それどこの？
こっちの経験則だと、ＳＳＤの寿命予測と実際の寿命があまり変わらず、ＳＳＤは凄いなと思ったんだけども
ＳＳＤの電源を入れている限り、ファームが自動的に壊れてる箇所が無いか検査して、スペア領域を消費してる印象だったけどな

**名刺は切らしておりまして** · 2018/02/09(金) 18:29:09.71

>>167
全角を要求されるケースがあって、もちろん相手は文系だ、
更に、文字が小さい、めっちゃ小さくなるモニター入れてから全角も悪くないなと思った

**名刺は切らしておりまして** · 2018/02/09(金) 18:56:31.46

>>173
詳しく説明したところで理解されないから適当に広報しとこうくらいのなんちゃって広報の感触がある

**名刺は切らしておりまして** · 2018/02/09(金) 19:11:22.89

>>179
中の人もちゃんと理解してるか怪しいような

**名刺は切らしておりまして** · 2018/02/09(金) 19:14:25.16

>>98
性能駄々下がりのゴミシステムになるな

**名刺は切らしておりまして** · 2018/02/09(金) 19:14:47.76

>>105
リビルド失敗の典型例。
勘定系でここまでしょぼいのは業務改善命令出ても仕方ない。2時間ルール違反。

**名刺は切らしておりまして** · 2018/02/09(金) 20:19:51.05

4個で運用すれば良かったのに。

**名刺は切らしておりまして** · 2018/02/09(金) 21:06:16.36

>>178
全半角バラバラだからその言い訳は通らない

**名刺は切らしておりまして** · 2018/02/09(金) 21:35:25.63

>>122
> ８ＴＢをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで２台目の故障、
> つまり本来は１台壊れていて、２台目のリビルド時にやっと気が付くってのがRAID6の最悪な所

これはない。通常の Hardware RAID ならそれを回避するのも含めてスクラブかかるから。
スクラブは定期的に HDD なめて、単体HDDでのECCによるエラー訂正や、それでダメなら
RAIDのパリティでのチャンク単位のエラー訂正する処理な。

寧ろ問題なのは RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない場合。
なぜ RAID-Z が作られたかを勉強するべき。
君の言う障害が発生した要因はバッテリがヘタってるか RAID カード壊れているかであって RAID-6
の問題ではない。

あと、えらく分散ファイルシステムを持ち上げてくれちゃってるが、HDFSやハイパーコンバージドシステム
が速いのは大して更新がすくないディスクに対してのみ。
だからWeb検索とかのビッグデータや仮想マシンのＯＳ側ディスクだけにしか使えない。
トランザクショナルＤＢを分散ファイルシステムに置いてしまうと応答速度面で致命的に遅くなる。
やるにしてもトランザクションログをレプリケーション先にリアルタイムで同期するぐらいだ。

RAID10 や RAID6、RAID60、Luster系分散ファイルシステム、クラウド向けの分散ファイル
システム、ビッグデータ系分散ファイルシステムそれぞれ何が長所で何が短所か、何が得意
なのかを勉強してくれ。

**名刺は切らしておりまして** · 2018/02/09(金) 22:56:59.90

>>185
定期スクラブはもちろん毎日や毎週行うべきだけども、容量を全てスキャンするにはかなりの時間と負荷がかかる
そして、この際にアラートが出ても、１個だから平気などと運用される事例は見る。
どうせ自動的に修復されると信じてしまっている運用はあり得る。
２日連続、あるいは２回連続でアラートが出たら、真剣に交換しよう等とね
運用中にスクラブをするということは、ＨＤＤのヘッドを激しく移動させることになる
最近の大容量ＨＤＤはヘッドの平均移動距離が短いから、もしヘッドが大移動を繰り返した結果、
プラッターに傷がつくと、そこからカスが生じ、すぐにダメになる
なので、スクラブ中に他の所が壊れるメカニズムはある

RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない、というのは私には想像できない。
もし、バッテリーに問題が生じるような設計をしたならば、設計欠陥を指摘され、致命的なミスと叩かれるだろう。
RAID-Zについては使っているし、その利点も欠点も、長期の運用での状況もある程度押さえているが、
安全に使える環境の問題から、避ける人もいる。

分散ファイルシステムを使うのはとても高速な専用の線を用いて、高速なSSDを使うことが前提として要求されるのは言うまでもない。
性能が足りなければ、どこかで工夫をしなければならない。
ネットワーク越しの書き込みに対しＨＤＤの回転を待つことがいかに長いかを考えるのは前提。

ＤＢはＤＢそのもので分散機能を持っているものがあるだろう？
それをまず検討すべきで、ファイルシステムに全てをゆだねるなどはしない

まあ、どの程度の費用をかけ、どの程度の信頼性を得るか、そして、その流れの方向は押さえておいたほうがいいだろう
例え、今現在、性能が足りないとしても
だいたいのケースにおいて性能が問題になる場合には、根本的にＤＢの設計が腐ってる場合が多いね
妥協に妥協を加えて、これくらいはいいだろう等と、手を抜いた結果が階層的に積みあがると、腐ってくる
ＤＢが本質的に何をして、どのような処理が行われるのかを理解せずに、ＳＱＬを投げたり、
安易にＤＢの最適化機能に頼ろうとすると、ものすごく遅くなる
そもそも、ＤＢに何を入れるべきかが真剣に検討されていないものが多いからね
言われるまでもないことだろうが・・・あなたにとっては

**名刺は切らしておりまして** · 2018/02/09(金) 23:05:16.92

SeagateとSamsung
買った後にフォームウェアのバクとか知った後の絶望感

**名刺は切らしておりまして** · 2018/02/09(金) 23:44:14.28

スクラブはトラック順にやるだろ普通

**名刺は切らしておりまして** · 2018/02/10(土) 00:39:15.88

RAID6+1にしてりゃ、まだ耐えられたかもな

**名刺は切らしておりまして** · 2018/02/10(土) 04:57:37.48

普通は複数の物理サーバで仮想化してるから
HDDが同時に3個壊れようがRAIDカードに不具合があろうが問題にならない

これだけのシステムを素人が設計・運用するとも思えないので
コストをケチって敢えて脆弱な構成にしたか
コストをケチって敢えてHDD障害を放置する運用体制にしたとしか考えられない

まあ無能な経営者揃いの三菱らしくていいんじゃない?w

**名刺は切らしておりまして** · 2018/02/10(土) 07:44:32.65

重要なシステムは、ホットスワップ付きRAID5ストレージを２台ミラーリングするもんだ
また、メインストレージが飛んでも、バックアップデータとログから再実行して復元できるようにしとくもんだ

**名刺は切らしておりまして** · 2018/02/10(土) 08:00:39.76

>>1
今の企業ってどこも　壊れるまで使うっていうのが糞みたいな当たり前の話だからな
だから絶対に障害は生じるわけだよ　壊れなくても定期交換するのがリスク回避
そういう極当たりまえの経営判断をできないのが　日本の企業経営者　事案が発生しようが
責任はぜーぶん現場のせいにする　見てみなよ　神戸製鋼　東芝　日産　スバル　三菱マテリアル　全部そうだろｗ

**名刺は切らしておりまして** · 2018/02/10(土) 08:28:44.94

昔IBM製のHDDが立て続けに2台逝った事のある身としてはよく分かる

**名刺は切らしておりまして** · 2018/02/10(土) 08:53:23.57

>>191
ＲＡＩＤ５やホットスワップは気休め。
万能じゃない。
このスレに「ＲＡＩＤにしとけよ」とか言っている人がたくさんいるが、
ファイルサーバー程度しか作ったことがない人なのだろう。

ＲＡＩＤにより、データ損失はないかもしれないが、パリティからの
データ自動回復で一気にシステムが遅滞する。
ファイルサーバーや静的なコンテンツ参照のWebサイトなら
それでもなんとかなる。
だけど、オンライントランザクションシステムやバッチ処理システムだと、
自動回復が始まったとたんに急速にレスポンスが低下する。

さらに、パリティからデータ自動回復をやりながらシステムを動かすと、
回復と処理の負荷で、他のディスクまで壊れるということもたまにある
というのが俺の実経験。
三菱ＵＦＪニコスで起きたのも、そういうことなんだろう。
玉突き事故を、「（ほぼ）同時」と言っているのだと思われる。

オンラインやバッチ系のシステムでは、ＲＡＩＤはさらなるディスク故障を
招く原因になることもある。
それを防ぐには

　・機械部品の動作がないオールフラッシュのストレージにする

　・そんな金がないなら、パリティからのデータ回復がはじまったら
　　すみやかにシステムを停止するか、処理を書き込みがない
　　参照オンリーにシステムの設定を変更する。
　　ホットスワップはあくまで、即時システムダウンしないための
　　一時しのぎであると理解し、「ホットスワップがあるから動かし続けよう」
　　ではなく、まずはシステムを止めることを優先する

と理解すべきだ。

**名刺は切らしておりまして** · 2018/02/10(土) 09:43:35.23

まぁ究極的には運頼みだな。

技術的な事情はほとんど公開されてないのに、バカだの素人だのこき下ろせる人がいるのが不思議だ。

自分んとこのシステムは盤石だと信じられるのは、勝手に自分の責任範囲を線引きしてるか、
それこそバカと素人だけではないだろうか。

**185** · 2018/02/10(土) 11:02:54.62

>>186
> 定期スクラブはもちろん毎日や毎週行うべきだけども
長文だなーって思ったけど、しょっぱなのここですでにアウトだわ。

> ２日連続、あるいは２回連続でアラートが出たら、
RAID-5 カード使わないのが想像できない人がこんなことは言わない。

> ネットワーク越しの書き込みに対しＨＤＤの回転を待つことがいかに長いかを考えるのは前提。
なんでバッテリ付きなのかわかってないね、君は。
あと処理には同期書き込みと非同期書き込みがある事を全く考慮していないな。

> ＤＢはＤＢそのもので分散機能を持っているものがあるだろう？
予算という物があってだね、全てのプロジェクトで Oracle Exadata が使えるわけじゃないんだよ。

ストレージ業界で生きてないなら知ったかやめてくれ、ほんとに。

**名刺は切らしておりまして** · 2018/02/10(土) 11:13:32.57

>>191
業務用途の場合は RAID6 か RAID60、RAID6だと物足りないという客向けにここ最近で
トリプルパリティが出てきた。 RAID51 なんてやってる/客に薦めるところなんて聞いたことが無いな。
どこの何て言う製品を使ってるんだ？

やるにしても製品固有の機能での別筐体／別拠点への非リアルタイム系同期で RAID51相当／
RAID61相当にするぐらいだわ。

あと、ログから再実行ってトランザクショナルＤＢのロールフォワードの事を言っているんだと思うが、
データベースの時点で RAID10 一択で RAID5,6 はあり得んよ。

**名刺は切らしておりまして** · 2018/02/10(土) 11:56:49.36

>>191
ミラーリング＋３ndがよいとされていね
RAIDカードがやられたときにも対処できるように
ソフトRAIDも併用するとか

**名刺は切らしておりまして** · 2018/02/10(土) 12:54:33.33

>>177
何台も扱った修理専門のCEの感想
検出しきれずチェックツールがウソ返しやがる
正常に読み書き出来てるようで出来てない壊れ方する

**名刺は切らしておりまして** · 2018/02/10(土) 13:00:04.32

>>199
メーカーごとに違いなかったの？