X



【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★
垢版 |
2018/02/09(金) 00:02:10.35ID:CAP_USER
 三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク(HDD)が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

 故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/
0103名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:00:34.68ID:Lv7zhZZe
魔法の言葉ソウテイガイ♪
0105名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:30:33.72ID:PhEkoBQz
三基同時トラブルってどういう天文学的数字だよ
負荷が半端なかったのかな
実はリビルト失敗だったりして
0107名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:36:16.37ID:HhkLm+o0
自動復旧か2台同時までって言い方ならデータ自体の破損はしてないのかな。
データか失われて復旧できなくなるまで壊れるにはもう1、2台余力あるんじゃね?


ってpdfよくみたらデータの一部が毀損したって書いてあったわ。
0108名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:40:04.46ID:ytDsdbgH
保守用として大昔のHDDがいまだに・・・
とか有るからMaxtorだなw
0109名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:42:30.33ID:+IhZZPA/
>>68
ただの三重書きじゃ同時に3台壊れるとデータが飛ぶのだが
0111名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:05:46.40ID:Vs8PeuSi
HDDが同時に3個壊れる確率より共通部分の不良の確率が高いよね。
電源とかRAIDコントローラーあたりも交換しないと同じトラブルが
起きそう。
0112名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:07:08.11ID:VPL9J3is
SEAGATEかな?
ここのはタイマーが付いてるかのように狙った時期に壊れる
RAID組んだらおおよそ全滅する
0113名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:07:23.87ID:72deImtn
3個とも同じメーカー同じ品種のHDDを使っていたという落ちじゃね?
0114名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:08:49.14ID:dMuSUXZt
>>5
同じラインで製造されたものはだいたい同じ時期に逝くんだよね。
まぁSamsungかseagateだわな。
0116名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:09:57.60ID:fvoABkqW
ただ監視してる君は悪くないよ設計構築した奴らが悪い
だから糞みたいな仕事させられてる監視要員は気に病むな
0118名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:23:36.53ID:NZa1UtUW
掃除のおばちゃんが電源引っこ抜いた?
0119名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:24:55.91ID:OQiM2+ag
2001年ごろウェスタンデジタルがやらかしてデータセンターがひどいことになってたわ
0120名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:27:14.30ID:T1fi5Wcb
たぶん、この会社もシステム構築時の現場担当者は判っていたと思われ
ても、上がバカだとこういう事になる
システム担当重役が名前だけで権限がないとか、素人同然でコスト重視だと、
安全設計にまでコスト節減するんだよね
0121名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:37:41.19ID:KTCMHxLd
いまどきのストレージってどういうハードウェア構成なのかな
昔で言う ultra enterprise 450 + Solaris + ZFS みたいな?
raid6(raidz2) + hotspare でリカバリ中に死んだんか
0122名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:40:35.21ID:e+e2LsnU
>>109
そうだね、ただの3重書きじゃね

普通のサイズというのも変だが、何十、何百とHDDを使うよね、1000台もあるだろうね
それらに分散させるんだよ 細かいブロックというかパーティションというかで、

もちろんデータセンターは物理的に離れた、隣町にでも別の建物を用意し、電源なども全部別々。
容量に空きがあれば、4重にすればいいし、全体の容量が足りなければHDDを増やせばいい
正確に3重ではなく、常に最低3重にしておくわけ

HDDが1台死んだ瞬間に、その死んだHDDを例えば8TBだかを再現するのではなく、どこかのHDDに分散されてデータが3つある状態にすればいい

8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所
そして、今回のように2個壊れている状況でリビルドに失敗すると、飛ぶ
これが結構あるんだよな
2個までは大丈夫な設計なのに死んだ、同時に3台壊れたからだってのは、実はこういう仕組み

何十、何百というHDDのどこかに物理的に同じではないHDDに3重のデータが格納されていて、余っているどこかに、
生き残った2個、あるいは1個でもいい、のデータを負荷をかけずに配置する、のが今のやり方
何十・何百とあるHDDのうち1個や2個死んでも全体の負荷、つまりリビルドの負荷は増えないし、
HDDを1本丸ごと再現するために残りのHDD全てを高負荷にして、通常処理が重くなるのも愚かなやり方
そしてなにより、RAID6じゃ、別の建屋に分散収容できないね
そのラックが死んだら終わりじゃんか
旧時代的すぎるよ

1000台も使ってたら、毎日何個かは死ぬんだから、そのたびにリビルド負荷高かったら、やってられない
1000台のうち特定の3台が完全に同時に死ぬなんてことはあり得ない確率だし、心配なら4重にすればいい

書くの面倒なので、今時の分散ファイルシステムで検索しておくれ
0123名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:42:30.74ID:KlJOq0Yo
RAID カードの異常だろ?
0124名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:47:15.44ID:e+e2LsnU
>>118
それな、ほんとかウソか知らんが

大量のラックが並んでいるような所は厳重にカギがかかっているし、そもそも掃除する必要が無いんだよね
ガンガン空調が回ってるから、ほこりとかは空調に全部行っちゃう

入れるのは何個かのドアを通過できる訓練された要員だけだよ
空調のメンテにしても、妙なことにならないか見てるし
寒いしうるさいし、特別な用事が無い限り入りたいとも思わないんじゃないの
0126名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:58:22.76ID:+IhZZPA/
>>125
日立のストレージ部門なら神奈川じゃね
0127名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:58:49.56ID:XkTqxFYp
なんだなんだ?範囲限定極小EMPにでも
やられたんか?
0129名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:09:33.15ID:XQfqspgl
>>81
保守がショボい場合どこの保守に責任があるかって話もあるからなあ
・保守監視設計が悪い→担当したベンダが悪い
・保守運用が無視してた→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い
・検出後の対応を怠った→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い
0130名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:14:48.25ID:xC+x8rCj
バックアップ取ってるだろ。普通は翌日には復旧できるよ。
0131名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:15:32.98ID:xC+x8rCj
HDD3台死んだだけで業務が止まるとか職務怠慢だろ。企業としてアウト。
0132名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:15:56.65ID:pg4cVhg/
2個同時に壊れるとかよく聞くので、3個壊れても別に不思議じゃない。
0133名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:16:45.33ID:gFWQH3H/
なんか日本って想定してなかったとか言い訳する馬鹿ばっかだな
壊れる前に定期的にメンテ期間作って取り替えとけばいいだけだろ
0135名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:19:54.03ID:e+e2LsnU
>>129
金払うから保守よろしくって言って、全部他人任せにした発注者が悪いね
どのように保守したのかのチェックさえ丸投げだったんだろう
ベンダーが何を設計して、何を担保してくれるのかさえ分かってないケースだな
下の者は各人の領域で完璧に仕事をしたし、仕様通りに完全な仕事をしたので、隕石が頭にぶつかるような確率の不幸でしたねってなだめてる最中じゃないの

RAID6はダメだから、RAID7にしましょう、とか誰かプレゼン資料作ってるんじゃないの
某大手金融業に見る失敗事例
5では当然ダメ、6でもダメ、これからは我が社の7を
→ 故障確率1000年に一度、これで安心 パチパチ
0136名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:23:54.59ID:UChYEQp3
いわゆる「稀によくある」ってやつだな

自転車で他の人は何もないのに、俺だけ普通の道路で数キロおきに四回連続パンクしたことある
0137名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:24:29.55ID:UkA5FWdq
ビデオニッピ
って何?
0139名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:29:12.89ID:VvllyPyi
>>36
RAID10でデータの保証ができるのは1台故障までだよ
2台以上だと無事なケースとそうでないケースが出てくる
0140名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:31:01.46ID:tBzNNeaN
三菱製のHDD?
0141名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:31:56.95ID:XQfqspgl
>>135
監視設計しても監視した結果出てきたアラームが報告されて来なくて、サービス影響が出る障害に繋がってから連絡来たときはお前ら真面目に仕事しろよと思ったわ…
障害起きたことについてはそりゃ謝罪するけど今後もその杜撰な予兆監視のやり方だと保守がろくに回るわけないっつーの
0142名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:34:10.00ID:q4eMCXGb
天下のUFJ様のクレジットカードがHDD3個逝っただけで業務停止

NICOSカードなんてマイナーなカードは控えるべきだな
0144名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:38:14.08ID:TvdKj9dH
電源をHDD毎に独立させろよ
電源が死ねばそれに繋がっているHDDは一緒に死ぬぞ
0146名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:45:43.52ID:0jWDN7kr
>HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。

SeaGateなんか使うから・・・
0147名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:50:34.91ID:7JzqK1io
リビルド中に別の一台が死亡って事か
0148名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:59:54.59ID:zYeFG6rY
これHDDの故障じゃなくてシステムのバグが原因で一部のデータが破壊されたとかだったりして
0150名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:03:47.08ID:pKwjuIYl
>>5

経験上、このような壊れ方はRAIDコントローラかバックプレーンの不具合の場合が多い。
あとはレアケースでHDDが同じロットで、そのロットごと不具合があった場合ぐらいか。
0151名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:07:48.72ID:rFihys8w
故障確率が低くても、それがいつ発生するかまでは把握できて
ないのが痛いね。 初期故障が無ければ、あとは時間経過とともに
故障確率は上がって行くと思うけど、それの変化カーブを元に
HDDを定期交換するとシステム停止は回避できると思うよ。
0152名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:12:49.36ID:cMzJGd2/
2個故障したのに気付かず、ついに3代目も故障したのでは?
0154名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:19:15.55ID:D0XpF8T4
一個、二個、サンコーン w
0156名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:20:53.77ID:FfmjjpHv
ここの連中アホばかりだからなー。
ウンザリする。
0158名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:24:08.72ID:WnTOFaP0
raidって障害出たときにサービスしたままリカバリ入るから、別のHDDにまで負荷かかって連鎖的に逝くこと多すぎだよね。
0160名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:34:04.26ID:nPLUWd8R
HDDの起源は
ゴキブリ韓国(ゴキ韓)
ニダ!<*`∀´>
0162名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:41:46.76ID:9SweZIId
SSDはもっと厄介だぞ
壊れてないようで壊れてたりする奇妙な挙動起こす
システムからのチェックでは検出出来ないパターンがある
0164名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:57:50.85ID:PhEkoBQz
状況が理解できないがニコスともあろうものがたった15台のHDDで業務を回してたってことか?
0166名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:13:53.76ID:nsufQEvP
HDDの話でなくて申し訳ないけど、サーバーのメモリーが起動してから日が経つにつれて、使用量が増えていくけど何でなの?
0170名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:34:58.40ID:XQfqspgl
>>166
メモリリークしてるんだろ
あとはメモリの確認法によるがlinuxならファイルキャッシュに空きメモリ使えるだけ使うからsarとかで単純に見ると増え続けるように見えるよ
0171名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:45:49.23ID:VvllyPyi
>>144
HDD毎に別電源ユニットってことはさすがにないけど、電源系統は多重化されているのが普通
電源にユニットが1台壊れても各HDDへの給電は続くよ
0172名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:51:14.37ID:VvllyPyi
同時に3台故障した可能性よりも気づかない間に2台壊れていて3台目の故障がトドメになった可能性の方が高いと思うわ
普段あまりアクセスされないセクタがいつの間にか壊れていて
リビルドの際にセクタ不良が顕在化したとか
0173名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:02:59.75ID:7ConWUZp
>>158
今回のがそれなら「同時に」とは書かないと思う
コントローラが派手に逝ったか、もしくは監視漏れの馬鹿障害だな。
0175名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:17:34.76ID:e+e2LsnU
>>146
HDD15個だと1か月に1回くらいリビルドが走ったよ
ちなみにそこに付けたのは箱買いしたWD

16台接続のRAID6で、ホットスペア1個、稼働するの15個

どこもご家庭にもあるこのRAIDゆにっとが・・・
みたいなしょぼい感じ

録画NAS作ってる個人と変わらないレベルだよなあ

せめてデータセンター用のSSDにしろと
0176名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:19:58.98ID:e+e2LsnU
>>148
RAIDカードのファームウエアを変更する時の恐怖
バージョン履歴に、安定性の向上とか書いてあったら、もうね
0177名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:23:44.15ID:e+e2LsnU
>>162
それどこの?
こっちの経験則だと、SSDの寿命予測と実際の寿命があまり変わらず、SSDは凄いなと思ったんだけども
SSDの電源を入れている限り、ファームが自動的に壊れてる箇所が無いか検査して、スペア領域を消費してる印象だったけどな
0178名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:29:09.71ID:e+e2LsnU
>>167
全角を要求されるケースがあって、もちろん相手は文系だ、
更に、文字が小さい、めっちゃ小さくなるモニター入れてから全角も悪くないなと思った
0179名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:56:31.46ID:XQfqspgl
>>173
詳しく説明したところで理解されないから適当に広報しとこうくらいのなんちゃって広報の感触がある
0182名刺は切らしておりまして
垢版 |
2018/02/09(金) 19:14:47.76ID:m3J4nRrW
>>105
リビルド失敗の典型例。
勘定系でここまでしょぼいのは業務改善命令出ても仕方ない。2時間ルール違反。
0185名刺は切らしておりまして
垢版 |
2018/02/09(金) 21:35:25.63ID:cdTJEH2l
>>122
> 8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
> つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所

これはない。 通常の Hardware RAID ならそれを回避するのも含めてスクラブかかるから。
スクラブは定期的に HDD なめて、単体HDDでのECCによるエラー訂正や、それでダメなら
RAIDのパリティでのチャンク単位のエラー訂正する処理な。

寧ろ問題なのは RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない場合。
なぜ RAID-Z が作られたかを勉強するべき。
君の言う障害が発生した要因はバッテリがヘタってるか RAID カード壊れているかであって RAID-6
の問題ではない。

あと、えらく分散ファイルシステムを持ち上げてくれちゃってるが、HDFSやハイパーコンバージドシステム
が速いのは大して更新がすくないディスクに対してのみ。
だからWeb検索とかのビッグデータや仮想マシンのOS側ディスクだけにしか使えない。
トランザクショナルDBを分散ファイルシステムに置いてしまうと応答速度面で致命的に遅くなる。
やるにしてもトランザクションログをレプリケーション先にリアルタイムで同期するぐらいだ。

RAID10 や RAID6、RAID60、Luster系分散ファイルシステム、クラウド向けの分散ファイル
システム、ビッグデータ系分散ファイルシステムそれぞれ何が長所で何が短所か、何が得意
なのかを勉強してくれ。
0186名刺は切らしておりまして
垢版 |
2018/02/09(金) 22:56:59.90ID:e+e2LsnU
>>185
定期スクラブはもちろん毎日や毎週行うべきだけども、容量を全てスキャンするにはかなりの時間と負荷がかかる
そして、この際にアラートが出ても、1個だから平気などと運用される事例は見る。
どうせ自動的に修復されると信じてしまっている運用はあり得る。
2日連続、あるいは2回連続でアラートが出たら、真剣に交換しよう等とね
運用中にスクラブをするということは、HDDのヘッドを激しく移動させることになる
最近の大容量HDDはヘッドの平均移動距離が短いから、もしヘッドが大移動を繰り返した結果、
プラッターに傷がつくと、そこからカスが生じ、すぐにダメになる
なので、スクラブ中に他の所が壊れるメカニズムはある

RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない、というのは私には想像できない。
もし、バッテリーに問題が生じるような設計をしたならば、設計欠陥を指摘され、致命的なミスと叩かれるだろう。
RAID-Zについては使っているし、その利点も欠点も、長期の運用での状況もある程度押さえているが、
安全に使える環境の問題から、避ける人もいる。

分散ファイルシステムを使うのはとても高速な専用の線を用いて、高速なSSDを使うことが前提として要求されるのは言うまでもない。
性能が足りなければ、どこかで工夫をしなければならない。
ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。

DBはDBそのもので分散機能を持っているものがあるだろう?
それをまず検討すべきで、ファイルシステムに全てをゆだねるなどはしない

まあ、どの程度の費用をかけ、どの程度の信頼性を得るか、そして、その流れの方向は押さえておいたほうがいいだろう
例え、今現在、性能が足りないとしても
だいたいのケースにおいて性能が問題になる場合には、根本的にDBの設計が腐ってる場合が多いね
妥協に妥協を加えて、これくらいはいいだろう等と、手を抜いた結果が階層的に積みあがると、腐ってくる
DBが本質的に何をして、どのような処理が行われるのかを理解せずに、SQLを投げたり、
安易にDBの最適化機能に頼ろうとすると、ものすごく遅くなる
そもそも、DBに何を入れるべきかが真剣に検討されていないものが多いからね
言われるまでもないことだろうが・・・あなたにとっては
0190名刺は切らしておりまして
垢版 |
2018/02/10(土) 04:57:37.48ID:MYaFK2EX
普通は複数の物理サーバで仮想化してるから
HDDが同時に3個壊れようがRAIDカードに不具合があろうが問題にならない

これだけのシステムを素人が設計・運用するとも思えないので
コストをケチって敢えて脆弱な構成にしたか
コストをケチって敢えてHDD障害を放置する運用体制にしたとしか考えられない

まあ無能な経営者揃いの三菱らしくていいんじゃない?w
0191名刺は切らしておりまして
垢版 |
2018/02/10(土) 07:44:32.65ID:kgP7KLI7
重要なシステムは、ホットスワップ付きRAID5ストレージを2台ミラーリングするもんだ
また、メインストレージが飛んでも、バックアップデータとログから再実行して復元できるようにしとくもんだ
0192名刺は切らしておりまして
垢版 |
2018/02/10(土) 08:00:39.76ID:LCnmfPfX
>>1
今の企業ってどこも 壊れるまで使うっていうのが糞みたいな当たり前の話だからな
だから絶対に障害は生じるわけだよ 壊れなくても定期交換するのがリスク回避
そういう極当たりまえの経営判断をできないのが 日本の企業経営者 事案が発生しようが
責任はぜーぶん現場のせいにする 見てみなよ 神戸製鋼 東芝 日産 スバル 三菱マテリアル 全部そうだろw
0194名刺は切らしておりまして
垢版 |
2018/02/10(土) 08:53:23.57ID:PaQja3jf
>>191
RAID5やホットスワップは気休め。
万能じゃない。
このスレに「RAIDにしとけよ」とか言っている人がたくさんいるが、
ファイルサーバー程度しか作ったことがない人なのだろう。

RAIDにより、データ損失はないかもしれないが、パリティからの
データ自動回復で一気にシステムが遅滞する。
ファイルサーバーや静的なコンテンツ参照のWebサイトなら
それでもなんとかなる。
だけど、オンライントランザクションシステムやバッチ処理システムだと、
自動回復が始まったとたんに急速にレスポンスが低下する。

さらに、パリティからデータ自動回復をやりながらシステムを動かすと、
回復と処理の負荷で、他のディスクまで壊れるということもたまにある
というのが俺の実経験。
三菱UFJニコスで起きたのも、そういうことなんだろう。
玉突き事故を、「(ほぼ)同時」と言っているのだと思われる。

オンラインやバッチ系のシステムでは、RAIDはさらなるディスク故障を
招く原因になることもある。
それを防ぐには

 ・機械部品の動作がないオールフラッシュのストレージにする

 ・そんな金がないなら、パリティからのデータ回復がはじまったら
  すみやかにシステムを停止するか、処理を書き込みがない
  参照オンリーにシステムの設定を変更する。
  ホットスワップはあくまで、即時システムダウンしないための
  一時しのぎであると理解し、「ホットスワップがあるから動かし続けよう」
  ではなく、まずはシステムを止めることを優先する

と理解すべきだ。
0195名刺は切らしておりまして
垢版 |
2018/02/10(土) 09:43:35.23ID:LC6UGuys
まぁ究極的には運頼みだな。

技術的な事情はほとんど公開されてないのに、バカだの素人だのこき下ろせる人がいるのが不思議だ。

自分んとこのシステムは盤石だと信じられるのは、勝手に自分の責任範囲を線引きしてるか、
それこそバカと素人だけではないだろうか。
0196185
垢版 |
2018/02/10(土) 11:02:54.62ID:yUdBURXE
>>186
> 定期スクラブはもちろん毎日や毎週行うべきだけども
長文だなーって思ったけど、しょっぱなのここですでにアウトだわ。

> 2日連続、あるいは2回連続でアラートが出たら、
RAID-5 カード使わないのが想像できない人がこんなことは言わない。

> ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。
なんでバッテリ付きなのかわかってないね、君は。
あと処理には同期書き込みと非同期書き込みがある事を全く考慮していないな。

> DBはDBそのもので分散機能を持っているものがあるだろう?
予算という物があってだね、全てのプロジェクトで Oracle Exadata が使えるわけじゃないんだよ。

ストレージ業界で生きてないなら知ったかやめてくれ、ほんとに。
0197名刺は切らしておりまして
垢版 |
2018/02/10(土) 11:13:32.57ID:yUdBURXE
>>191
業務用途の場合は RAID6 か RAID60、RAID6だと物足りないという客向けにここ最近で
トリプルパリティが出てきた。 RAID51 なんてやってる/客に薦めるところなんて聞いたことが無いな。
どこの何て言う製品を使ってるんだ?

やるにしても製品固有の機能での別筐体/別拠点への非リアルタイム系同期で RAID51相当/
RAID61相当にするぐらいだわ。

あと、ログから再実行ってトランザクショナルDBのロールフォワードの事を言っているんだと思うが、
データベースの時点で RAID10 一択で RAID5,6 はあり得んよ。
0198名刺は切らしておりまして
垢版 |
2018/02/10(土) 11:56:49.36ID:A/+SowOK
>>191
ミラーリング+3ndがよいとされていね
RAIDカードがやられたときにも対処できるように
ソフトRAIDも併用するとか
0199名刺は切らしておりまして
垢版 |
2018/02/10(土) 12:54:33.33ID:WxFlplqV
>>177
何台も扱った修理専門のCEの感想
検出しきれずチェックツールがウソ返しやがる
正常に読み書き出来てるようで出来てない壊れ方する
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況