X



【IT】三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★
垢版 |
2018/02/09(金) 00:02:10.35ID:CAP_USER
 三菱UFJニコスは2018年2月7日、2017年末に発生したシステム障害の原因や影響範囲などについて発表した。同社のクレジットカード「NICOSカード」の基幹システムで、ハードディスク(HDD)が3個故障したのが原因だ。2018年1月末時点で一部の会員に対する請求が遅れているなど、事態を収束しきれていない。

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

 故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。
http://itpro.nikkeibp.co.jp/atcl/news/17/020803126/
0005名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:11:06.70ID:89JTlr1N
3個壊れた事が原因じゃなくて、3個同時に壊した何か外的要因を見付けないと再発するんじゃ…
0007名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:15:32.33ID:PO0Yufgv
HDDが3個同時に  ね。
電源だろ。
0008名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:16:33.84ID:IXeb3oF/
ガチで壊れることもあるとか想像できんのかここの馬鹿は
0010名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:17:41.75ID:4kNzW4H3
これまでどう補修してきたかだねぇ。壊れるごとに1つずつ交換していくと
だんだん壊れる確率は上がってくるんだが...
0012名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:20:29.17ID:pysNJWC7
ニコスを語った詐欺メールも最近出回ってる
情報も漏れたな
メールにちゃんと本名書かれてる
0013名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:21:37.11ID:ShDC5c8h
核EMPだと 全システムこれだもんな
北朝鮮危険すぎ
0014名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:22:19.24ID:YCtvFpAO
 


こういうのはさ、本当の原因を明らかにしないこともある。
とりあえず出して来た報告はRaid6?の訂正不能エラーだけどさ。


 
0015名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:25:16.00ID:LJNXpp/8
「同時に」ってのがどのくらいかだよなあ
例えば1週間かけて壊れたなら、監視体制が完全に悪い
本当に1秒の狂いもなく同時に壊れたなら、外的要因だからそれを解決しないといかん

偶然では済まされない話
0016名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:26:04.20ID:vpkyRkbn
>7
俺もそう思うけど、そんなしょぼい電源つかうのかな。。原因教えてほしいな
0017名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:27:08.11ID:lfcdj57a
SDDに変えよう
0018名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:28:30.29ID:lfcdj57a
SSDです ごめんなさい
0019名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:28:39.07ID:YCtvFpAO
 


ハード的には15HDDで2台故障を許容というのは、
まあNICOS程度の重要性ならいいかなって思うけど、

>一部の利用会員に2重請求が発生したほか、

これはダメっしょ。
ジャーナルとかシステムの欠陥臭い。

それから3台壊れたのも特定の原因が無いか調べた方がいいね。
本当に偶発かどうか。
HDDに負担の大きい周波数の振動が伝わってないかとかだけど。


 
0020名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:30:28.89ID:YCtvFpAO
 


SSDは増えてるよ。法人向けでは多少高くても。

でもクレカ業界は競争が激しいからなあ。


 
0021名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:38:44.67ID:RmQKJzpz
RAID組んでたHDDが2台同時に逝った事はあったわ。
HDDに、データ転送量が一定量に達すると使用不能になる致命的なバグがあった。

Seagateめ…
0022名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:45:07.50ID:VB+2KkqN
15個くらいSSDに替えろや
0023名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:46:32.24ID:eAXN28r5
何処製だよww
0025名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:50:52.72ID:tmEHgwEz
同一の初期ロットで何か問題あつろたと考えれるよ
多分公表しないけど
0026名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:52:23.42ID:9Cig+Mwd
同時故障なんて普通ない
ディスクを収容してるハードウェアの問題を疑う
0028名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:54:38.87ID:c43aajtC
3個でシステム障害ってRAID6か何かかしら
SOHOとか小規模オフィスレベルの冗長性だのう
0029名刺は切らしておりまして
垢版 |
2018/02/09(金) 00:58:05.28ID:Dk9PEcFI
>>1
なか〜ま
俺もバックアップ含めて3つの同時に飛んだ
物理的にぶっ壊れてだからしょうがないけどね

でも企業がこれはだらしないね
0030名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:00:40.96ID:fM5kS862
>>15
文系の経営は馬鹿だからこういうことがわからんのです
対応は講じても原因を追求するという研究心がない
0031名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:08:05.92ID:d76LDMDA
RAID6での複数HDD故障は、業務用ならありえる話。

品質の悪い某社製のHDDが多数出回っていて、そいつが連鎖的に壊れる糞製品で、ババ抜き状態に陥ってる。

全部、茨城にあるあの会社のせい!!
0032名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:12:30.62ID:cdTJEH2l
昔似たようなことを経験したなぁ。
実際には HDD は故障していないにもかかわらず RAID カードが故障と
みなしてちょいちょい HDD が故障が頻発、データロストしてくれましたよ。
たまたま別サーバ増設時に再発して、新規サーバの RAID カードに
交換してみたら直って原因が発覚したが。
0033名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:16:40.15ID:YCtvFpAO
 


新品で導入すると、

HDDで最初の1台が故障すると、短期間のうちの次々と故障することがよくある。
まあ当たり前なんだけどね。

最初の1台故障でHDD全台入替でもいい気がする。


 
0034名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:22:13.21ID:x6rPOQeg
>>5
0035名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:22:17.52ID:d76LDMDA
因みに対策は、バックアップを取るかレプリケーションを構築することな。

金をけちって、ストレージ1台でやろうとするから、こんなことになるんだよ。

警報監視の強化とかは短期的な施策であって全然根本解決にならない。
基幹システムなら、金をかけて2重化しろってこと。
ニコスの担当役員がアホなんだろうな。
0036名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:23:33.33ID:cdTJEH2l
復旧後に重複請求やらかてるあたり、トランザクションDBだと思うので RAID は 10 かな。
3個同時に壊れたとかいってるけど、プレスリリースで対応策のいの一番に監視強化とか
出してる辺り、監視システムの設定忘れなだけだと思う。
0037名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:23:53.43ID:EuIVe8xz
同じロットのHDDは同じタイミングで壊れる。何台並列にしていても無意味
0039名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:31:31.06ID:cdTJEH2l
>>25
RAID 製品はロット不良回避するためにシャッフルしてメーカが出荷してくるよ。

>>26
RAIDカードが誤動作して(実際には故障してないのに)HDD故障連発してくれるやつを
引いたことがあるんで、その可能性はあるね。

>>27
3.5インチの HDD なら 2U で12個収容なので、HDDx15構成の場合はエンクロージャ
2台目にHDD3個収容。 これもありうるね。
0040名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:33:21.64ID:s3sMwtXw
ニュータニックスのコンバインドサーバーならしのげたんか?
0041名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:43:06.34ID:uBWOMnNT
3台に共通してる部分がなんかしらあるはず
0042名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:43:19.27ID:WmwrP9Ne
だから同一メーカーの同時期導入は辞めろと
0043名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:49:22.12ID:cdTJEH2l
>>40
Nutanix オンリーでDB組んでも速度でず使い物にならないないから普通は
ストレージだけ外出しにするね。 そうなると Nutanix でもしのげない。
0044名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:51:05.56ID:R+80gUvC
Quantum Fireball に違いない!
0045名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:55:01.78ID:Yqt7ekpz
シーゲートだな
0046名刺は切らしておりまして
垢版 |
2018/02/09(金) 01:55:35.87ID:RLkByZkM
同時3個のハードディスクじゃなく
壊れてたけどほったらかし状態だったハードが
3個目でトラブルが出たって言う事でしょ
サーバー的なハードって2個で同じ情報を管理し
1個が壊れても修復が出来るって言う品物
0049名刺は切らしておりまして
垢版 |
2018/02/09(金) 02:03:09.24ID:Z5TAscFK
他の基幹システムでも、同じ程度の基準で作られていないか?
同程度のあり得ない確率の障害試験も実施を義務付けないと。
0050名刺は切らしておりまして
垢版 |
2018/02/09(金) 02:03:10.41ID:xPWn4LlO
基幹システムはraid0+1の考え方の3重ミラーじゃないと駄目なんだよな。
2重だと片ミラー状態からの復旧時にコピー元が壊れてはいさようならになるし。
raid5とか6なんて信頼性無いと思う。
0052名刺は切らしておりまして
垢版 |
2018/02/09(金) 02:13:37.06ID:qowKPVFI
誰かが意図的にやったか、HDDが故障するような環境状態になったか
まあいずれにしても無理やり偶然だったことにするか
0053名刺は切らしておりまして
垢版 |
2018/02/09(金) 02:41:19.50ID:eFUW9kf7
RAID6って、全く同じ情報を二つ持っておくやり方と比べて
どっちが安全性が高いですか?
0056名刺は切らしておりまして
垢版 |
2018/02/09(金) 03:21:20.04ID:vO6jAkdx
こりゃ、ApplePay対応は期待出来んか。
0057名刺は切らしておりまして
垢版 |
2018/02/09(金) 03:23:05.06ID:vO6jAkdx
ユーチューバーと大差ないストレージ環境でカード会社を運営してるのだろうか?
0059名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:15:16.50ID:Zneo5ew7
個人でもHDD15台って運用している奴いそうなのに、何だろな
0061名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:20:45.34ID:Zneo5ew7
故障という意味ではどのメーカーも故障する
RAID6だから安心ってアカンやろ
0062名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:24:56.08ID:Zneo5ew7
社内にメイン、サブ、遠隔地にバックアップって3重ぐらいの安全策取ってるかと思ってたけどそうでもないのね
0063名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:29:51.73ID:VM7EbZlf
Raid10
Raid60
0064名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:37:10.24ID:Zqh//k6c
流石クレカ業界のみずほと言うべきか
0065名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:41:26.41ID:qB9Jvxmk
今までで数回、RAIDコントローラーが故障したことある
あれは泣ける
0066名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:43:30.08ID:pEDaao/A
RAID6か
2台壊れてリビルド中になんてことも割とある
同じモデルや近いロット使うから時期はかぶりやすいよな
0067名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:43:52.07ID:VM7EbZlf
>>53
同じ情報を持っておくやり方が「3冗長Raid1」であるなら
3冗長Raid1のほうが安全とされる
Disk8枚分の 3冗長Raid1 なら必要な枚数は
8*3=24枚必要
対してRaid6なら
8+2=10枚必要
0068名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:46:51.27ID:e+e2LsnU
RAID6だね。こんな良く壊れるものを使ったら事故って当然だろう
RAIDは5とか6とかは設計に欠陥があるから使ったらダメって誰も指摘しなかったんだろうかねー

RAIDで使っていいのは、0+1だけだよ
ホットスタンバイとかバッテリバックアップのRAIDとか全てにおいてRAIDは使わない方がいい
常に3台に同じものを格納しておくのが今の普通のやり方
0069名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:57:12.68ID:e+e2LsnU
>>67
HDDみたいな消耗品かつ値段の安いものをケチケチして、会社のイメージ失墜してたら意味ないよな

>>65
RAIDコントローラー自体が何か多重化されてないなら、それが壊れたら全滅だね
RAIDコントローラーは使わない、もし使うとしても、HDDを繋ぐポートが足りないから使う、程度の扱いじゃないとね
ありとあらゆるものがいつか、どこか壊れるのは必然
サーバーのマザーボードも壊れるだろうし、悪くするとラックの電源が切れるかもしれない
いろいろ心配な人は、無停電電源を入れると安心ですよなどと、いい加減なことを言うが、
無停電電源が故障する可能性をわかってない
何もせずに、電源系統を2つにした方がいい
LANケーブルのコネクタも壊れるし、ケーブル切断もするし、到底壊れそうに見えないものも確率で壊れる
信頼性向上のために、余計な装置を、例えばRAIDカードを使うのは、ダメ

唯一の解決法はどれがどう壊れてもいいように多重化すること、2重じゃ足りないので3重が今時
0070名刺は切らしておりまして
垢版 |
2018/02/09(金) 04:57:13.23ID:Ts13H19P
Seagateかな?
0072名刺は切らしておりまして
垢版 |
2018/02/09(金) 05:07:17.61ID:yRs8DHyw
繋げてる大元がパチッと逝けば連動して死ぬのはトーゼンだろバカかよそれでもシステム屋かよ
0074名刺は切らしておりまして
垢版 |
2018/02/09(金) 07:15:14.08ID:HOuDfKWO
どうせ新しい検証で破壊耐性調べてないロットを3つ使ってほぼ同時に壊れただけじゃないか?
普通製造週離すしアホ運用だったんだろう
0076名刺は切らしておりまして
垢版 |
2018/02/09(金) 07:53:05.66ID:tc5MmPBK
こういうのがあるから、いまだに金融期間はホスト使ってるんだよな。
くそ高いけど
0077名刺は切らしておりまして
垢版 |
2018/02/09(金) 07:55:54.89ID:cdTJEH2l
ちょいちょいしったかで RAID6 はダメ RAID 0+1 だとか言ってる奴いるが、まず RAID 1+0(orRAID10) だからな。
RAID 0+1 とは別。
あと通常のファイルサーバの類は大概 RAID6。 RAID10 を使うのはデータベースだけで、その理由も
RAID5/6 がランダム書き込みアクセスで IOPS 出せないから。
0079名刺は切らしておりまして
垢版 |
2018/02/09(金) 07:57:30.02ID:qTUjRNi0
意外とショボいハード構成なんだな
0081名刺は切らしておりまして
垢版 |
2018/02/09(金) 08:17:05.03ID:mIK2jUK5
もともと2台壊れていて、修理する前に3台目が逝ったんだろう?
保守がしょぼい部署はだいたいこれ。
0082名刺は切らしておりまして
垢版 |
2018/02/09(金) 08:33:45.22ID:Dcz3C0qs
>>81
うがった見方をすれば、メーカーを明かさないのはその辺が理由かな。

でも3発同時故障が無いとも限らないし、原因解析・解明結果で役に立つ情報は公開してほしい。
0083名刺は切らしておりまして
垢版 |
2018/02/09(金) 08:36:48.54ID:ZhzugMWe
バックアップとってないの?
0085名刺は切らしておりまして
垢版 |
2018/02/09(金) 08:44:47.13ID:4fTlrefM
HDDのメーカーはシーゲートかw
0089名刺は切らしておりまして
垢版 |
2018/02/09(金) 08:54:48.87ID:ydeS8Hxc
1個壊れる→RAID6だからいいか
2個壊れる→保守会社に連絡しないと・・・
保守会社がやって来てHDD交換とRAID再構成が終わる前に3個目故障→/(^o^)\

とか?
0090名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:04:37.03ID:8OIpVRML
>>31
同じロットの製品を同時交換だとあり得るよなぁ。
今回は電源とか冷却が怪しそうだけど。
0091名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:05:35.46ID:OV7T3R4t
>>1
RAID 6?
0092名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:06:56.57ID:MPjJy37d
電源が不安定だったんじゃね?
0093名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:09:41.99ID:GozRh4PW
「故障は2個までOK、3個だめ」ニコス
0094名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:10:07.76ID:1mkdNrXi
1月の請求書が来なかったのはこのせいなのか?まー、Webでは請求額乗ってたから引き落としはされたけど。
0096名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:13:59.75ID:TmmZLzBz
おれもストレージの障害出てたの見落として危うくデータ飛ばすとこだったから
こういうの見ると思い出して背筋が寒くなる
0098名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:33:03.71ID:HV1FeXsY
基幹系システムはRAID6+1は必須だろ
6で留めるからこうなる
0100名刺は切らしておりまして
垢版 |
2018/02/09(金) 09:42:25.52ID:OQiM2+ag
RAID5で安心だと思ってた馬鹿か・・・

NTT DATAがまたやらかしたのか・・・

RAID5で組んだRAIDアレイ2組をRAID10で二重化するか、DBを冗長化しとけば
ハードウェアの物理故障なんてそもそも影響を受けない

システム設計した奴が無能すぎ
素人以下だわ
0103名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:00:34.68ID:Lv7zhZZe
魔法の言葉ソウテイガイ♪
0105名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:30:33.72ID:PhEkoBQz
三基同時トラブルってどういう天文学的数字だよ
負荷が半端なかったのかな
実はリビルト失敗だったりして
0107名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:36:16.37ID:HhkLm+o0
自動復旧か2台同時までって言い方ならデータ自体の破損はしてないのかな。
データか失われて復旧できなくなるまで壊れるにはもう1、2台余力あるんじゃね?


ってpdfよくみたらデータの一部が毀損したって書いてあったわ。
0108名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:40:04.46ID:ytDsdbgH
保守用として大昔のHDDがいまだに・・・
とか有るからMaxtorだなw
0109名刺は切らしておりまして
垢版 |
2018/02/09(金) 10:42:30.33ID:+IhZZPA/
>>68
ただの三重書きじゃ同時に3台壊れるとデータが飛ぶのだが
0111名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:05:46.40ID:Vs8PeuSi
HDDが同時に3個壊れる確率より共通部分の不良の確率が高いよね。
電源とかRAIDコントローラーあたりも交換しないと同じトラブルが
起きそう。
0112名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:07:08.11ID:VPL9J3is
SEAGATEかな?
ここのはタイマーが付いてるかのように狙った時期に壊れる
RAID組んだらおおよそ全滅する
0113名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:07:23.87ID:72deImtn
3個とも同じメーカー同じ品種のHDDを使っていたという落ちじゃね?
0114名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:08:49.14ID:dMuSUXZt
>>5
同じラインで製造されたものはだいたい同じ時期に逝くんだよね。
まぁSamsungかseagateだわな。
0116名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:09:57.60ID:fvoABkqW
ただ監視してる君は悪くないよ設計構築した奴らが悪い
だから糞みたいな仕事させられてる監視要員は気に病むな
0118名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:23:36.53ID:NZa1UtUW
掃除のおばちゃんが電源引っこ抜いた?
0119名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:24:55.91ID:OQiM2+ag
2001年ごろウェスタンデジタルがやらかしてデータセンターがひどいことになってたわ
0120名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:27:14.30ID:T1fi5Wcb
たぶん、この会社もシステム構築時の現場担当者は判っていたと思われ
ても、上がバカだとこういう事になる
システム担当重役が名前だけで権限がないとか、素人同然でコスト重視だと、
安全設計にまでコスト節減するんだよね
0121名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:37:41.19ID:KTCMHxLd
いまどきのストレージってどういうハードウェア構成なのかな
昔で言う ultra enterprise 450 + Solaris + ZFS みたいな?
raid6(raidz2) + hotspare でリカバリ中に死んだんか
0122名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:40:35.21ID:e+e2LsnU
>>109
そうだね、ただの3重書きじゃね

普通のサイズというのも変だが、何十、何百とHDDを使うよね、1000台もあるだろうね
それらに分散させるんだよ 細かいブロックというかパーティションというかで、

もちろんデータセンターは物理的に離れた、隣町にでも別の建物を用意し、電源なども全部別々。
容量に空きがあれば、4重にすればいいし、全体の容量が足りなければHDDを増やせばいい
正確に3重ではなく、常に最低3重にしておくわけ

HDDが1台死んだ瞬間に、その死んだHDDを例えば8TBだかを再現するのではなく、どこかのHDDに分散されてデータが3つある状態にすればいい

8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所
そして、今回のように2個壊れている状況でリビルドに失敗すると、飛ぶ
これが結構あるんだよな
2個までは大丈夫な設計なのに死んだ、同時に3台壊れたからだってのは、実はこういう仕組み

何十、何百というHDDのどこかに物理的に同じではないHDDに3重のデータが格納されていて、余っているどこかに、
生き残った2個、あるいは1個でもいい、のデータを負荷をかけずに配置する、のが今のやり方
何十・何百とあるHDDのうち1個や2個死んでも全体の負荷、つまりリビルドの負荷は増えないし、
HDDを1本丸ごと再現するために残りのHDD全てを高負荷にして、通常処理が重くなるのも愚かなやり方
そしてなにより、RAID6じゃ、別の建屋に分散収容できないね
そのラックが死んだら終わりじゃんか
旧時代的すぎるよ

1000台も使ってたら、毎日何個かは死ぬんだから、そのたびにリビルド負荷高かったら、やってられない
1000台のうち特定の3台が完全に同時に死ぬなんてことはあり得ない確率だし、心配なら4重にすればいい

書くの面倒なので、今時の分散ファイルシステムで検索しておくれ
0123名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:42:30.74ID:KlJOq0Yo
RAID カードの異常だろ?
0124名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:47:15.44ID:e+e2LsnU
>>118
それな、ほんとかウソか知らんが

大量のラックが並んでいるような所は厳重にカギがかかっているし、そもそも掃除する必要が無いんだよね
ガンガン空調が回ってるから、ほこりとかは空調に全部行っちゃう

入れるのは何個かのドアを通過できる訓練された要員だけだよ
空調のメンテにしても、妙なことにならないか見てるし
寒いしうるさいし、特別な用事が無い限り入りたいとも思わないんじゃないの
0126名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:58:22.76ID:+IhZZPA/
>>125
日立のストレージ部門なら神奈川じゃね
0127名刺は切らしておりまして
垢版 |
2018/02/09(金) 11:58:49.56ID:XkTqxFYp
なんだなんだ?範囲限定極小EMPにでも
やられたんか?
0129名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:09:33.15ID:XQfqspgl
>>81
保守がショボい場合どこの保守に責任があるかって話もあるからなあ
・保守監視設計が悪い→担当したベンダが悪い
・保守運用が無視してた→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い
・検出後の対応を怠った→担当した会社(発注元のシステム部門or保守担当ベンダ)が悪い
0130名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:14:48.25ID:xC+x8rCj
バックアップ取ってるだろ。普通は翌日には復旧できるよ。
0131名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:15:32.98ID:xC+x8rCj
HDD3台死んだだけで業務が止まるとか職務怠慢だろ。企業としてアウト。
0132名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:15:56.65ID:pg4cVhg/
2個同時に壊れるとかよく聞くので、3個壊れても別に不思議じゃない。
0133名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:16:45.33ID:gFWQH3H/
なんか日本って想定してなかったとか言い訳する馬鹿ばっかだな
壊れる前に定期的にメンテ期間作って取り替えとけばいいだけだろ
0135名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:19:54.03ID:e+e2LsnU
>>129
金払うから保守よろしくって言って、全部他人任せにした発注者が悪いね
どのように保守したのかのチェックさえ丸投げだったんだろう
ベンダーが何を設計して、何を担保してくれるのかさえ分かってないケースだな
下の者は各人の領域で完璧に仕事をしたし、仕様通りに完全な仕事をしたので、隕石が頭にぶつかるような確率の不幸でしたねってなだめてる最中じゃないの

RAID6はダメだから、RAID7にしましょう、とか誰かプレゼン資料作ってるんじゃないの
某大手金融業に見る失敗事例
5では当然ダメ、6でもダメ、これからは我が社の7を
→ 故障確率1000年に一度、これで安心 パチパチ
0136名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:23:54.59ID:UChYEQp3
いわゆる「稀によくある」ってやつだな

自転車で他の人は何もないのに、俺だけ普通の道路で数キロおきに四回連続パンクしたことある
0137名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:24:29.55ID:UkA5FWdq
ビデオニッピ
って何?
0139名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:29:12.89ID:VvllyPyi
>>36
RAID10でデータの保証ができるのは1台故障までだよ
2台以上だと無事なケースとそうでないケースが出てくる
0140名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:31:01.46ID:tBzNNeaN
三菱製のHDD?
0141名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:31:56.95ID:XQfqspgl
>>135
監視設計しても監視した結果出てきたアラームが報告されて来なくて、サービス影響が出る障害に繋がってから連絡来たときはお前ら真面目に仕事しろよと思ったわ…
障害起きたことについてはそりゃ謝罪するけど今後もその杜撰な予兆監視のやり方だと保守がろくに回るわけないっつーの
0142名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:34:10.00ID:q4eMCXGb
天下のUFJ様のクレジットカードがHDD3個逝っただけで業務停止

NICOSカードなんてマイナーなカードは控えるべきだな
0144名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:38:14.08ID:TvdKj9dH
電源をHDD毎に独立させろよ
電源が死ねばそれに繋がっているHDDは一緒に死ぬぞ
0146名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:45:43.52ID:0jWDN7kr
>HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。

SeaGateなんか使うから・・・
0147名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:50:34.91ID:7JzqK1io
リビルド中に別の一台が死亡って事か
0148名刺は切らしておりまして
垢版 |
2018/02/09(金) 12:59:54.59ID:zYeFG6rY
これHDDの故障じゃなくてシステムのバグが原因で一部のデータが破壊されたとかだったりして
0150名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:03:47.08ID:pKwjuIYl
>>5

経験上、このような壊れ方はRAIDコントローラかバックプレーンの不具合の場合が多い。
あとはレアケースでHDDが同じロットで、そのロットごと不具合があった場合ぐらいか。
0151名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:07:48.72ID:rFihys8w
故障確率が低くても、それがいつ発生するかまでは把握できて
ないのが痛いね。 初期故障が無ければ、あとは時間経過とともに
故障確率は上がって行くと思うけど、それの変化カーブを元に
HDDを定期交換するとシステム停止は回避できると思うよ。
0152名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:12:49.36ID:cMzJGd2/
2個故障したのに気付かず、ついに3代目も故障したのでは?
0154名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:19:15.55ID:D0XpF8T4
一個、二個、サンコーン w
0156名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:20:53.77ID:FfmjjpHv
ここの連中アホばかりだからなー。
ウンザリする。
0158名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:24:08.72ID:WnTOFaP0
raidって障害出たときにサービスしたままリカバリ入るから、別のHDDにまで負荷かかって連鎖的に逝くこと多すぎだよね。
0160名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:34:04.26ID:nPLUWd8R
HDDの起源は
ゴキブリ韓国(ゴキ韓)
ニダ!<*`∀´>
0162名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:41:46.76ID:9SweZIId
SSDはもっと厄介だぞ
壊れてないようで壊れてたりする奇妙な挙動起こす
システムからのチェックでは検出出来ないパターンがある
0164名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:57:50.85ID:PhEkoBQz
状況が理解できないがニコスともあろうものがたった15台のHDDで業務を回してたってことか?
0166名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:13:53.76ID:nsufQEvP
HDDの話でなくて申し訳ないけど、サーバーのメモリーが起動してから日が経つにつれて、使用量が増えていくけど何でなの?
0170名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:34:58.40ID:XQfqspgl
>>166
メモリリークしてるんだろ
あとはメモリの確認法によるがlinuxならファイルキャッシュに空きメモリ使えるだけ使うからsarとかで単純に見ると増え続けるように見えるよ
0171名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:45:49.23ID:VvllyPyi
>>144
HDD毎に別電源ユニットってことはさすがにないけど、電源系統は多重化されているのが普通
電源にユニットが1台壊れても各HDDへの給電は続くよ
0172名刺は切らしておりまして
垢版 |
2018/02/09(金) 14:51:14.37ID:VvllyPyi
同時に3台故障した可能性よりも気づかない間に2台壊れていて3台目の故障がトドメになった可能性の方が高いと思うわ
普段あまりアクセスされないセクタがいつの間にか壊れていて
リビルドの際にセクタ不良が顕在化したとか
0173名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:02:59.75ID:7ConWUZp
>>158
今回のがそれなら「同時に」とは書かないと思う
コントローラが派手に逝ったか、もしくは監視漏れの馬鹿障害だな。
0175名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:17:34.76ID:e+e2LsnU
>>146
HDD15個だと1か月に1回くらいリビルドが走ったよ
ちなみにそこに付けたのは箱買いしたWD

16台接続のRAID6で、ホットスペア1個、稼働するの15個

どこもご家庭にもあるこのRAIDゆにっとが・・・
みたいなしょぼい感じ

録画NAS作ってる個人と変わらないレベルだよなあ

せめてデータセンター用のSSDにしろと
0176名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:19:58.98ID:e+e2LsnU
>>148
RAIDカードのファームウエアを変更する時の恐怖
バージョン履歴に、安定性の向上とか書いてあったら、もうね
0177名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:23:44.15ID:e+e2LsnU
>>162
それどこの?
こっちの経験則だと、SSDの寿命予測と実際の寿命があまり変わらず、SSDは凄いなと思ったんだけども
SSDの電源を入れている限り、ファームが自動的に壊れてる箇所が無いか検査して、スペア領域を消費してる印象だったけどな
0178名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:29:09.71ID:e+e2LsnU
>>167
全角を要求されるケースがあって、もちろん相手は文系だ、
更に、文字が小さい、めっちゃ小さくなるモニター入れてから全角も悪くないなと思った
0179名刺は切らしておりまして
垢版 |
2018/02/09(金) 18:56:31.46ID:XQfqspgl
>>173
詳しく説明したところで理解されないから適当に広報しとこうくらいのなんちゃって広報の感触がある
0182名刺は切らしておりまして
垢版 |
2018/02/09(金) 19:14:47.76ID:m3J4nRrW
>>105
リビルド失敗の典型例。
勘定系でここまでしょぼいのは業務改善命令出ても仕方ない。2時間ルール違反。
0185名刺は切らしておりまして
垢版 |
2018/02/09(金) 21:35:25.63ID:cdTJEH2l
>>122
> 8TBをホットスペアで再現しようと負荷かけたら、ベリファイしていない死んでるセクターがあって、そこで2台目の故障、
> つまり本来は1台壊れていて、2台目のリビルド時にやっと気が付くってのがRAID6の最悪な所

これはない。 通常の Hardware RAID ならそれを回避するのも含めてスクラブかかるから。
スクラブは定期的に HDD なめて、単体HDDでのECCによるエラー訂正や、それでダメなら
RAIDのパリティでのチャンク単位のエラー訂正する処理な。

寧ろ問題なのは RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない場合。
なぜ RAID-Z が作られたかを勉強するべき。
君の言う障害が発生した要因はバッテリがヘタってるか RAID カード壊れているかであって RAID-6
の問題ではない。

あと、えらく分散ファイルシステムを持ち上げてくれちゃってるが、HDFSやハイパーコンバージドシステム
が速いのは大して更新がすくないディスクに対してのみ。
だからWeb検索とかのビッグデータや仮想マシンのOS側ディスクだけにしか使えない。
トランザクショナルDBを分散ファイルシステムに置いてしまうと応答速度面で致命的に遅くなる。
やるにしてもトランザクションログをレプリケーション先にリアルタイムで同期するぐらいだ。

RAID10 や RAID6、RAID60、Luster系分散ファイルシステム、クラウド向けの分散ファイル
システム、ビッグデータ系分散ファイルシステムそれぞれ何が長所で何が短所か、何が得意
なのかを勉強してくれ。
0186名刺は切らしておりまして
垢版 |
2018/02/09(金) 22:56:59.90ID:e+e2LsnU
>>185
定期スクラブはもちろん毎日や毎週行うべきだけども、容量を全てスキャンするにはかなりの時間と負荷がかかる
そして、この際にアラートが出ても、1個だから平気などと運用される事例は見る。
どうせ自動的に修復されると信じてしまっている運用はあり得る。
2日連続、あるいは2回連続でアラートが出たら、真剣に交換しよう等とね
運用中にスクラブをするということは、HDDのヘッドを激しく移動させることになる
最近の大容量HDDはヘッドの平均移動距離が短いから、もしヘッドが大移動を繰り返した結果、
プラッターに傷がつくと、そこからカスが生じ、すぐにダメになる
なので、スクラブ中に他の所が壊れるメカニズムはある

RAID-5 や 6 を使うのにバッテリ付きキャッシュ搭載の RAID カード使わない、というのは私には想像できない。
もし、バッテリーに問題が生じるような設計をしたならば、設計欠陥を指摘され、致命的なミスと叩かれるだろう。
RAID-Zについては使っているし、その利点も欠点も、長期の運用での状況もある程度押さえているが、
安全に使える環境の問題から、避ける人もいる。

分散ファイルシステムを使うのはとても高速な専用の線を用いて、高速なSSDを使うことが前提として要求されるのは言うまでもない。
性能が足りなければ、どこかで工夫をしなければならない。
ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。

DBはDBそのもので分散機能を持っているものがあるだろう?
それをまず検討すべきで、ファイルシステムに全てをゆだねるなどはしない

まあ、どの程度の費用をかけ、どの程度の信頼性を得るか、そして、その流れの方向は押さえておいたほうがいいだろう
例え、今現在、性能が足りないとしても
だいたいのケースにおいて性能が問題になる場合には、根本的にDBの設計が腐ってる場合が多いね
妥協に妥協を加えて、これくらいはいいだろう等と、手を抜いた結果が階層的に積みあがると、腐ってくる
DBが本質的に何をして、どのような処理が行われるのかを理解せずに、SQLを投げたり、
安易にDBの最適化機能に頼ろうとすると、ものすごく遅くなる
そもそも、DBに何を入れるべきかが真剣に検討されていないものが多いからね
言われるまでもないことだろうが・・・あなたにとっては
0190名刺は切らしておりまして
垢版 |
2018/02/10(土) 04:57:37.48ID:MYaFK2EX
普通は複数の物理サーバで仮想化してるから
HDDが同時に3個壊れようがRAIDカードに不具合があろうが問題にならない

これだけのシステムを素人が設計・運用するとも思えないので
コストをケチって敢えて脆弱な構成にしたか
コストをケチって敢えてHDD障害を放置する運用体制にしたとしか考えられない

まあ無能な経営者揃いの三菱らしくていいんじゃない?w
0191名刺は切らしておりまして
垢版 |
2018/02/10(土) 07:44:32.65ID:kgP7KLI7
重要なシステムは、ホットスワップ付きRAID5ストレージを2台ミラーリングするもんだ
また、メインストレージが飛んでも、バックアップデータとログから再実行して復元できるようにしとくもんだ
0192名刺は切らしておりまして
垢版 |
2018/02/10(土) 08:00:39.76ID:LCnmfPfX
>>1
今の企業ってどこも 壊れるまで使うっていうのが糞みたいな当たり前の話だからな
だから絶対に障害は生じるわけだよ 壊れなくても定期交換するのがリスク回避
そういう極当たりまえの経営判断をできないのが 日本の企業経営者 事案が発生しようが
責任はぜーぶん現場のせいにする 見てみなよ 神戸製鋼 東芝 日産 スバル 三菱マテリアル 全部そうだろw
0194名刺は切らしておりまして
垢版 |
2018/02/10(土) 08:53:23.57ID:PaQja3jf
>>191
RAID5やホットスワップは気休め。
万能じゃない。
このスレに「RAIDにしとけよ」とか言っている人がたくさんいるが、
ファイルサーバー程度しか作ったことがない人なのだろう。

RAIDにより、データ損失はないかもしれないが、パリティからの
データ自動回復で一気にシステムが遅滞する。
ファイルサーバーや静的なコンテンツ参照のWebサイトなら
それでもなんとかなる。
だけど、オンライントランザクションシステムやバッチ処理システムだと、
自動回復が始まったとたんに急速にレスポンスが低下する。

さらに、パリティからデータ自動回復をやりながらシステムを動かすと、
回復と処理の負荷で、他のディスクまで壊れるということもたまにある
というのが俺の実経験。
三菱UFJニコスで起きたのも、そういうことなんだろう。
玉突き事故を、「(ほぼ)同時」と言っているのだと思われる。

オンラインやバッチ系のシステムでは、RAIDはさらなるディスク故障を
招く原因になることもある。
それを防ぐには

 ・機械部品の動作がないオールフラッシュのストレージにする

 ・そんな金がないなら、パリティからのデータ回復がはじまったら
  すみやかにシステムを停止するか、処理を書き込みがない
  参照オンリーにシステムの設定を変更する。
  ホットスワップはあくまで、即時システムダウンしないための
  一時しのぎであると理解し、「ホットスワップがあるから動かし続けよう」
  ではなく、まずはシステムを止めることを優先する

と理解すべきだ。
0195名刺は切らしておりまして
垢版 |
2018/02/10(土) 09:43:35.23ID:LC6UGuys
まぁ究極的には運頼みだな。

技術的な事情はほとんど公開されてないのに、バカだの素人だのこき下ろせる人がいるのが不思議だ。

自分んとこのシステムは盤石だと信じられるのは、勝手に自分の責任範囲を線引きしてるか、
それこそバカと素人だけではないだろうか。
0196185
垢版 |
2018/02/10(土) 11:02:54.62ID:yUdBURXE
>>186
> 定期スクラブはもちろん毎日や毎週行うべきだけども
長文だなーって思ったけど、しょっぱなのここですでにアウトだわ。

> 2日連続、あるいは2回連続でアラートが出たら、
RAID-5 カード使わないのが想像できない人がこんなことは言わない。

> ネットワーク越しの書き込みに対しHDDの回転を待つことがいかに長いかを考えるのは前提。
なんでバッテリ付きなのかわかってないね、君は。
あと処理には同期書き込みと非同期書き込みがある事を全く考慮していないな。

> DBはDBそのもので分散機能を持っているものがあるだろう?
予算という物があってだね、全てのプロジェクトで Oracle Exadata が使えるわけじゃないんだよ。

ストレージ業界で生きてないなら知ったかやめてくれ、ほんとに。
0197名刺は切らしておりまして
垢版 |
2018/02/10(土) 11:13:32.57ID:yUdBURXE
>>191
業務用途の場合は RAID6 か RAID60、RAID6だと物足りないという客向けにここ最近で
トリプルパリティが出てきた。 RAID51 なんてやってる/客に薦めるところなんて聞いたことが無いな。
どこの何て言う製品を使ってるんだ?

やるにしても製品固有の機能での別筐体/別拠点への非リアルタイム系同期で RAID51相当/
RAID61相当にするぐらいだわ。

あと、ログから再実行ってトランザクショナルDBのロールフォワードの事を言っているんだと思うが、
データベースの時点で RAID10 一択で RAID5,6 はあり得んよ。
0198名刺は切らしておりまして
垢版 |
2018/02/10(土) 11:56:49.36ID:A/+SowOK
>>191
ミラーリング+3ndがよいとされていね
RAIDカードがやられたときにも対処できるように
ソフトRAIDも併用するとか
0199名刺は切らしておりまして
垢版 |
2018/02/10(土) 12:54:33.33ID:WxFlplqV
>>177
何台も扱った修理専門のCEの感想
検出しきれずチェックツールがウソ返しやがる
正常に読み書き出来てるようで出来てない壊れ方する
0201名刺は切らしておりまして
垢版 |
2018/02/10(土) 13:21:59.67ID:WxFlplqV
>>200
無い
インテルだろうがサムスンだろうがマイクロンだろうがどこでも起きた
チェックツール上では正常だと返してくるのに
なんで動かないか悩んで交換したら直るのが何度かあった
修理対応時は交換用SSD持っていくのが必須
0202名刺は切らしておりまして
垢版 |
2018/02/10(土) 17:10:10.24ID:inE0kYtD
フラッシュの書き込み(実際は消去)の深さが閾値近くに落ちちゃってるんじゃない?
そうなると読みこみの値はランダムになるけど
アクセスパターン依存もあるかも
0205名刺は切らしておりまして
垢版 |
2018/02/10(土) 20:28:04.59ID:tUYCJq2J
どなたか亡くなった?
0206名刺は切らしておりまして
垢版 |
2018/02/10(土) 20:50:51.04ID:qCdeo73s
たまにしか起きないものが同時には起こるのは別の理由が必ずある

同時に2つの地震があったとか言いうのもそうだ
0207名刺は切らしておりまして
垢版 |
2018/02/10(土) 20:52:14.16ID:L5OuSiOI
>>196
いやー、ストレージ業界とか、最近は狭い業務分担が流行りだけども、
私は、そういうのは気にしないし、どうしても作ってくれと言われるものしか作らないんだよ
そして、大規模な仕事が多いのでね
ろくなDBも使えないような、利益が出ない案件には興味がないんだよ
金がないならアキラメロン
業界が糞なら転職するかフリーになれ
どんな箇所でも手を入れていいし、予算も潤沢にある、どこかのSierに2回依頼したけども完成しなかった、というのはいい仕事になる
0209名刺は切らしておりまして
垢版 |
2018/02/10(土) 20:57:06.18ID:L5OuSiOI
>>199
インテルのデータセンター用のでもそうなの?
何千回も強制電源断しても壊れなかったから、信用してたんだが

ちょっと詳しく教えてくれないかい
修理専門の人の話なら信じられるから
0210名刺は切らしておりまして
垢版 |
2018/02/10(土) 21:03:16.90ID:L5OuSiOI
>>202
フラッシュは劣化するわけだけども、常にコントローラーがチェックしてるし、劣化も温度等の物理特性で傾向があるから
それを十分に考慮した耐久性と残りの稼働可能時間がわかる仕組み
ギリギリの状況で使って、読めなかった、などはしないんだよ、普通は

データセンター用じゃないものを、強制電源断したら、もちろん高負荷中に、だいたいこわれる
何回かやるとね なんとかPROみたいなものもダメ

そうじゃなく、データセンター用のが壊れるかどうかはとても興味がある
0211名刺は切らしておりまして
垢版 |
2018/02/10(土) 21:07:48.03ID:GbeOpcst
三菱のATM
手 認証 20回ぐらいやって認証する
0213名刺は切らしておりまして
垢版 |
2018/02/10(土) 21:26:18.57ID:Tn2rKAfv
同一ロットで、同じような使われ方してたら死期は似てくるらしいよ。
0214名刺は切らしておりまして
垢版 |
2018/02/10(土) 21:33:58.48ID:L5OuSiOI
>>212
読めなくなったから、サルベージしてファイル回収したい、ようなのはあるよ
raid-zが壊れてサルベージする話は見たな
その時に、故障状況見れるって話でしょ
ファクトリーコマンドとか使って
0215名刺は切らしておりまして
垢版 |
2018/02/11(日) 00:25:04.32ID:IKdvztna
>>210
いやいや俺半導体専門だけど
もともと不良セルだったら予想外の故障しても何も不思議はないよ
それはフラッシュに限らずどんな半導体セルにも言えることだけど
ただフラッシュはロジックなんかと比べて閾値のレベルがシビアだから
突然中間に落ちて読めなくなったたとかよく聞く話
コントローラなんて所詮ロジックでフラッシュセルの状態なんてモニタしてないでしょ

つまり半導体はあなたの言う普通はないという壊れ方をよくするし
フラッシュはその点特に繊細だということ
0216名刺は切らしておりまして
垢版 |
2018/02/11(日) 00:37:24.43ID:IKdvztna
半導体がやっかいなのはある時故障してても
負荷をかけてやると復活しちゃうものがあったりと
とにかく不安定な状態の故障モードが多数あること
実際何が起こってるかなんて切ってみないと分からんw
0217名刺は切らしておりまして
垢版 |
2018/02/11(日) 01:07:30.83ID:iNlLPukJ
>>215
プロセスやってるの? それとも物性?

フラッシュは容量増やすためにかなり無理なことをしてるけど、結局エラー訂正で直すしかないよね。
単セルの信頼性など求められてなくて、もちろん多値を盛り込んだりで、エラーありきで、検出して直すじゃない。
大昔のEEPROMじゃないわけだし。
それで、いろんなパラメーターからフローティングゲート周りの状況が解明できて、寿命予測が当たるようになってきたって話だと思ったけども。

私は半導体専門でもないし、現在フラッシュのセルの設計をしているわけでもないけどもね。
まあ、基本は理解してるし、いろんなことをやったから、半導体がどう動いて、どう壊れて、何を何が担保しているのかは押さえているよ。
いくつか作らせてももらえたしね。

もし詳しいなら、コントローラーの訂正と寿命予測について書いてくれないか。
いろんなコントローラーがあるが、各社独自でね。謎な所が多いんだよね。
突然変な壊れ方をする、だけじゃあ、そりゃあらゆる物が予想外に壊れることもあるだろうさ、って一般論と変わらない。

フラッシュに限らずHDDもだけど、エラー訂正ありきで容量を稼いでる時代が長くなったね。
HDDのスクラブどうのって言ってた人がいたけども、フラッシュはコントローラーが勝手にスクラブして、勝手に直すんだよね。
だから、電源が入って無いと、どんどん壊れる。時間経過でも壊れるし、アクセスしても壊れるし、隣接の線をいじっても壊れるし、
ありとあらゆる操作がダメージを与えるし、スクラブしなきゃ話にならないしでね。
各社コントローラーに腐心してるが、それゆえに、情報が少ないんだよ。
0218名刺は切らしておりまして
垢版 |
2018/02/11(日) 01:20:08.89ID:iNlLPukJ
>>216
まあ、そういうデータを多数集めて、コントローラーに反映しているんだろうなー、と思って、
インテルのデータセンター用のは信用することにしたんだよ。

とある膜がどのくらい劣化して、どのくらいいらない電子が滞留しているかなんてのは、各社の秘中の秘だろう?
テスト用にいろんなパラメーターを変えて、実験して、解析して、最後は断面見てとかやっても、
量産でマスクはズレるし、だいたい動いたら売らなきゃいけないしで、いちいち一品物を作るわけにもいかないから、
結局、ものすごく沢山あるセルを確率的に壊れるものとして、大雑把に数学的に、これくらいの訂正でいいかな、とやって、
ユーザーに長時間使わせて、合ってた、合ってなかった、とやるしかないんじゃないの。
0219名刺は切らしておりまして
垢版 |
2018/02/11(日) 01:29:30.12ID:iNlLPukJ
ああ、あとね

HDDのロットどうのこうの言ってる人が多いけど、そういう人に聞きたいのは、
SDDでもロット分ける?
メインメモリーでもロット分ける?
CPUやマザーボードもロット分ける?
LANケーブルや電源もロット分ける?

言いたいことわかるよね

DRAMはペアで使うから、同一ロット品が安心
このロットのCPUはクロック耐性が高いから云々
で、HDDケーブルがビローンって垂れていたりする
短くしろよ
シールドしろよ
電源に気を使えよ

いろいろ面倒なら、製造業を信用しろよ(確率的に)

大昔は、複数のHDDを並べて密集させる場合には、円盤の回転を同期させてたんだよね
そういう同期用の端子があったから
HDDを密集させて同じ金属板に固定する意味を理解している人がどこまでいるのか知らないけどもさ
0221名刺は切らしておりまして
垢版 |
2018/02/11(日) 17:12:27.75ID:IKdvztna
半導体の話だけど上で解説されてることは全くその通りで
壊れるの前提でエラー訂正するしコントローラも設計する

俺が言いたかったのは製造欠陥の話でもともと不良セルだったものが
ある程度動いてたけど負荷によって突然中間値に落ちたりしたんじゃってだけのこと

あらゆるものが予想外に壊れるってのはその通りだけど
半導体が面白いのはフラッシュの場合広い閾値のレンジと
あまりにも多すぎる故障モードだと思う

それゆえ壊れてるのに正しく動いているように見えるなんてのはよくある
特に特定の手順で操作したときだけ故障が顕在化するなんてこともある

だからチェックツールでパスしても実際は壊れてるなんてのは
半導体の世界では当たり前すぎる話でしょってことだけが言いたかった
チェックツールにウソと言われてもねえ…

これ以上はスレ違いかな
0222名刺は切らしておりまして
垢版 |
2018/02/12(月) 07:47:47.71ID:jJeFu4zg
これは5台でRaid0を組んで3グループでRaid1にしてた感じ?
そして2グループ死んでるのに気づかずにそのまま運用してたとか?
0224名刺は切らしておりまして
垢版 |
2018/02/12(月) 08:06:30.14ID:T9eB/ASX
>>221
ほー、面白いな。フラッシュ。

HDDの場合だけど、壊れてるセクターがあって、何度も何度も、例えば10回読むと、エラー訂正できたりする。
微妙に磁石が狂ってて、不安定なのが、0か1かどっちかに転んだタイミングで、セクターが読め、予備に転送できる。
なので、しくこく読み続けてたら、100セクターくらい回収できた。

フラッシュでも、同じこと出来るだろうね。

やっぱり心配なので、最終的には多重化するけども、根本的な仕組みには興味あるわ。
0227名刺は切らしておりまして
垢版 |
2018/02/12(月) 10:48:37.08ID:iE6jpyc/
物理的に別のストレージにあるものをソフトウェアミラーリング
が必須

ホットスワップ付きRAID6ディスクアレイを2台用意(もちろん仮想的に2台じゃなく、物理的に2台)
これをOSによるソフトウェアミラーリングで使用
0229名刺は切らしておりまして
垢版 |
2018/02/12(月) 11:10:41.43ID:9DjOD0Od
RAID1+6にしておけば・・・
まあ、エラーメッセージ見てなかったのが最たる原因だろう
0230名刺は切らしておりまして
垢版 |
2018/02/12(月) 11:39:45.34ID:oOtXKe6M
3個同時て
それ同じ電源に接続してたとか?

つか、どっか別の場所でマイグレできるようにしとかんといかん奴なんじゃないの?
0232名刺は切らしておりまして
垢版 |
2018/02/13(火) 04:11:40.95ID:IFfvwg4d
RAID0+1とかホットスワップとか、知ったかさん多いな
0233名刺は切らしておりまして
垢版 |
2018/02/13(火) 10:06:19.39ID:Y8bnPM68
>>232
学校で勉強して、テストで1文字でも間違えたら、×つけられて?
会社でプレゼン資料作って、1文字でも間違えたら、上司に、×つけられて?
現役の下働きは大変だね。上に行きなよ。

これ、任せたいんだけど、いいかな?から始まって、
やれるだけのことはやりましょう、予算は自由に使うけども、いいよね?
ああ、いいよ、トラブルよりもいいもの
完成、3年ノートラブル。
ほー、いいね。どうやってるの? コピーしてもいいかな?
そりゃ、いいよ。売ったんだし。
説明はしないけど、ここにドキュメント入ってるから、見て。
誰かに、解析させてもいいかな?
運用終わってからの方がいいんじゃない?
途中で勝手に止めたら、面倒みないよ。

RAIDのレベルがどうのこうのなんてのは、実績の前にはどうでもいいし、客の関心事はそこじゃない。
どんな手段でもいいから、壊れないのを与えたら、なーんにも言わなくなる。
プレゼンする必要もない。
前のと同じ感じで、容量増やしたいんだけど、しか言われない。
そんで、客が勝手に、適当な資料作って、稟議通ればOK
実際に作ったものとプレゼンが違うなんてのはざら。

我が社の過去システムで、これだけの稼働実績のある・・・・の最初の1ページしか、誰も興味ないよ。
0236名刺は切らしておりまして
垢版 |
2018/02/13(火) 13:26:28.74ID:qcA1pvli
技術用語の扱いがいい加減なやつはシステムの扱いもいい加減だからね
RAID0+1はそれ以前の問題だが
0238名刺は切らしておりまして
垢版 |
2018/02/14(水) 08:04:59.72ID:On/8Uaf9
RAID6(ホットスワップ付き)を物理的に別筐体で2セット用意して、
さらにミラーリング

これが必須だよ

RAID1+6ってやつ
0243名刺は切らしておりまして
垢版 |
2018/02/15(木) 20:58:51.21ID:MqxmmuV0
>>238
FTサーバーじゃだめなん?
0245名刺は切らしておりまして
垢版 |
2018/02/15(木) 21:20:39.45ID:2cncSgCT
大規模なデータセンターならディスクの多点故障とか日常茶飯事
0246名刺は切らしておりまして
垢版 |
2018/02/15(木) 21:32:47.48ID:bnftCxmF
1cm間隔でずらっとSDカードをが刺さってて死んだら自動で排出。
マガジンに空のSDカードがいっぱい入ってて空いたスロットに自動装填、みたいな装置できないかな。
保守は空メディアの補充だけでいいの。
0247名刺は切らしておりまして
垢版 |
2018/02/15(木) 21:53:04.97ID:tjB5U6hU
>>244
FTするならSSDしか選択肢ないし
ストレージも2系統
ファイバーのスイッチも2系統
回線もストレージの速度も最高
などのデラックス仕様になって

しかも何かトラブっても予備常時待機でそっちに切り替わるんだから
何の心配もなくなるんだろ

このニコスみたいにケチケチしたようなのだと何が起こっても知らんな

FTじゃないと心配って客はいい客
0248名刺は切らしておりまして
垢版 |
2018/02/15(木) 21:59:51.58ID:tjB5U6hU
>>246
テープがそうなってるな

古いのだとMOのオートチェンジャーとか
CDの400スタックのとかな

SDカードはドライブユニットのコストがほぼゼロだから
チェンジャーで変えるメリットがない

もしSDが1000枚刺さってるのが欲しいなら、常時1000枚さしておき、
定格容量を800枚分にすればノーメンテになる
大規模なの作ると、物理的に力がかかることで死ぬことも心配しなきゃならなくなるから
装置の中に全部収めて、パネルを開けない方が長持ちする
0249名刺は切らしておりまして
垢版 |
2018/02/15(木) 22:02:20.35ID:r7vIhHTO
ショッピングのリボ払いで臨時増額返済をATMで受け付けてくれないのはこのせいか?
0251名刺は切らしておりまして
垢版 |
2018/02/15(木) 22:13:03.81ID:c0GINld+
同時3台なら他の要因だろ
0252名刺は切らしておりまして
垢版 |
2018/02/15(木) 22:15:26.79ID:S6fwokrJ
誰かが障害原因の言い訳で嘘をつくと、業界全体が迷惑を受けるパターンじゃないかと。
15台中3台が同時なんて
0253名刺は切らしておりまして
垢版 |
2018/02/15(木) 22:30:28.49ID:r7vIhHTO
最近明細見てないけど何か最近多く引かれてる様な気が
久しぶりに確認してみるか
0256名刺は切らしておりまして
垢版 |
2018/02/16(金) 00:09:47.49ID:qQQowzCM
>>255
これの解決方法はいくらでも思いつくが
予算ないからこうなってるんだろう
しかも予算を節約するために頭も使ってないし

まずは、DBがダメなんだからオラクル買えよって話
オラクル買えないならストレージで何とかした上で運用で巻き戻しするとかログから再生しかないが、
そんな面倒なことをニコスが出来る筈もないからこのざま

予算も無い上に今まで動いたたから今後も大丈夫って考えとしか思えない
FT云々ってのは極端な例を出しただけ

予算があるなら全部任せろ
予算が無いなら客が考えろ、その通りに作るから
ってのが私ののやり方

ストレージが死なないとかマシンが落ちても継続ってのはミニマム条件なんすよ
その上でオペミスとか他社のものがぶっ壊れたとかあってもリカバリーどこまで出来るのか
例えサービス止めてでも取り消ししたい場合もあるし
こういう各種アノマリーを上乗せしてやるが客が全部を想定できるはずもなく
説明もメンドイし緊急事態になるまで関心も示さない
なので、予算重視になるわけ
FTの予算出せるってのはそういうこと
0257名刺は切らしておりまして
垢版 |
2018/02/16(金) 01:42:35.77ID:TmmcYMOv
ディスクが三個同時に壊れるのは確かに相当珍しいし、何か外的要因がある気もする。

とは言え普通はディスク装置ごと飛んでも外部バックアップがあるし、広域災害に備えて遠隔地バックアップもしてるでしょ。
1日くらいは止まってもあとに影響なく復旧できるはず。
ここまで大混乱が起きるほどの重要システムならなおさら。

機器の故障くらいでここまでの影響がでるのは、そもそものシステム設計が悪かったとしか思えない。
0258名刺は切らしておりまして
垢版 |
2018/02/16(金) 23:18:04.91ID:Yfx3vYFB
>>256
やったことないのにこんな所で知ったかしなくていいよ
RAID6やRAID6+1が何でダメなのかっていう基礎から勉強してくれ

>>257
リビルド時の故障も広義では同時
サクッとシステムが死んでれば傷口はもっと浅かっただろうね
0259名刺は切らしておりまして
垢版 |
2018/02/16(金) 23:38:46.81ID:ra4sbVyC
raid6の問題ってホールの話?
固定ブロックの場合トランザクションが必要って奴だっけ
0260名刺は切らしておりまして
垢版 |
2018/02/17(土) 01:14:05.09ID:AwbM99Dk
>>259
書き込みホールは理論的にはどのRAIDレベルでも発生しうるけど
ハードウェアRAIDの場合は普通対策済みだから現実的に問題になることはまずないよ
0263名刺は切らしておりまして
垢版 |
2018/02/17(土) 18:40:37.70ID:AwbM99Dk
>>261
それは全く別の問題だから対策も別だよ
クリティカルなシステムでRAIDコントローラをSPOFにしたりしないしね
0265名刺は切らしておりまして
垢版 |
2018/02/17(土) 23:06:27.66ID:AwbM99Dk
ニコスはRAIDコントローラの障害じゃないよ
典型的なリビルトの問題

カード会社の基幹システムで
RAIDコントローラがSPOFのストレージユニットなんて使うわけない
0267名刺は切らしておりまして
垢版 |
2018/02/19(月) 19:27:26.49ID:LuOQlpoy
先月の1月15日にニコスポイントをTポイントに移行申込したのに
いまだに移行されていないのもそのせいなのか???
0268名刺は切らしておりまして
垢版 |
2018/02/19(月) 19:43:14.84ID:LuOQlpoy
ニコスといえば昔の話だが芸能人の明細が目に留まると社内で話題になってたんだよな
○○が△△△を買ったぜなんてな
今じゃーセキュリティーがガチガチで無理だがね
by内部告発ではなく、内部つぶやき者
0269名刺は切らしておりまして
垢版 |
2018/02/19(月) 19:48:01.73ID:LuOQlpoy
>>266
今は知らんが当時は汎用系でCOBOL
よってそれを言うならリビルドでなくリコンパイルな
0271名刺は切らしておりまして
垢版 |
2018/02/19(月) 20:33:35.81ID:LuOQlpoy
>>270
失礼!
0275名刺は切らしておりまして
垢版 |
2018/02/24(土) 02:48:04.79ID:/CuTE3sw
まぁsnmpでRAID状態も管理できずに「発見時は同時に壊れていることを認識した」んだろうなぁ。
同時なんかあるわけねーだろが。
0277名刺は切らしておりまして
垢版 |
2018/02/24(土) 05:31:38.56ID:GS6/FL/b
入金を待ってる店側には、ごめんなさい通知が二回。
しかもまだ全額入金されてない
0280名刺は切らしておりまして
垢版 |
2018/02/25(日) 03:09:48.01ID:XgQIBg7b
ポーリングしてるからパケットロスしても問題なく障害検知できる
なぜUDPを使ってるのか理解すべき
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況