【IT】馬鹿に付ける薬があった!システム障害を絶対に起こす猿を見習え
■ このスレッドは過去ログ倉庫に格納されています
ようやく読めた。そして面白かった。何の事かと言うと、米国の動画配信サービス大手、Netflixの「サル軍団」の記事だ。カオスモンキーやカオスゴリラ、カオスコングたちがわざと本番システムに障害を発生させて、技術者たちに対処させるという内容。日本企業には「システム障害は絶対に起こしてはならない」という愚か者が多いので、そうした連中にはぜひ読んでもらいたい。
システム障害に対する日本企業の過剰対応の愚かさは、この「極言暴論」で何度も指摘してきた。システム障害の発生は避けられないというのは技術者の間では常識のはずなのに、「システム障害は絶対に起こしてはならない」という非常識が、なぜかまかり通る。その結果、ユーザー企業のIT部門やITベンダーのシステム運用担当者は過大な負担を強いられ、その現場はブラック職場と化す。
挙句の果てに「起こしてはならない」システム障害が発生すれば、さあ大変。たかだか数万人の顧客に迷惑をかけた程度なのに、経営トップが謝罪会見を開き深々と頭を下げる始末。それを見た他の企業の経営トップやCIO(最高情報責任者)、そしてIT部門の現場を恐怖に打ち震える。その結果、ますます「障害は絶対、絶対、絶対に起こすな!」という話になり、システム運用担当者の首は絞まっていく。
関連記事:「システム障害は絶対に起こしてはならぬ」と叫ぶ馬鹿に付ける薬
実は、こうしたシステム障害に対する日本企業の過剰対応は外資系ITベンダーの間でも有名だ。彼らは表向き「世界一品質に厳しい(日本の)顧客の声を聞いて……」などと言うが、本音では「カンベンしろよ!」である。製品のバグが露見するたびに、膨大な量の顛末書や報告書を書かされていてはたまらないからだ。当然、外資系ITベンダーは日本市場に最新技術を投入するのに慎重になるから、日本企業は最新技術を利用する機会を自ら失ってばかりいる。
そんなわけなので、私はずっと馬鹿に付ける薬、それも特効薬が欲しいと思い続けてきた。Netflixのサル軍団はまさに特効薬だ。同僚記者がAWS(Amazon Web Services)のイベントに合わせて渡米し、サル軍団の話を詳しく取材してくると言っていたので楽しみにしていた。読者の周りに経営トップやCIO、システム部長で馬鹿な人がいたら、ぜひサル軍団の記事を読ませてほしい。
サル軍団の仕組みはとても筋が良い
以前も指摘したが、「システム障害は絶対に起こしてはならない」には深刻な危険性が潜んでいる。そう声高に叫ぶことで、システム障害は避けられないにもかかわらず、障害が発生する可能性を排除してしまうのだ。「障害は絶対に起こしてはならない」がいつの間にか「障害は絶対に起こらない」にすり替わる。で、システム障害が発生すると現場はパニックになり、事態が深刻化する。実際にみずほ銀行の大規模障害は30ものミスの連鎖で引き起こされた。
関連記事:みずほ銀障害の全貌判明 重なった30の不手際
しかも「システム障害は絶対に起こしてはならない」ということで、システムの品質を高めれば高めるほど、障害が発生した時の深刻度は高くなる。システムが高品質であるならば何年もの間、安定稼働を続け何の障害も起こさない。このシステムでは障害は起こらないと誰もがなんとなく思い込んでいるなかで、深刻な障害が突如発生すると現場は阿鼻叫喚の状態となる。
半年に1度障害を起こすシステムなら、“障害慣れ”もあって何とか対処できても、長い間何の問題もなかったシステムが突然止まると、経験値が無い分、適切な対処は難しい。日本企業の中にも、その辺りの危険性を理解していて「システム障害はたまに起こったほうがよい」と言う人もいるにはいるが、そんな正論は「障害は絶対に起こしてはならない」の大合唱の前にかき消されてしまっていた。
このように見てくると、Netflixのサル軍団の仕組みがいかに筋が良いものかが分かるはずだ。まず当たり前だが、「システム障害は必ず起こる」との大前提がある。そのうえで、わざとシステムに障害を発生させて、本物のシステム障害の際に影響を極小化できるようにするためのテストや訓練につなげる。技術者が障害慣れするため、システムをいくら高品質化しても、いざというと時に対処できないという事態にもならない。
以下ソース
http://itpro.nikkeibp.co.jp/atcl/column/14/463805/011700174/ 【ヤフオクの評価欄】
落札者からの コメント:あなたから雇われたという探偵社から連絡がありました。2ちゃんねるには
私の名前やIDが沢山書き込まれています。この出品者はキャンセルすると報復をするようです。
店名で検索すると他にも被害者が沢山います。とても普通の方とは思えません。警察に相談します。
(評価日時:2015年 4月 29日 17時 43分)
販売業者の名称 有限会社コー ルドターキー/DC BANK 代表取締役渡邊弘宣
販売業者の住所 〒160-002都新宿区新宿3-12-11 石井ビル2F
Phone:03-5269-3675
http://rating7.auctions.yahoo.co.jp/jp/show/rating?userID=dcdcbank&author=zihardiy&aID=184888178&bfilter=&bextra=&brole=&bapg=1 >>1
猿軍団がなんなのか、知らない人には訳判らんな。ただの異常系テストじゃね? 日本では「本番環境でテストなんて、なに考えてる!」と客が怒鳴り込む。
もしやるなら、本番と同じ環境をベンダが用意して、本番と同じデータ、同じ操作を行い、そこでやらなきゃならん。
そんな金は無い。 起きたら困るから起こらないことに、と言うのは見たことあるなぁ。
説得力の有る(口の上手いコミュ力が高い)輩が保身のためにやらかすんだわ。
この手のを排除しないといけないんだけど現実には権力に擦り寄ってむしろ中枢に入り込んでいく、、、 >>14
そうだよ
意地悪テストを本番でやる
Netflixだから出来るんだけどね windows10だけは例外なのかよ
相当叩いたくせに
あれはβ版を一般公開して本番環境でバクフィックスしたようなもんだろ 雑音入れて乱れない音階はないのに
乱れない旋律だと言うのが日本。
乱れた音階を取り戻せるプロの演奏が
この話。
うちの会社にマジ当てはまるな。 これからは自分の業務の効率化にマクロぐらい組める技術が営業も必要ですわ >>32
これな
本番環境の受け入れテストは絶対に揉める、そして動かすと新しい要件が出てくる
揉めなかったことがない 安全神話の末路が福一事故であったこと
と通じるものがあるね。 日本人の土人性
テストして障害が発生したらどうする! そら、底辺IT土方向けガス抜きコラムだからなあw
連中にウケる為ならトンデモだって言うわな。 >>1
すんげー読み難いし、何言いたいのかわからなかった
文才全く無いんじゃないか? >>43
そうか?
1.システム障害は必ず起きる
2.本番環境でテストするのが効率的
ってことだ。
ただ日本の顧客は、1は認められないし、2は承認しない。
いずれ問題が起きるのは間違い無い。
その時になって後悔…など顧客はしない。
ベンダを責めて終わり。 日本史上稀に見る手抜き構築の筆頭であるみずほの例が笑いを誘うwww >>1
経験値は経験を数値評価したもので特定の知見を指すものではない
経験値MAXでも未経験の状況はやすやすと起こりうる >>44
リンク先読むか前提知識がないと猿軍団がわからん。
素直に障害テストなり訓練とすればいいところを
ジャーゴン使うあたりが厨臭い。 >>47
リンク先読んだが、木村って記者の感想文は読む価値まったくなし。 システム障害を完全に0にすることはできないけれど
限りなく0に近づけること、起きても極力サービスに影響を与えないようにすることはできる。
ミッションクリティカルなシステムで大規模障害が許される訳ないだろ。 >>49
リスクの取れるベンチャーを活用しない
フォールトトレラントを許容できない
googleみたいな冗長化の限りを尽くしたシステムがなぜ日本ではできないのか不思議でしょうがない
日本人の考え方だとどうあがいてもフォールトアボイダンス、スケールアップの方向に行ってしまう 俺の行ってた神戸商船大学で、俺も大学院だったが
大学院生が殺された事件で、同じような日本語の記事が出てたよな
韓国人か北朝鮮が書いたんじゃないのか
もうストーカー辞めろっての フルバックアップだけでなく、フルリストアのテストもしよう >>50
機密事項ばかりで、ああいう世界をまたに掛けてサーバーが移動する
クラスター方式は、もともとはロシア人のセルゲイ博士が、アメリカの
フォン・ブラウンのロケットに対抗するために考えてた制御方式 さっき移動させられた本、googleのサーバーのはなしだと
基板は無視だしでカバーとかなくて、処理で熱が出るから
スプリンクラーで水かけて冷やしてるとかなんとか
はたから見るとgoogleなんて気狂い運用 >>58
剥き出しの基盤に水かけたら、純粋でもない限りショートしてぶっこわれるんでねーの?
ありえねーよ >>59
ほんとに水なのか怪しいよな
また滝川雅美の詐偽かも >>49
ミッションクリティカルなシステムで
大規模障害の発生を想定しないとかありえねーよ >>61
そして事が起これば「想定外だった」という決まり文句 >>62
いまはHewlett-Packardに吸収されたけど
アメリカのTandem computer
Non stop systemとか、オートバイとか馬だ鹿だって
誰かsomebodyか知らないが馬鹿にしてるだろ >>57
業界10年いた実感
スケールアップしか頭にないベンチャー企業
ベンチャーとは取引しないと言うSIer
そこらかしこにstaticおじさん
スケールアウトを理解しない東大出身技術者
そりゃ日本没落するわ まあ、アジャイル開発なら避けられないんだよな。
スピードとバグの出るリスクはバランスで考えるべき。
災害0を目指す考え方がソフトウェアにも通用すると
思っているところが、大きな間違い。 >>61
想定しないとか言っていないだろ馬鹿
>たかだか数万人の顧客に迷惑をかけた程度なのに
こんな思考がありえないって話だよ >>62
その想定を盛り込むと、こんなお値段になりますが払って頂けますか?
え?
そんな起きる可能性が低い事に、金は払えん?
じゃ、そういうことで。 いやだから、日本だとサービス要求レベルが不要に高すぎるから
Amazonなんかは要求レベルの低い発展途上国を活用しているというじゃないか
楽天も英語公用化したんだからそういうところマネしないと >>68
大丈夫。
高い要求レベルに唯々諾々と従う日本企業は、そのうち潰れる。
日本人も、品質の悪い海外製既製品を使うしかなくなる。 管理者が馬鹿である
問題を理解せず無理に進めさせる
人の話に耳を傾けない 「たかだか数万人の顧客に迷惑をかけた程度」
この考え方は恐ろしい 今は一社の顧客が百万ユーザーとかいう時代
1%のユーザーといっても1万だしな アメリカの列車事故は、起こった後が充実してる
日本は起こさないように高度なシステムを組んでる
失敗をどうするかの違い フランクリン ルーズベルト
「一般の日本人は知能が低く、無知である。たぶん人間なのだろうが、人間であることを示すような点はどこにもない」
トマス・ブレーミー将軍
「諸君らが闘っているのは奇妙な人種である。人間と猿の中間にあると言っていい。文明存続のために我々は最後まで戦いぬかねばならない。」 ■ このスレッドは過去ログ倉庫に格納されています