【IT】Oracle DBの「非公開バグ」が表面化、大阪市基幹システム障害の真相
■ このスレッドは過去ログ倉庫に格納されています
大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響が及んだ。原因はOracle Databaseのクラスタ機能に潜むバグだった。ネットワークの不調をきっかけにシステムが停止し、再起動もできなくなった。米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。
2019年6月7日午後0時5分頃。大阪市内の24の区役所や出張所、梅田・難波・天王寺のサービスカウンターで、住民票の写しや記載事項証明書、国民健康保険や税務関連の証明書などが印刷できなくなった。金曜日の昼休みということもあり、週内に書類を発行してもらおうと区役所など窓口に来ていた住民からは悲鳴と怒号が上がった。
同じ頃、大阪市西区の阿波座にある大阪市ICT戦略室も騒然としていた。システム障害を知らせる警報が鳴り、各区役所からトラブル発生を知らせる電話が相次いだ。「統合基盤システムが停止しました。確認してもらえますか」。ICT戦略室の担当者はシステムの開発元で保守契約も交わしているNTTデータ関西の担当者を呼び寄せた。同社はNTTデータの地域子会社だ。
統合基盤システムは大阪市の基幹システムだ。住民基本台帳、税務、福祉、国民健康保険、介護保険という住民情報系の5システムと連携し、各システムへのログイン時のユーザー(職員)認証や各システムから受け取った証明書データなどの印刷をつかさどる。2015年1月に運用を始めた。「住民情報系5システムに共通して必要となる機能を統合基盤システムに切り出すことでコスト削減を図った」(ICT戦略室)。システムはアプリケーションサーバーと、職員の認証情報や印刷用データなどを管理するデータベースサーバー、それらのデータを蓄積する共有ストレージなどから成る。
データベース管理システム(DBMS)は米オラクルの「Oracle Database」を採用している。バージョンは「システム構成に関わるので明らかにできない」(大阪市ICT戦略室)。負荷分散と障害回避を目的に同製品のクラスタ機能「Oracle Real Application Clusters(Oracle RAC)を使い、2ノードをActive/Active構成で並行稼働させている。片方が止まってもサービスを継続できるようにしていたが、今回は「2ノードがほぼ同時に停止した」(同)。アプリケーションサーバーは稼働していたものの、ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。これによって「統合基盤システムのほぼ全てが使えなくなった」(同)。
NTTデータ関西の保守担当者はDBMSが停止している事態を把握し再起動を試みた。しかし2ノードとも再起動できない状態が続いた。このためNTTデータ関西は日本オラクルなどと連絡を取りつつ原因究明を開始。その結果、午後3時30分頃にDBMSのシステムファイルが破損している事実を特定した。
破損していたシステムファイルはOracle RACを構成する各ノードがそれぞれの死活状況を共有ストレージに書き込む「投票ディスク」である。この内容が異常なデータになっていたという。「投票ディスクを参照した2つのノードが共に異常を検知して、それぞれ自身でDBMSとしての機能を停止させた」(大阪市ICT戦略室)。保守担当者が再起動を試みてもできなかったのは、各ノードが再起動の過程で投票ディスクの内容を参照するようになっていたからだ。投票ディスクの異常値を検知して停止してしまった。
https://tech.nikkeibp.co.jp/atcl/nxt/mag/nc/18/020600011/070200035/ oracleならバージョン1から使ってる私に頼めばこんなことにはならなかったのに >>4
対して技術力もないのにやたら品質にこだわる国です。 >>7
クラスタ構成を組むオラクルの値段みてきてみ オラクルの名の通り、神のご信託が出るまで待つしかないな これ担当者クビとんでたかもな。
必死だろ、自分のせいじゃないって説明するの。
オラクル知らんぷり。アホかと。 >>4
俺、トラブった翌日には、業者の責任者、屋上から飛ばしてるが、何か? ORAORAORAORAORAORAORAORAORAORAAAAAA!!! マイクロソフトが大手なのは大手なりの理由があるんだよな 大阪がNTT西を訴えて、NTT西がOracleを訴える訴訟連鎖来る? オラクルのRACで2ノード等と構成を言っておきながらDBバージョンは言えないとは妙だな。
セキュリティーの面から見ても一貫性がない。 quorum が壊れてたのか
いくらなんでも、そりゃ、致命傷だわ
ってか、RACならみんな使ってる部分だから、潜在バグがあったとは信じられん
ま、Oracleは真相明かさないから、闇の中だね Oracleはクソだといった人が訴えられた。
一つは名誉毀損、もう一つは守秘義務違反で しかも4年も稼動してて突然のクラッシュなんて、恐らくはモニタリングに不備があって
DBがパンクするまでアプリのサーバーをコントロール無しで走らせてたくさいな。 特許だけでオラクルは使えないと認識できたのはいいことだ
あそこは特許だけ ネットワーク絡みで
同時に2つ落ちないシステムが落ちたのか
各システムファイルが更新されたと...
テストは、当然終了
2015から稼動
ネットワークも冗長化してたんだろ?
いや〜、ちょっと普通じゃないと思うわ このあいだ5chではオラクルのバグなんてありえないって、市とNTT叩いてなかった? やはり、MariaDBに移行するのだろうか?
しかしNTTデータだけにPostgreにしましょう!とか提案してそうだ・・・ オラクルに限らず大規模なシステムはどこかにバグがあるのは前提みたいなもんで、
DBがクラッシュしてもいいようにしっかりとBCPやIRPを組んでおけばだいたい大丈夫なものだ。
MTTRを最小限に抑えるのはそれなりのシステム構成と投資が必要だが多分そうなっていなかったのだろう。
たとえば大阪市の基幹システムのDRにおけるRPO/RTOはどういう設定になっているか聞きたいものだ。 >>31
確かに2系統のうち片方だけ起動させるのに故障した共有ディスクの内容を参照する必要は無いかもな。 Oracle は非公開バグだらけだよ。
金払わない限り知り得ないし詳しくも教えてもらえない、エラーコードも常に ORA-00600 で、
この番号でググっても何の事かわからないような仕組みになってる。
一部から評判は悪いがDB(とストレージ)は100点満点以外は0点見たいな評価をされがちで、
でもぼったくりだと分かってても結局それに行き着く因果な商売よ。 >>30
区役所で悲鳴あげるかな〜
どんなヒステリー民族だよ >>35
本文に書いてあるがクォーラム(投票データ)が壊れてて動かない状態。
何度再起動してもどちらも自分に優先権がとれずアーカイブログ(変更履歴)か何かに書き込みが
できず表領域(原本)の書き換えフェーズに移れないって状態だったんじゃないかと。 >>21
訴えることはできるだろうけど
免責事項あるからOracleにはまず勝てない。 こんな状況じゃ高い金払う意味ないやん
ポスグレにしとけよもう 超ボッタクリのくそ高い保守費を取るくせに舐めてんな >>36
Oracleじゃないとダメな環境ってあるの?
うちは基幹システム全部DB2だけど別に困ってない Oracleは、くせはあるけど結構いいよ
ただ、慣れないと
なんだ、そのエラーはったおすぞ
と思う事が多々々ある どんなDBでもシステムでも最終的にはガバナンスが悪けりゃ問題が起きるもの。 >>43
ごめん、比較対象は MariaDB とか PostgreSQL ね。
DB2 と Oracle は同じ感じじゃない?
フリーより高品質だけど、馬鹿らしくなるような価格設定。
初心者 SIer に身近な分 Oracle の採用が圧倒的に多いんだと思う。 フリーのDBで構成してて同じ様にクラッシュしてたら、果して一日でリカバリー出来ていたか? オラクルは昔は飛び抜けて検索が速かったからな
その頃からのユーザーが今もだらだら使ってるだけ
いつの間にかSQLServerに追い越されてるし >>24
アメリカの小粋なスタンドアップコメディ風で。(笑) >>49
ホントこれ。 21時間で復旧だと超早いって感覚。
でも客は「高い金払って冗長化したのに意味ねーじゃねーか」ってキレる。
止めたくなかったら二桁金額足りねぇってわかってない。
一度でいいから Non-Stop サーバ的な奴は触ってみたいが、まぁ機会はないよね。 最終的には市の責任だけどオラクルのせいにしたい訳だ。 Oracleは嫌いだけど、これは違う気がする。
採用してるシステムなんて山ほどあるし。 記事の内容はほんと言い訳っぽい。
システムがクラッシュした時の想定復旧時間がどれだけなのかをまず言わなければ。
それともRACはクラッシュしないとでも思っていたのか? NTTデータが悪いんじゃないかと・・・そんな気がする
まあ、私も自治体のシステムを開発していたので、このトラブルが大変な問題だということはわかる
この前の汎用機とそのシステムを継続してつかっていればこんなことはなかったハズ
COBOLだろうけどな コスト削減を決めたのは役所だから信頼性が低くなるのも仕方なく受容すべきだろうね この程度のシステムは途上国も含めて世界中で稼働してそうだけど
なんでこんなことが起きるのかが分からん
本質的な原因を教えて >>52
>>34
この温度差が日本の糞なとこだよね。
わかってない奴が完璧を求めすぎ。 投票ディスクはRAC構築時にバックアップすると思いますが… 金曜の正午に故障、午後3時半にクォーラム故障が原因と特定。
今から最速で復旧しても窓口閉まる時間考えると、週末時間をかけて確実に
直したほうがよいと判断したのであれば、下手に慌ててデータベースの複製
稼働させるより寧ろ賢い判断だったんじゃないかと思う。 >>66
投票ディスクに何が書かれているか知らんが、インカーネーションとか含まれてたら、
投票ディスクだけ戻しても使えないんじゃ? 全国の自治体で統一しろよ
いちいちバラバラにやっていたら金かかるじゃねえか しかもオラクルってユーザからバグを通知されてもまず直さないからね
すごい会社だと思うわユーザが >アプリケーションサーバーは稼働していたものの、
>ユーザー認証や印刷データの格納に不可欠なDBMSが停止した。
意味わかんない。
クラウド糞やん >>73
お前本当にバグ報告上げたことあるの?
ちゃんと保守結んでたら専用のパッチとかすぐ手配してくれるんだけど。
あ?もしかして英語出来ないから本社とやり取り出来ないの? クラスタ機能ねえ…
バグなんて甘い言い方してないで、はっきり欠陥と言えよ Oracle RACって昔からあるけど古いバージョンでも起こりうるんだろうか。 クラスターの設計してたけど、普通それってOS側の機能で
ロックディスクが壊れてたとか無茶苦茶言ってるし
OSが古いかなんかの問題じゃねえの、これ
それがクラスター装置を自前でしてたか >>7
マイクロソフトにバグの修正依頼したらカスタム版作るので10億とか言われたそうだよ オラクルってフリーのDBほど利用者多くないから
未解決の不具合が多い
遅いしあんまりいいことない 結局何をしたからバグに触ってしまったのかってのはないのか?
本当に偶然なのか運用が悪かったのか 高価なオプションなのにバグでクラッシュ
サポート入ってないとパッチすら貰えず
サポート入っててパッチ当てても
他のパッチと組み合わせるとクラッシュ
ボラクルのオプションは使う奴が馬鹿で
永遠のデバッグ係 このニュースを最初に読んだときは、「ストレージとDBサーバー間で
伝送エラーが生じた為、ファイルが壊れた」という書き方だったんだけど
投票ディスク(おそらく多重化されている)が壊れたのって
ストレージとサーバが悪いんではなくて、Oracleがエラー書き込みを
検知できないって事か。rawデバイスかASMだと思うから
OSではエラー検知できないもんなぁ。 >>67
大阪市内だから、障害発生からNTY西が現場に急行まで1〜2時間かな
業務停止の影響範囲が広いので、担当者は血の気が引いて真っ青になって駆けつけるパターン
あれこれ原因を想像しながら、どこでミスしたのかと、心臓バクバク
現着して、統合基盤システム全体のログ見て原因追いかけて、Oracleが2台とも動いてないの見つけて、とりあえず再起動を決行
再起動しても回復せず、半分パニックの状況でログ追いかけて、quorumでコミットが取れないのが原因と特定
ここまで1〜2時間の様なので、NTT西の担当は優秀な方だね
そこからは、だろうから、日本オラクルに連絡。日本オラクルは単なる通訳なので本社に伝言。
USの奴ら、DBに原因があることを証明しないと何も動かんので、NTT西から別のサーバ持ってきてもらって、DBサーバのハード交換して、サーバ故障じゃない事を証明
それでも、ストレージの障害を疑ってくるので、バックアップからレストアかけて復旧
ここまでで、徹夜で21時間で復旧だろうから、お疲れ様って感じ
その後の再発防止で、NTT西が根本原因調査する中で、ストレージ障害が原因じゃなくて、通信障害に伴うOracleRACの異常系のバグが原因だと証明して、Oracleに認めさせた。そこまで良くやったよ、日本のSIerは本当に真面目で頭が下がる >>86 そもそもオラクルが業界でデカくなったきっかけは、日本でNTTがDBとして採用してからって昔聞いたような >>18
winのアップデートであれだけやらかしといて? オラクルのバグねぇ、、、
契約してると見られる専用ページがあって
一次保守してるベンダーとか、直接契約してる顧客だと見られるけど、
直接契約してないエンドユーザーにその内容を(そのまま)教えると契約違反になるっていうトンデモだからなあ
単に大阪市が知らなかっただけでは? >>85
そだね
OracleはOSのファイルシステム使わずに、rawデバイスに自前で読み書きするから、OS側では何もわからんわな
きっかけは、どうやら通信障害でquorumのデータが壊れたらしいから、自前ファイルシステムの問題じゃない
ただ、quorumなら再起動かけたら初期化されそうなものなのに、それでも回復しなかったのは、自前ファイルシステムの異常系処理にバグがあったんだと思う
自前のquorumも冗長化かジャーナルくらいは持ってると思うけど、そこからの自動回復の様な初期化が、バグってたんじゃないかな >>88
個人ユーザーを生贄としてやらかして、ビジネスエディションはほどほどになるからな >>93
仕事でhome使ってトラブルにあった奴は
安物買いの銭失いとしか言えないわなぁ >>89
インコネがinfiniになってるとか、ハードは違うけど、RACのソフトは同じだから、同様に通信障害でquorum壊れたら、このバグを踏むと思うよ
むしろ、inifiniの方が通信障害は起こしやすそうなんで、リスク高そうに思う 投票ディスクってなんだっけと思ったけど、クォーラムディスクのことか? >>86
現場のNTT西の人? かっこよすぎる。
小説にしてほしい。リアルな奴。
濡れ衣着せられそうになって、必死に自分の無罪を証明、
そこから真の原因を追究、バグを認めさせる。
全日本人が涙する展開だよ。これは。 一方Oracleはアップデート費を請求するのであった なんかracのこと勘違いしてるジャップ多すぎw
負荷分散が種目なのに、一個落ちたら巻き込まれも普通に起こりうる
冗長化のコピーじゃないんだからを >>105
dば10だけど blueなんとか以降は変わったのかな? これさ、そもそもは、大阪市のICT戦略室さんが、それまで5つの基幹システムに別れてた住民情報系の認証部分と印刷部分を集約して、統合基盤システムに束ねると言うコスト削減をやったのが、発端なんだね
たぶん、NTT西さんが提案して、大阪市の担当さんが乗り気になって、双方が成果に満足してた
ところが、その集約が仇になって、統合基盤システムが落ちたら、住民系の全業務が止まると言う、大障害を引き起こしてしまった
ここからは、大阪市の担当さんも、裏で提案したNTT西さんも、自分らに責任の一端がある事は明白なので、真っ青になって根本原因調査
Oracleのバグが根本原因だった事を証明して、「Oracleのせいです。ボクら悪くないです。」って、記者会見して必死で言い訳したのか
ま、Oracleはボッタクリ価格だから、ここで最終責任からは免れず、例え5つの基幹システムを集約した基幹の基幹システムであろうとも、止めちゃならんわな >>108
冗長化できる予算で見積もって、中身は冗長じゃない中抜き生ゴミなんだろ >>108
そもそもracは冗長化の機能じゃないしw 無停止狙いで冗長系構成するなら、Hot/Hot/Coldの3系統が基本じゃね
Hot/Hotだと同じバグ突かれたら同じように止まっちゃうだろ >>110
でも、そういう機能だと説明してる情報系サイトが多いんだなぁ
負荷分散は二の次みたいな感じで >>98
俺はミカカさん系じゃない元大手SIerで、SEでもない研究開発職だった
今は外資でDevOps
日本のSEさんが死ぬ目に会ってるのは日々見てたんで、本当に頭が下がる
外資のエンジニアは、自分の責任範囲切って逃げるのが普通で、根本原因など成果にならんから、ここまでは誰もやらんのよ
やっぱり、日本人は凄い。お疲れさま >>115
外資系のエンジニアが責任範囲切って逃げられるのは
基本的に会社が守ってくれるから
外資でも日本の権限が強くて上司がクソだと省庁の偉い人の前にいきなり引っ立てられる >>40
バグを知っていて公表しなかったなら、賠償の対象になることもあるんじゃないかな? >>116
それは、日本の顧客相手に商売してる日本ブランチの外資SEの場合だよね
俺の周りは、日本以外の市場で商売してるUS直轄のDevOpsエンジニアだから、根本原因まで追求して再発防止するよりも、運用回避で逃げたり、早期復旧の仕込みを入れる
日本は、電車が5分遅れたら激怒されて謝罪とか、社会全体の品質基準が違うと思うよ
海外だと、そこまでユーザー厳しくないけど、反面、同僚や同業の競争は熾烈なので、品質よりも機能改善の速度重視
日本とは速度が10倍くらい違うから、このまま社会全体で品質に拘ってると、日本は世界から置いてかれるよ >>86
DBやインフラってほんと職人芸の世界だからコツコツ当たりをつければ原因は究明できるけど本当に解決が早かったと思う。RACは制御が複雑で予期せぬ障害やパフォーマンス低下が多くて怖いわ。
ただ日本オラクルもある程度以上の規模のクライアントなら契約次第ですぐ技術者を派遣してくれると思う。ウチの基幹システムの一部のDBがぶっ壊れた時は障害調査を一緒にやってもらった これゴミdb導入したジャップイットが全部責任取るだけなのに
なんでオラクル選んだんですかぁ?w
いやならdb作ればいいのに…w NTTデータなんて全て外注して実力なんか何もない営業屋だろ?
そんなのにシステムを依頼する方が大馬鹿だよ
NTTという名前に根拠ない信用をしちゃったんじゃないの >>118
客を変えるのは無理だから、自分の立ち位置を考えるしかないってことだろ >>120
そんなアンさん、冗長DB組むならどれがオススメ?
通信インフラとかの高トランザクションや社会インフラとかのミッションクリティカルじゃなくて、今回の大阪市クラスの中規模で用途で
自前で作るのはさすがに無理なんで、Postgresあたりで何とかしたい。MS でもいい 今一つ現象が良くわからんけど
disk heartbeatできなくなっただけじゃないの?
もしくはCSSが死んだとか Oracleは高い金を取るくせに、ろくに情報公開しないからなぁ。
全く変わってない。
俺の担当システムでも昔でかいの引き当てて、ベンダー苦労してたわ。 完璧な情報開示のサポートほしいなら現状の数倍の金額はないと、オラクルも割に合わんでしょ。
利用すると意味不明な挙動にわりと出くわすから、致命的ではないバグをかなり隠しているよなー。 >>125
オラクルは優良顧客の日系大企業・情シス子会社にはいくらでも対応してくれるぞ
その代わりサーバーもDBも全部オラクル製にする必要があるけどw >>126
アップデートで既に解消してるのに…というのは結構あるだろうな まだOracle使ってる奴らはマジで無能だと思ってる バグあるくせに被害あっても保障はしない。
バグ修正版は追加料金が掛かるんだろ(笑) >>130
内装が気に入らないから無料で工事しろと言われても、職人が動くわけないだろ
それと一緒 >>86
それはない。 クォーラム壊れてるかどうかはベンダーが判断しない限り答えだせない。
つまり、オラクルサポートが回答を返したのが3時半。
1時間も移動に時間かけてたったの2時間で Oracle 外の技術者がその答え出せるはずがない。
現場に行くのではなく、どうせ堂島あたりの西のデータセンターかその近辺のオフィスから
VPNや専用線もなしにLANでシステムにアクセスじゃないかな。
ログは LAN 経由で即オラクルにログアップロードしてるでしょ。
そこから17時間半かかってるのはハード交換じゃなくて、クォーラム破損対応バージョンへの
アップグレードとアップグレードの動作確認一式でしょ。
17時間半で動作確認を一通りやったとするならNTT西はかなり頑張ったっていえる。
ハード交換なんてやってたら動作確認含めて17時間半では終わらないね。
逆に複製DB作る先用意してれば夕方には復旧してるだろうが、そこを用意しなかったのは市と
NTT西の落ち度だが、稼働率と復旧の速さを鑑みると寧ろ予算削減効果の方に軍配があがりそうね。
Oracle にバグを認めさせたもダウト。 バグだったらたった21時間で結論はあり得ない。
奴らの回答は即答or何日もかかるの2択しかないので3時半にクォーラム壊れたって即答してると思う。
即答したもんだから「未公表のバグだ」って記者が騒いでるんだよ、この記事は。 ボラクルで無駄金つかうなら
AWSのAurora使ったほうがいいよ
堅牢性もほぼ同じだから、MIssion Critialな環境でも
十分使えるから オラクルの新しいバグをひとつ確定できたことは良いことだが、それ以前にあるリスクマネージメントの
妥当性を知りたいものだ。 NTT西とのSLAはどう書いてあるのだろう? 特に稼働率の所。 OracleDBはメジャーバージョンが上がることで旧バージョンで通っていたSQLを発行するとサービスがクラッシュするようになるようなのを何度か見かけた
パッチ充てると治るんだけどさ、不信感抱きまくり >>133
そっか、じゃあ、quorum破損が原因だと特定したのは日本オラクルさんだね
でも、再起動して駄目で、サーバー交換して駄目で、バックアップからリストアかけたら復旧したと元記事に書いてあって、パッチ当てたとか対応バージョンに上げたとかは書かれてないから、21時間での復旧は、たぶんリストアしただけ
それでも、現場SEさんは、必死で良くやったと思うよ。修羅場だと、再起動やリストアにミスが出て泥沼とか、ままあるし
そもそもRACは冗長化じゃないとか、想定したBCPが無いとかは、その通りなんだろうけど、そもそも市の予算でNTTD西だから、まあそんなもんかと 役所の専用データセンターだから運用支援がトラブル時の手順書通りに再起動しようとして不可、
ベンダーコールしてそこからオラクルに連絡があり、ログ取り指示されてトラブルの原因が発覚したのだろう。
バックアップから一部をリストアして仮復旧までを指示されて、それをベンダー環境でやってみてから検証環境でやって本番でやる。
これで仮復旧、また壊れるかもしれないのが今の状態だ >>131
SAPになってから既存ユーザに相手が必要するものとか考えず、とりあえずHANA DBにリプレースさせようと売り込みかけて客ドン引きさせてるらしいけどw
まあ、サイベースの営業担当とかもういないんだろうな >>134
Auroraは、障害時の復旧はどうすんの?
クラウドだから、隣にColdで置いといたり、別VMにリストアかけたりすれば良いの?
それで復旧はできても、再発防止はできんよね
MTTR下げりゃいいので、隣に少し古い系を非同期にHotでStanbyさせといて、素早くfail overかけるとかの、運用回避入れるのかな? >>137
ありゃ、サーバ交換したって出てたのか。 そりゃ失礼しました。 >>137
お役所的なとこの場合、停止したときのことを考慮した仕掛けや運用を考えようとすると、
「止まることがある前提で考えるのがおかしい。止まらないようにするのがお前たちの仕事だろう」といわれて許されなかったりもするよね。 >>142
ググった限り、DB2のシェアナッシングやビッグデータの検索エンジンみたいに、複製DBを置きまくる感じだね。
クラウド越しだと書き込みトランザクションの単位時間処理数も応答速度もある程度で頭打ちになるだろうから、
分析(BI/ビッグデータ)などリードインテンション向けって感じだなあ。 >>117
未公開バグなんて幾らでもあるで
今回は引きが悪かったから止まったけど嫌なら使うなで終わりだわ IPアドレス変更するだけでまともに動かなくなるイメージ >>147
そっか、やはりクラウド流だね
バックエンドに信頼性は要求せずに、非同期で世代が遅れた複製置いといて切り替え、あとはアプリ層かセッション層で不整合を何とかする
US社会でも、インフラにそこまで信頼性は要求せずに、インフラ落ちたら自力でサバイバル始めたり、仕事やめて飲みに行ったりするから、根本の考え方が違う気がする >>150
SQL-Serverも色々あるからなぁ
開発中のトラブルだったけど解決までに3ヶ月ぐらいかかったこともあるし >>145
Biz板的には、その指摘が的を射てるね
日本人は何にでも完璧を求める結果、合理的なリスクマネジメントができない
マスコミは皆、窓口で市民が怒ったとかの感情論ばかりで、障害確率のSLAとか、被害金額などの数字を報じないから、合理的な障害対策費を算出できない
根性論で勝つことが前提だから、戦況不利になっても合理的な手を打たず、玉砕したり倒産したりするまで悪化する
狂牛病、タミフル、子宮頸癌ワクチンとかも、被害者ゼロが前提だから、絶対的な安全性と言う悪魔の証明を要求し、その結果、国民全体の負担が重くなる
戦争を絶対に行わないことが前提だから、隣国が軍事行動を行っても、防衛増強には反対
そろそろ、この感情的な完璧主義を廃止して、合理的なリスクマネジメントに変えないと、日本社会は破綻するよ ボッタ値で信用を売ってたオラクルはどう責任取るの? 正常系の動作で投票ディスクの内容がが壊れるならそれがバグで、投票ディスクがぶっ壊れた状況でDBが起動しないのは正常動作だろ。
そんな状況で起動しちゃったら、データの同期がとられず格納されているデータをぶっ壊すからね
投票ディスクの内容がぶっ壊れた原因がDBじゃ無いならそれはDBのバグじゃないだろ
ログ見て対処しろよと オラクルが認めた訳でもないのに、変な記事だな。
NTTデータ側のバグか保守の不備じゃないの? NTTデータ「Oracleさんどーしてくれんの!」
Oracle営業「えっと最新バージョンに更新して頂ければ改善します」
NTTデータ「え?!!!」
Oracle「ざっと数千万。特別にお安くして数百万でいかがです?さあこのチャンス(ry」 >>59
汎用機の更新にどんだけ金かかると思ってんの? >>156
ほんとそう。
損失額×発生確率<損失回避コストになっている事が多すぎる。
無駄なチェックや書類作成とかまさにこれ。
日本ってなぜか発生確率ゼロを目指そうとするんだよな。 NTTデータ「手順通りちゃんとやったはずなのに動かない。オラクルのバグだ!」
記者「オラクルのバグが見つかった。大スクープだ!」
Oracle営業「冗長構成にしないと、ダメなんですよ。」
とかでね。 >>162
日本人は合理的に考えるのが苦手なのでは?
明らかに偶発的な事態でも
結果的に被害が大きくなれば、そこに過剰な投資をして他の潜在リスクを放置するし >>157
> 信用を売ってたオラクル
笑うところ?w 投票ディスクの破損は想定されていて複数構築することが推奨されている
バックアップとリカバリについても情報がある
これで、どうしてオラクルが悪者になってるのかわからない >>161
汎用機って言って今時のハードにリース変えるだけだよ
端末なんてPCだし全部エミューレーターだよ
個人から見れば大きい費用にはなるけど、自治体の予算からすれば普通
運用を担当する現場の人間からしたら変えない方が良かったって言うよ
今回のケースでもわかるようにバックアップとリカバリーを含めた運用できるスキルも無い
住民情報系のシステムは1時間止まっただけで大騒ぎするようなもので
オープン系のシステムに変えるってことはめちゃくちゃリスキーなんだぞ >>158
そうだね
スピリットブレインが起こってデータ不整合が発生してたろうね。
oracleとしては正常動作な希ガス >>160
よくそれ言うけど、保守入ってて追加料金なしで手に入る最新のパッチあてるだけでも難しいっていうのが日本のIT業界だからw
年に一度のアップデート計画があるので年末まで問題を回避する方法を考えてくださいってベンダーに強要するのが普通なんだなぁ >>171
そうじゃなくてアップデートしたことによる利益はほしい
リスクは全部ベンダー
こういう客の性質がパッチ適用を躊躇させてる >>172
命に関わることにシステム使ってるところは、システムが止まった時にどうするかの緊急プラン作ってあるから >>156
△ 根性論で勝つことが前提だから
○ 根性論あるいは神風論で勝つことが前提だから IT企業なんてこんなもん
だからライセンスに何が起きても免斉の条項を押し付けてる
他のメーカーにはあり得ない常識 >>173
言ってることは同じだぞ
来年になったってパッチなんかあてないからなw
要するにただ嫌だと拒否してベンダーから協力を断られた経験から言い訳が増えてるだけ >>121
NTTだから日本オラクルも知らぬ存ぜぬ決められないんだろw >>86
いいカキコミだと思うから、一応訂正しとく。
NTT西→NTTデータ関西 DBMSなんてどこも信じられないが、どこと心中するかといったらオラクルは嫌だな
イチイチセコいんだよな 何を言ってるのかさっぱりわからん。
Accessで例えて ファイルサーバ上の Excel 開いたら、「ほかの人が使ってる」ってでて、「その人が閉じたら通知」を選択したにも
関わらず、何時まで経っても通知が来ない&全員がその状態でだれも書き込み&保存ができない状態っすね。 RAC止まるなら使う意味ないな。普通にメモリDBとレプリケーションでいいんじゃないか。 NTTがクソな構成にしたんだろ
ほとんどの会社がオラクル使ってるのに異常はない >>188
またまたご冗談をw
ほとんどの会社がOracleがクソだと分かってるよ これのせいでRAC入れてる顧客が、ウチは大丈夫か、ってうるさいんだが、
どうやって黙らせたらいいかな? はぁ
未だに市役所に行かないと行けない
アナログうんこシステムの方が問題ですわ 流石24時間保守やってる会社。 こんな時間でも5ch対策余裕ですね。
>>191
Non-Stop サーバの見積持っていけばいいと思うよ。
パッチを当てなかった以上、Oracle はバグなのかどうかを判断できずパッチを用意出来てない
ので、別製品で RAC より信頼性が高いといわれている商品に差し替えるしかないからね。 >>195
> Non-Stop サーバの見積持っていけばいいと思うよ。
おお、それはいいな
早く入れ替えてくれ、いつできる?
御社の判断で入れ替えるんだから費用は御社持ちな 市レベルでOracle導入できるなんて大阪市は金持ちなんだな。だけど国全体でいくらを
Oracleに支払ってるんだろう。
自治体毎に持たせるのではなくて国家レベルで1つ作って全自治体で共有するようにとか
ムダ遣いを抑える戦略はないのかな 国家のレベルでOracleに依存するとか頭腐ってるのかよw non-stopサーバいいな、値段も。
ウチの営業はアホだから何でもサービスで安請け合いしちゃうんだよね。
とりあえず今回のは非公開バグだから、パッチでてないし、
対策ないよ、って言っておくよ。 >>201
富士通のSymfowareとか、日立のHiRDBとか >>199
MSにも依存しっぱなしだし今更じゃねぇの >>204
国レベルで1社に依存するんだよ?
そこがコケたら全ての社会生活が成り立たなくなるんだが、わかってる? >>145
>>170
で、実際止まると、想定外だったてなるんだよな。
頭沸いてるだろ。公務員 職場のシステムがoracleだったことあるが使いにくすぎてクソだわ
素人が開発してんのか? >>86
業務影響出ているからOracleも即時対応だよ
SRに対してフォローする体制もすぐ用意して営業とSCはいつでもベンダーと連絡とれる形で待機ってとこかな >>191
本当にOracleのバグかも怪しいからなぁ OS と DB みたいな重要なソフトは、
車みたいにバグがあったら国が情報開示を命じてリコールさせたり
バグを出したベンダーは営業禁止にしたり出来ないもんかね。
航空機みたいに設計変更するにはバグがないことを第三者機関が審査する仕組みもいいかも。
もちろん莫大なコストがかかるので OS や DB の価格は上がるだろうが、
バグやセキュリティ問題の心配を一切せずに使えるようになるならその方がいいだろう。 そもそもパッチをあてないといけないようなバグが入った状態で出荷してるのが問題だろ。
パッチをあてた結果としてめんどうなトラブルが発生する可能性が多分にあるんだから、
今まで動いてたものにパッチなんかあてたくないのは当たり前。 あ、そう
それならバグが原因でトラブルのは発注元の責任だね >>210
膨大なコストを君が払うなら可能じゃね?w
冗談はさておきそれやると技術の進歩についていけなくなるよ >>214
航空機が進歩してないなんて事はない。
進歩がゆっくりで高い代わりに安定性が高い OS や DB は選択肢としてあってもいいと思う。
もちろんバグがあるかもしれない代わりに進歩も早い、今まで通りのソフトも選べるんだから。
要するに COBOL でやってたような事を ORACLE みたいな信頼性のないシステムで置き換えるのは間違ってると言いたい。 >>215
あってもいいけどそれ誰が買うの?
って話なんだが なんだ冗長じゃないクラスタが止まった話か
Hot/Hotじゃあね……
設計に問題あったんじゃね? >>216
役所とかインフラ・金融系とか、普通に買うと思うよ >>217
すまんが Active/Standby の方が不安定だと思うんだわ。
それとも Cold Standby って話か? それなら Hot Standby より上だと思える。
まあ Oracle RAC は設計悪いと思う。
>>218
防衛とか一部はそりゃ買ってくれるけど、商売として成り立たないんで収束に向かってますがな。 >>90
もう一つ直接本社とやり取り出来る方法があるんだよ 他の人も散々言ってるけどRACを勘違いしてる人多すぎない? >>223
DB の Cold Standby って、当たり前だけど切り替え時に直前のデータが引き継がれないから
ちゃんとそこを理解した上で予備機を配置できる案件なんて少ないからな。 >>225
確かにRACのホット/ホットにコールド、さらにデータガードに遠隔バックアップの構成は今まで一度しかやったことないわ
その金を出せるのは本当に一部の企業だけだから >>218
そういう業界でもダウンサイジング(懐かしいw)してるよね
なぜだと思う? RDBなんか使わずCOBOLのテーブルで十分ならそっちの方がいいと言う話も聞くな
システムのリプレースに合わせて要件の洗い直しをやってRDB→COBOLの書き換えをやったというのも最近見たような 結合演算子は好きなんだよなぁ。
随分前からOracleも非推奨としているけど、
こっちがオマケ的な感じで見やすいと思うんだけどね。 >>228
11.2でASMにしておけば投票ディスクの問題はすぐにわかったかな バグがあったとして、値段が高かったとして、Oracleがなぜそんなに嫌われてるの?
品質が悪くて、値段に見合わないなら、他のRDBに乗り換えればいいだけじゃないの?
ここでグダグダ言ってるのは、製品選定には口を出すこともできない、末端のIT奴隷たちってことかな?
下請けの下請けの下請けみたいな立場では、どんなに文句があったて、5chで愚痴るくらいしかできないもんね?
悔しかったら、Oracleに入って品質を高めるような努力をするとか、自分でRDBを作る会社を立ち上げるとか、したらいいんじゃないの?
聞きかじった知識だけで、あたかもITの世界を分かったような振りをするのは、技術者としてみっともなさ過ぎて口からオナラが出そうだわw >>235
普通にevil oracleというネタだから >>1
> バージョンは「システム構成に関わるので明らかにできない」(大阪市ICT戦略室)
要するに、最新バージョンを使ってなかったからバグ踏んだと。
もしかしたらサポートキレてるバージョン使ってたんじゃないの? >>235
まぁ金じゃぶじゃぶ使えるところ以外は他のRDBMS使ってるよな。 Oracleの場合はバージョンがいくつかより、個々のバージョンでどのパッチを
どこまで当てているかが重要でOracleもそこで金をボッタクってる。
へなちょこSIerだとその辺がまるでフォローできないからダメ。 この記事の最後まで読めば少し気付けるところあるけど。
読んだ?気付かない? ネットワーク障害で投票ファイルがぶっ壊れる理由がよくわからん
Oracleのせいじゃないんじゃないの? 投票ディスクみたいなのって普通はRAC専用のLANでつなげるのでは?
表側の普通のLANとは別になるから普通はネットワーク障害とか起きにくいはずなんだけど
ネットワーク障害がきっかけでなんで投票ディスクのデータが壊れるんだ? >>248
なんとなくなんだけど、ファイルシステム経由しないDirect I/OかRAW I/O構成で
ネットワーク障害はトリガに過ぎないんじゃね?
そうじゃないとシステム領域までぶっ壊したって話に繋がり難い気がする。 投票ファイルが壊れたように思える
投票ファイルの冗長化していなかったのか
ネットワークでデータ化けして正常動作で異常なデータが書き込まれたのか?
大阪市以外はバグと言ってないし単なる障害な気がする 投票ディスクが壊れたなら起動しないのは望ましい正常動作
ログ見て対処しろよと
バックアップからレストアするとか無意味 >>235
こんなところでマウント取りに来るとか友達いないのか?w >>254
いや、235の意見は一理以上あるだろ。 }l 'ヾミミヽ rz彡‐`ヽ |::fYj
{| 、_tッ、,゙ ' r' rtッ_‐ァ' |::}}!
゙l `ー 'ノ !、`ー ' |::リノ > 大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、
> 8000件近い証明書発行業務に影響が及んだ。原因はOracle Databaseのクラスタ機能に潜む
> バグだった。ネットワークの不調をきっかけにシステムが停止し、再起動もできなくなった。
> 米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。
https://tech.nikkeibp.co.jp/atcl/nxt/mag/nc/18/020600011/070200035/ 大阪市はこういう時の補償を誰に求めるのか、
どういう契約内容なんだろうね 大阪市とNTTDATAの間の契約が役務契約だったとき
不具合によって発生する損害は
NTTDATAが負担しないと行けなくない? >>261
ん?役務契約の意味わかってる?
どんな契約形態でも製品のバグを製品メーカー以外に問えるような契約はないよ。
お前が門外漢なのは仕方ないが、それにしてもその質問はありえないぞ。 >>263
製品メーカーの責任はNTTDATAが追及すれば良いんじゃない?
大阪市にとっての契約相手はNTTDATAなんでしょ? クラスタを過信してるアホの多いことよ
間欠故障に対して絶対はありえない >>264
そんな契約をしてるSIer (今回はNTTデータ)はない。
前提として、すべてのハードウェアもソフトウェアもバグを潜在的に持っているんだよ。
ソフトウェアのライセンス契約では、すべての会社が「バグのせいで損害が発生しても知らないよ」という契約にしてるの。
そしてSIerの契約でも保守まで含めて契約していたとしても、製品のバグに対する責任は負わない契約にしてるの。
つまり、大阪市は損害賠償請求をしたくても、どこにもできない。 じゃあ使っているPCのHDDが壊れて損害が出たとき
大阪市はHDDメーカーに損害賠償するのか?
それこそあり得ないだろう
HDDの診断や交換は契約したNYTTDATAが面倒見るだろ、普通 今回は、
> 米オラクルはバグの存在を把握しながら対外開示をしていなかったとみられる。 https://tech.nikkeibp.co.jp/it/members/NC/ITARTICLE/20030328/1/
>3月1日に起きた航空管制システムの障害は、直前のプログラム変更をきっかけに、
>NECが昨年9月に行ったシステム改修時のバグが顕在化したことが原因だった。
>NECはバグに気づいていたが、昨年9月以降、特に問題がなかったために対策を
>とらなかった。国土交通省のテストも不十分だった。
(略)
> この時点で何らかの対策をとっていれば、今回のトラブルは起きなかった。
>NEC幹部は3月11日、バグの存在を報告しなかったことについて国交省に謝罪。
>これを受けて国交省は、被害を受けた航空会社とともに、NECに対する損害賠
>償請求の検討に入った。
その後どうなったかは知らないが、バグについて無保証ではないようだ。 >>267
けっこう親切に説明してやったつもりだが、その後のレスがそれかwwまずはお前の脳内にあるバグを修復しないとw 契約メーカーが損害賠償請求されているそうだが、
お前の観点からするとあり得ないことだよね >>266
「前提として、すべてのハードウェアもソフトウェアもバグを潜在的に持っている」なんて、
実態はそうであったとしても認めちゃダメだろう。
ソフトメーカーにはバグのない完全なソフトウェアを提供する義務があるんだから。 > この原因について大阪市ICT戦略室は「Oracle Databaseには(データを格納する
>ストレージとDBサーバーをつなぐ)通信経路で伝送エラーが生じた際、システム
>ファイルが破損するバグが存在していた」と明かす。システム開発を担当した
>NTTデータ関西を介して「日本オラクルにバグの存在を確認した」(ICT戦略室)。
オラクルはバグですと認めたみたいだが 伝送エラーはオラクルの責任ではないが、
伝送エラーでファイルを壊したのはオラクル >>277
認めないとオラクル終わるやんw
SIerに売って貰わないと商売にならんのやから >>274
そういう義務はないw
品質を上げる努力は必要だけどw >>274
バグがあっても良かったら使ってもいいというのがソフトウェアライセンスに書いてあって、同意できないなら使ってはいけないんだなぁw
あと、人命が関わるシステムにインストールしてはならないという条文も割とよくあるww あとは原発での使用禁止とか書いてるのもあったなあw JavaはSunの時代からそういうことが書いてあったような。 たとえば車や家電にはバグがあってはならないという事になっていて
あったらリコールさせられるんだから、ソフトウェアもそういう制度にすればいい。 リコールで改造車の動きがおかしなことになったら
改造したおまえが悪いで済むけど、
アプリケーションで同じこと言われたら納得するの? >>289
値段が10倍になっても買うと言うならいいんじゃね? ■ このスレッドは過去ログ倉庫に格納されています