2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは日本語での詳しい報告を公開しました。

報告によると直接の原因は東京リージョンのデータセンターで使用されている冷却制御システムにバグがあったこと。これにより、緊急時の手動操作にも冷却制御システムの一部が反応しないなどでサーバが過熱し、障害に至ったと説明されています。

8月23日午後に約6時間の障害。EC2だけでなくRDSも
報告によると、障害は日本時間2019年8月23日金曜日の昼過ぎに発生。影響範囲は仮想マシンを提供するAmazon EC2とブロックストレージを提供するAmazon EBSのそれぞれ一部。以下、AWSの報告を引用します。

日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一定の割合の EC2 サーバの停止が発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンスへの影響及び EBS ボリュームのパフォーマンスの劣化が発生しました。

障害の原因は冷却制御システムのバグによってサーバがオーバーヒートしたため。その冷却制御システムは、障害発生から約3時間後の15時21分に復旧します。

冷却制御システムの復旧によってデータセンターの室温が低下し、影響を受けたEC2インスタンスとEBSボリュームの大部分が回復したのは、障害発生から6時間後の18時半頃。一部についてはさらに復旧に時間がかかっています。

日本時間 18:30 までに影響を受けた EC2 インスタンスと EBS ボリュームの大部分は回復しました。少数の EC2 インスタンスと EBS ボリュームは、電源の喪失と過大な熱量の影響を受けたハードウェアホスト上で動作していました。これらのインスタンスとボリュームの復旧には時間がかかり、一部につきましては基盤のハードウェアの障害によりリタイアが必要でした。

マネージドサービスのAmazon RDSも同時に障害
また、今回公開された報告には含まれていませんが、この障害はAmazon RDSにも影響していました。Amazon RDSでは障害発生のタイミングはほぼ同時ながら、解消まで約10時間かかっています。

下記情報は記事執筆時点でAWSヘルスダッシュボードのRSSの中に残っていますが、いずれ消えてしまうはずです。

日本時間 2019年8月23日 12:36 から 22:05 にかけて、東京リージョンの単一のアベイラビリティゾーンで一部の RDS インスタンスに接続性の問題が発生しました。現在、この問題は解消しており、サービスは正常稼働しております。詳細はこちらをご覧ください。

この障害の詳細情報へのリンク先も今回の大規模障害の報告ページになっています。

つまり8月23日金曜日の午後の大規模障害の範囲はAmazon EC2、EBSだけでなく、少なくともAWSがマネージドサービスで提供しているAmazon RDSにも広がっていたことになります。ただし障害の範囲は1つのアベイラビリティゾーン内だったとされています。

(ほかにもこの障害との関係は未確認ながら、同時間帯にAWSのマネージメントコンソールが利用できなくなった、Amazon ELBでエラーが発生した、といった利用者の声もあがっています)。
以下ソース
https://www.publickey1.jp/blog/19/aws23.html