Amazonの特売イベント「プライムデー」で米国時間7月16日に障害が発生した原因について、いくつかのことが明らかになった。

 CNBCが入手した社内文書によると、Amazonは1年でも特に売り上げが大きい日であるプライムデーの開催中に、自社サイト上の全てのトラフィックを処理できるだけのサーバを用意していなかったという。
Amazon Prime Day crash: internal docs reveal scramble to fix(英文)
https://www.cnbc.com/2018/07/19/amazon-internal-documents-what-caused-prime-day-crash-company-scramble.html
これが原因で、Amazonは通常のものよりシンプルな予備のホームページを立ち上げて、国際的なトラフィックを一時的にブロックすることを余儀なくされた。

https://japan.cnet.com/storage/2018/07/20/8b9a11637596330961687402016ac22e/gettyimages-999384964-1.jpg
Amazonはプライムデーで発生した障害を解消すべく奮闘していたようだ
提供:Getty Images
 報道によると、この措置は、プライムデーが太平洋時間正午に始まってから15分後に実施された。プライムデーは100万点以上の商品を割引価格で提供する36時間のセールだ。

 報道によると、Amazonはトラフィックの急増に対応するため、手動でサーバを追加する必要があった。この文書を精査した専門家がCNBCに述べたところによると、Amazonのオートスケーリング機能が正常に働いていなかったことがクラッシュの原因となった可能性があるという。プライムデーの開始から約1時間後、Amazonのサーバの状態に関する更新情報には、「現在、スケーリング能力が不足。利用できそうなハードウェアの探索を検討中」と書かれていた。

 この文書によると、小売りやデジタル事業向けの計算およびストレージサービスに使われている「Sable」という社内システムに障害が発生したことで、プライム、認証、動画再生などのサービスにも不具合が生じたという。また、「Alexa」「Prime Now」「Twitch」の各チームも問題を報告し、一部の倉庫ではしばらくの間、商品のスキャンなどができなくなったという。

 この件に詳しい人物がCNBCに伝えた話によると、当時オフィスは「カオス状態」で、一時は300人以上の人が緊急会議に参加していたとのことだ。

 Amazonでワールドワイドコンシューマー部門を統括するJeff Wilke氏はCNBCが入手した社内向け電子メールの中で、同氏のチームが今回の障害について「失望した」と述べ、同社が再発防止に向けて取り組んでいくと伝えたという。

 Amazonはコメントを控えた。

2018年07月20日 11時08分
CNET Japan
https://japan.cnet.com/article/35122764/