ニュース

20日のグーグルの障害、原因と再発防止策を発表

 グーグルは、8月20日に発生したクラウドサービスの障害について原因と再発防止策を明らかにした。

障害の内訳

グーグル発表資料より

 Gmailでは、一部のユーザーでGmailサービスが利用できず、メールの配信の遅延が発生した。また、一部のメッセージに添付ファイルを追加する際にエラーが発生し送信できなかった。

 Google Driveでは、一部のユーザーについて、エラーや待ち時間が増加したという。

 Google Docsでは、画像をアップロードする、画像付きの文書をコピーする、画像付きのテンプレートを使用するなど、画像関連の問題が発生した。

 Google サイトでは、新しいサイトの作成、サイトへの新しいページの追加、アップロードができない場合があった。

 このほか、Google Meetの遅延や接続不良など、グーグルのクラウドサービス全般に障害が発生したという。

原因はトラフィックの増加によるリソースの枯渇

 グーグルでは、多くのサービスで共通する内部分散システムを使用している。ここには、サービスの入口となるフロントエンドとメタデータを処理するミッドレイヤー、バックエンドとなるストレージが入っている。

 通常、クライアントからフロントエンドにサービスを要求し、フロントエンドはミッドレイヤーと通信し、ミッドレイヤーはストレージと通信し、サービスを提供する。

 今回、Googleサービスからのトラフィックが増加し、メタデータ処理に遅延が生じ始めた。これによりタスク処理に不具合が生じ待ち時間が発生。たちまち、リソースの枯渇が発生したため、リクエストの失敗が発生したとしている。

 さらに、失敗したリクエストをキャンセルしたり再試行したりすることで、トラフィックに乗算的な影響を与えたという。

 グーグルでは、障害発生してから1時間以内に障害についての調査と対応を実施し、問題を解消したものの、リソースの枯渇が長時間に渡って継続し、障害の完全解消まで時間がかかったとしている。

再発防止・影響軽減への取り組み

 グーグルでは、再発防止と障害時の影響軽減のために、リソースの増強やシステムの再評価、内部マニュアルの改善など、対策を講じるとしている。

グーグルが発表した改善策

  • 根本原因が完全に解決するまで、BLOBメタデータサービスへの計算リソースの割り当てを増強する
  • メタデータサービスタスクの起動時に行われるヘルスチェックを調査・改善し、リソース供給前にタスクを早期に停止しないようにする
  • メタデータ操作に失敗した場合に使用されるバックオフおよびリトライ処理について再評価し改善する
  • BLOBストレージシステムで使用しているオートスケーリングサービスのアラートを早期発見できるよう改善する
  • タスクの起動時やリソースの割り当て時に、問題が発生しないようにする
  • BLOBストレージサービスへのリクエストに対して、より包括的なレート制限制御を実装する
  • BLOB操作のデバッグをより効果的に行うための計測器を追加する
  • クリティカルなシステム間での生産リソースの転送の速度や効率、自動化を改善する
  • BLOBストレージサービスのレート制限制御に関連した内部マニュアルを改善する

 グーグルでは、サービスの利用停止を防ぐために、迅速かつ継続的に技術と運用を改善していくとしている。