ニュース

20日のグーグルの障害、原因と再発防止策を発表

2020年8月28日 13:35

　グーグルは、8月20日に発生したクラウドサービスの障害について原因と再発防止策を明らかにした。

グーグル発表資料より

　Gmailでは、一部のユーザーでGmailサービスが利用できず、メールの配信の遅延が発生した。また、一部のメッセージに添付ファイルを追加する際にエラーが発生し送信できなかった。

　Google Driveでは、一部のユーザーについて、エラーや待ち時間が増加したという。

　Google Docsでは、画像をアップロードする、画像付きの文書をコピーする、画像付きのテンプレートを使用するなど、画像関連の問題が発生した。

　Google サイトでは、新しいサイトの作成、サイトへの新しいページの追加、アップロードができない場合があった。

　このほか、Google Meetの遅延や接続不良など、グーグルのクラウドサービス全般に障害が発生したという。

　グーグルでは、多くのサービスで共通する内部分散システムを使用している。ここには、サービスの入口となるフロントエンドとメタデータを処理するミッドレイヤー、バックエンドとなるストレージが入っている。

　通常、クライアントからフロントエンドにサービスを要求し、フロントエンドはミッドレイヤーと通信し、ミッドレイヤーはストレージと通信し、サービスを提供する。

　今回、Googleサービスからのトラフィックが増加し、メタデータ処理に遅延が生じ始めた。これによりタスク処理に不具合が生じ待ち時間が発生。たちまち、リソースの枯渇が発生したため、リクエストの失敗が発生したとしている。

　さらに、失敗したリクエストをキャンセルしたり再試行したりすることで、トラフィックに乗算的な影響を与えたという。

　グーグルでは、障害発生してから1時間以内に障害についての調査と対応を実施し、問題を解消したものの、リソースの枯渇が長時間に渡って継続し、障害の完全解消まで時間がかかったとしている。

　グーグルでは、再発防止と障害時の影響軽減のために、リソースの増強やシステムの再評価、内部マニュアルの改善など、対策を講じるとしている。

グーグルが発表した改善策

　グーグルでは、サービスの利用停止を防ぐために、迅速かつ継続的に技術と運用を改善していくとしている。