ニュース
グーグルとドコモの担当者が語る、「Google Cloud」によるデータ分析
2021年9月8日 00:00
グーグル・クラウド・ジャパンは9月7日、「NTTドコモ、Google Cloud採用に関する記者説明会」と題して、報道陣向けの説明会を開催した。
説明会では、同社の寳野雄太氏と、NTTドコモの林知範氏がプレゼンテーションを行った。
データの“変換”に苦戦している企業は意外と多い
寳野氏はプレゼンテーションの冒頭で、アナリティクス(解析)に関するデータを披露する。
アナリティクスが世界市場に影響を及ぼす金額は、毎年15兆4000億ドル(約1700兆円)にものぼるという。こうした事実から、多くの企業のトップ(CEO)が、アナリティクスの重要性を認識しているようだ。
しかし、数々のCEOと対話してきた経験から、寳野氏は「(企業は)データを“目に見える価値”に変換することには苦戦している」と語る。同氏によれば、データを測定可能な価値に変換できている企業は、32%にすぎない。
その理由として寳野氏が挙げたのが、「データ技術の選択においては、ほとんどの場合で後戻りができない」こと。
生のデータを格納する「データレイク」と処理済みのデータを格納する「データウェアハウス」のどちらを選択するのか、スピードと価格のどちらを重要視するのか……こうした選択が“フィルター”として積み重なり、データの本当の価値を十分に引き出せなくなる、と同氏は主張する。
「統一されたデータクラウド」としてのGoogle Cloud
「技術は、原始的なものから複雑なものを経て、シンプルなものへと発展する」という言葉は、『星の王子さま』で知られるアントワーヌ・ド・サン=テグジュペリによるもの。
寳野氏は、データ利活用の分野でもこの言葉があてはまると語る。
第1世代のビジネスシステムでは、ひとつのシステムにさまざまな機能が詰め込まれていた。そこから、ユースケースごとにソリューションが分かれるかたちで発展してきた。
ここまでが、先の言葉で言うところの「原始的なもの→複雑なもの」の流れだとすれば、グーグル・クラウド・ジャパンが「その先のシンプルなもの」として考えているのは、統一されたデータクラウドとしてのGoogle Cloudだ。
グーグル・クラウド・ジャパンが掲げるビジョンは、データアナリストや開発者、あるいはビジネスユーザーなど、あらゆるユーザーにとって使いやすいデータのプラットフォームを提供するというもの。
Google Cloudではそのビジョンのもと、一連の豊富な機能を、統一されたエコシステムとして提供する。
高速な処理を可能にする「BigQuery」
寳野氏が今回焦点を当てたのは、「アナリティクスプラットフォーム」と呼ばれる「BigQuery(ビッグクエリ)」。
もともとはデータウェアハウスとして提供が始まったBigQueryのセールスポイントは、組織を横断してデータを共有可能なストレージにより、データをサイロ化(孤立)させず組織内で活用できることにある。
これまでは部門ごとにデータウェアハウスを分けていたようなケースでも、それを一元化できるほどのスケールがBigQueryにはある、と寳野氏は強調する。
また、インデックスチューニング(索引の最適化)などの複雑な要素抜きで、高速に処理を行えることも特徴となっている。
大規模なクエリの実現と、「動的なクエリプラン」
こうしたBigQueryのスケールを支えているのが、大量のコンピューターだ。寳野氏によれば、データセンター単位と言っても過言ではないほどのコンピューターが、BigQuery内に並んでいるとのこと。
BigQueryでは、コンピューターとストレージの分離に加え、メモリーも切り離されており、それぞれが独立したかたちとなっている。これにより、大規模なクエリを実現する仕組み。
また、「動的なクエリプラン」もBigQueryの特徴のひとつ。
通常は、データベースでクエリを実行し始めると、コンピューターやストレージの使い方は最初に決まってしまう。それに対して、BigQueryではリアルタイムで動的に使い方を変更できるため、同時並列クエリのパフォーマンスを担保可能になる。
Google Cloudは、1ペタバイト以上のデータウェアハウスを持つBigQueryの顧客を、数百社抱えているという。
SQLのスキルだけでMLを利用できる「BigQuery ML」など
BigQueryは、データベース言語のSQLを書くだけでML(機械学習)を実行できる機能「BigQuery ML」を搭載している。
これにより、データアナリストなども機械学習を利用できる。世界各地のグーグル・クラウド・ジャパンの上位顧客のうち、8割がこのBigQuery MLを使用しているとのことだ。
寳野氏は、データのサイロを解消するために用意された機能のひとつとして、「BigQuery Storage API」と呼ばれるインターフェイスを紹介し、プレゼンテーションを締めくくった。
ドコモ社内のビッグデータ分析基盤「IDAP」とは
寳野氏に続いて、ドコモの林氏がプレゼンテーションを行った。
ドコモでは、社内のビッグデータ分析基盤として「IDAP(Integrated Data Analytics Platform)」を活用中。IDAPでは、社内の分析者向けに、ドコモのさまざまなデータが集約されている。
IDAPに登録済みの分析者数は2500人で、データ加工処理の対象となるデータ量は1日あたり50テラバイト以上。そして、分析者が分析可能な総データ量は、実に5ペタバイト以上になるとのこと。
扱われるデータのカテゴリーは、通信事業のネットワーク系データや、スマートライフ事業のサービス系データが主なものとなっている。
扱うデータ量の増加に伴い、Google Cloudの導入検討を開始
IDAPが誕生したのは2014年8月。その時点では、125台のAmazon Redshiftによって構成されていた。
その後、Redshiftの拡充や集約などを経て、2019年3月にBigQueryの性能検証が始まる。グーグルのエンジニアと議論を重ねる中で、BigQueryの性能向上が確認され、同年12月にはGoogle Cloudによる運用のめどがついた。
その後、2020年10月にGoogle Cloudの小規模導入が実施され、2021年7月の本格導入に至った。IDAPは現在、オンプレミスとマルチクラウド(Google CloudとAWS)のハイブリッド環境で運用されている。
ドコモがGoogle Cloudの導入を検討した背景には、IDAPで扱うデータ量の増加がある。
そこで、同時並列実行における高いパフォーマンスを誇り、豊富な機能を有するGoogle Cloudが候補になった。
導入にあたっては、セキュリティ要件を満たす環境構築や運用が可能かどうかの検証も実施されたとのこと。
林氏は、閉域環境へのGoogle Cloudの導入や、BigQuery上の細かなアクセス制御に関しても、スライドを用いて詳細に説明した。
2018年12月に「VPC Service Controls」がGA(一般提供)されたことで、ドコモ社内の高いセキュリティ基準を満たせるようになり、Google Cloudの導入の大きなきっかけになったという。
BigQueryにおけるTipsの紹介も
林氏は最後に、BigQueryにおけるTips(テクニック)の一部をいくつか紹介した。
そのひとつとして挙げられるのが、BigQuery Storage APIによるデータ読み取りの高速化。機械学習チームでMLモデルを作成する際、大規模なデータの読み取りが頻繁に発生してしまい、多くの時間を要していた。
そこで、ユーザーがPythonのデータ分析ライブラリ「Pandas」を使っていることに着目し、BigQuery Storage APIを活用した。
同API経由でデータを読み取ることにより、通常であれば読み取りに30分かかるところを10分以下に短縮でき、ユーザビリティの向上を実現したとのことだ。