インタビュー

グーグルのチャットAI「Bard」、日本語でもGmailやGoogleマップなどと連携可能に、キーパーソンに聞く

 Google のAIチャットサービス「Bard」(バード)で、日本語でも、GmailやYouTube、Google マップと連携できる新機能の提供が始まった。

 たとえばBardに旅行の計画を立てたいと相談するとYouTubeで旅行先の動画を見つけてくれたり、Google マップで観光地の情報を紹介してくれたりする。

 新たなAIモデル「Gemini」を発表したばかりのグーグルだが、BardへのGeminiはまず英語で導入されており、日本語での対応は2024年になる見込み。はたして今回のアップデートはどのような体験を実現し、今後、どう進化していくのか。Bard担当のプロダクトマネージャーであるアーラッシュ・セルバン(Aarush Selvan)氏に話を聞いた。

――今回のアップデートで、何ができるようになるのでしょうか。

セルバン氏
 Bardを立ち上げて以来、私達は、ユーザーの皆さんがBardで、どうほかのサービスと連携するのか知ることをワクワクして見守ってきました。

 今回は、我々が「Bard Extension(エクステンション)」と呼ぶ拡充が日本にも対応するアップデートになります。

アーラッシュ・セルバン氏

 エクステンションは、人々が日常生活で使う、ほかのGoogleアプリやサービスと連携できるものです。

 Googleドキュメント、Gmail、Googleドライブ、YouTube、Google Maps、といったサービスと連携します。これらのアプリにBard経由で情報を検索し、一日の計画を立てたり、旅行や出張の計画を立てたりできるわけです。

――Bardとグーグルの各種アプリはどう連携するのか。もう少し詳しく教えてください。

セルバン氏

 では、イメージしやすいように、実際に使う場面をご紹介しましょう(筆者注:英語でのインタビューであり、デモンストレーションも英語版になる)。

 たとえば「日本へ、桜を見に旅行したい。いつ訪れるのがいい?」とBardへ質問するとしましょう。

 エクステンションにより、Bardは「それは素晴らしいアイデアです。ただ、地域によって、桜の開花時期は異なります」といったテキストを示してくれます。その上で、「沖縄では2月~3月」などと、Googleマップで沖縄を示しながら、回答してくれるわけです。Bardは、東京では、3月下旬~4月上旬が、桜を見に行くのに良い時期と教えてくれました。

 グーグルの航空券検索サービス「Google フライト」とも連携し、先述した「桜を観るのにピッタリな時期の日本へのチケット」を検索します。今回のデモンストレーションでは、Bardは私がニューヨークにいることを理解していますので、ニューヨークからのフライトを検索してくれるわけです。

 もし、10日間、東京発着で日本へ滞在するとしたら、訪れるべき場所や都市も教えて、とBardに問うと「初日~3日目:東京」として、上野公園などを紹介してくれます。

 その後の日程として、箱根や京都も訪問先の候補としてリストアップし「電車で行くなら、どれくらいの時間がかかるの?」と聞いたら、Googleマップの情報として所要時間がどれくらいかかるか、教えてくれるのです。

 さらに「箱根についてもっと知りたい」と問うと、YouTubeからちょうど良い映像を提案してくれます。

――ユーザーが問う言葉から、どうやって「旅行に関する質問」と判断しているんでしょう?

セルバン氏
 Bardは、ユーザーが入力した文章、つまり生成AIで「プロンプト」と呼ばれる文章と、これまでの会話の履歴を参照します。それらの内容から旅行と判断し、適切な回答を生成するわけです。

 その文脈の理解をもとに、Bardは、GoogleマップやYouTubeのシステムに問い合わせをするという流れです。

 先に紹介した例では、電車での所要時間を質問しました。Bardは、これまでの学習に基づいて、移動経路の所要時間の質問に答える必要があるかどうか、予測できます。その答えは、Googleマップにあるため、BardはGoogleマップを使って回答することになります。

 Bardは、言語に関して、事前の多くの学習をしいています。AIモデルは、言語のパターンを拾い上げ、一連の流れで「次に出てきそうな単語」を予測して学習します。

 たとえば「味噌汁」という単語の次には「海苔」が出てくる可能性がありますよね。そうして単語や言語を学び、各アプリ・サービスに使われる単語を理解できますので、その質問に回答するために、もっとも適したツールも予測できるというわけです。

――回答結果は、Bardが決めているのでしょうか。それともYouTube側の検索結果をそのまま用いるのですか?

セルバン氏
 YouTubeは、質問に答えるためにもっとも関連性の高い動画を示すよう求められます。その要求(クエリ)に最適化結果をYouTubeは実際に示すわけです。

――Googleマップの店舗情報やYouTubeのコンテンツには、ユーザーからのコメントや評価がありますが、それも参照されますか?

セルバン氏
 はい、マップの検索結果や、YouTubeコンテンツに、ユーザーの評価を含めています。また、YouTubeだと、コンテンツクリエイターの名前を検索結果の一部として表示します。

――今後、Geminiが登場することになるが、Bard Extensionはどう変わるのか。

セルバン氏
Bardを英語で利用する際、Gemini Proを利用できるようになったところですが、2024年以降、より多くの言語に対応していきます。

 今の段階では、マルチモーダルには対応しておらず、テキストでの機能ですが、画像や動画などマルチモーダルに対応していく予定です。より高度な推論・理解・要約・コーディング・プランニングといった能力向上が見込まれています。

 さらに2024年にはGemini Ultraが登場します。グーグルにとって最大かつ最も高性能なAIモデルです。

 Gemini Ultraになれば、さらに複雑なタスクをこなし、テキスト、画像、音声、ビデオなど、さまざまなタイプの情報を理解できるようになります。

――Bardのアプリ版は登場しますか・

セルバン氏
 今後、数カ月でユーザーにBard with アシスタントという機能を提供できるよう取り組んでいきます。これが、すべての人のためのパーソナルAIアシスタントを構築するための一歩になります。

 Bardの推論能力が組みこまれたGoogleアシスタントが、個々人にあわせて手助けするようになります。テキスト、音声、画像を通して会話できるようになります。これはAndroid、iOSで対応する予定です。

――ありがとうございました。