インタビュー
「Googleアシスタントの人格はグーグルそのもの」
グーグル徳生氏、開発担当者のスティーブ・チェン氏に聞く
2017年5月30日 21:33
「東京タワー 高さ」「六本木から渋谷まで」「352×218」――単なるワード検索だけではなく、さまざまな機能を検索ボックスを通じて提供してきたグーグル。その一方で、機械学習を採り入れ、フォトや翻訳で新機能や精度向上を実現させてきた。
29日から順次、利用できるようになった日本語版「Googleアシスタント」は、そうしたグーグルの各サービスで用いられてきた技術を総動員し、組み合わせて形作られてきたものだ。そのGoogleアシスタント開発担当者であるスティーブ・チェン氏、そして日本での発表会に登壇したグーグル 製品開発本部長の徳生裕人氏へのインタビューをお届けする。
米国、どうですか?
――いよいよ日本語版が発表されましたが、まず米国でのGoogleアシスタントの利用動向はいかがですか。
チェン氏
メッセージを送る、電話をかける、道案内といったところで、口で言えばすぐ使えるということから、とても多くの用途で使ってもらっています。よく利用されていますね。
ユーザーの意図を理解する
――開発中、最も難しかった課題は?
チェン氏
(少し考えて)困難なことはたくさんありましたが……Googleアシスタントは、音声認識や合成、道案内やメッセージ送信など、グーグルの機能を簡単に使えるようにしています。そのために他チームと連携する必要がありました。
技術的には、ユーザーが投げかける質問を正確に理解するということが難しかった。たとえば「明日の天気」というわかりやすいものであれば、簡単に対策できます。でも、もっと細かな質問などでは、ユーザーが本当に意図しているところを、どれだけ正確に理解できるのか。これが大きなチャレンジでした。
ユーザーがお話しする相手は「グーグル」
チェン氏
うまくユーザーの意図を理解できたとしても、それをどういう形にするか。たとえばアシスタントの人格です。もし、いかにも“機械”という態度にすれば、威張っていると思われたり、冷たく思われたりしないか。逆の姿勢だと「こいつ本当に信頼できるのか?」と思われてしまわないか。しっかりしていて、話していて楽しいと思わせるような人格を作るのも、ひとつの挑戦でしたよ。
――人格を作るということは、他のプロダクトでも経験されたことだったりするのですか?
チェン氏
実は今回、Googleアシスタントの人格を作り上げるときには、グーグルのDoodle(いたずら書き、日本ではホリデーロゴとも)チームにいる、ライアン・ガーミック(Ryan Germick)に力を貸してもらいました。Doodleは、歴史上の偉人、出来事など著名な人物・ものをイラストで紹介しているのですが、ユーザーにとっては「Googleの顔」「Googleの個性を守るもの」と言っていいものだと思うんです。ライアンは本当に面白い人物で、そんな人が監修してくれたからこそ、Googleアシスタントでの人格はとてもいいキャラクターになっていると思います。
――ということは、Googleアシスタントを通じてユーザーが会話するのは、グーグル自身なんですね。
チェン氏
はい、その通りです。グーグルをそのものを人間にしたら、という人格にしています。
――アップルだとSiriという名前をつけ、マイクロソフトのOfficeにはイルカがいますが、グーグルそのものだと。
チェン氏
そうなんです。他社さんのサービスでは愛称が付いているものもありますが、Googleアシスタントのキャラクターは、これまで検索で進化してきたグーグルそのものなんです。
チェン氏が考える「音声インターフェイス」の重要性
――なぜ音声で制御する形になったのでしょうか。音声の重要性とは?
チェン氏
それは難しい問いですね……私自身の考えをお話ししてみます。
たとえばコンピューターの操作方法として、これまで主流であるグラフィカルユーザーインターフェイス(GUI)は、とても素早くさまざまな情報にアクセスできますよね。
一方、ボイスインターフェイスは、喋るスピードが決まっていて、ひとつずつ伝えていって、といった限界はあります。
でもボイス(音声)インターフェイスは、本当に魔法のような仕組みを実現できるインターフェイスでもあります。とても簡単に、たった一文で、内容をがらりと変えられるんです。いわばランダムアクセスできるんですね。たとえば音声入力の話をしながら、いきなり休暇での旅行の話に切り替えられる。
GUIでは一回に表示できるボタン数には限りがありますよね。いわばGUIは人間が段階的に情報へアクセスするようデザインされているんです。わかりやすい例としては、過去にもあったディレクトリ型(階層型)のサービスですね。本当に知りたい情報へ行き着くには何度もタップする形になります。
――なるほど。
チェン氏
検索では、ワードを入れたら一発でアクセスできる。これって「ユーザーの意図を正確に理解する」というチャレンジがあってのことですが、その機能は、音声での検索に近い価値も提供できます。
もしホテルを検索する場合、音声だと「トリップアドバイザーで、東京のグランドハイアットを(Grand Hyatt Tokyo on TripAdviser)」と言うだけです。でもGUIだと、アプリ一覧から宿泊施設の検索アプリを探して、アイコンをタップして、ホテル名を検索して……という流れですよね。これが音声インターフェイスの力だと思うのです。
さらにグローバルへ
――30日のauの夏モデル発表会で、KDDIと協力するとのことでしたね。これって、他のサードパーティがGoogleアシスタント対応アプリを作ることと、どういう違いがあるのでしょうか。
チェン氏
米国では、サードパーティがアプリを開発できる「Actions on Google」という取り組みを進めています。30日のKDDIさんとの発表はひとまず、両社の想いを明らかにしたものですが、もしかしたら、公開前に(KDDIがActions on Googleへ)アクセスできるようにするかもしれませんし、フィードバックをいただいたりするかもしれません。IoTサービスのau Homeはとてもユニークだと思いますので、我々のプラットフォームに反映できる知見が得られるかもしれません。
――なるほど。では、Googleアシスタントそのものの未来について教えてください。短期的、たとえば今後半年くらいで、実現したいことはありますか?
チェン氏
6カ月でですか……。まずはより多くの言語で提供すること、でしょうか。当社CEOのスンダー・ピチャイは、米国外の出身であり、グローバルでの視点を持つ人物で、グーグルが世界中の誰もが利用できるサービスを提供する必要がある、と考えています。Googleアシスタントは、日本語版が出たとは言え、まだ英語版のほうがクオリティが高い。これを他の言語でも同じ品質にしていきたいですね。
――ありがとうございます。
「検索からの自然な進化」
――徳生さんは、今回、どういった形でGoogleアシスタントに関わってこられたのでしょう。
徳生氏
私は普段から検索に関する全ての商品を、日本での展開については、より良くしていく、という立場ですので、Googleアシスタントについては結構深く関わってきましたね。
――そんな徳生さんから見て、Googleアシスタントの肝は何でしょうか?
徳生氏
もともと検索を手がけてきたこともありますが、Googleアシスタントは検索の延長だと思っています。ユーザーの意図を完全に理解して、きちんと結果を返すというときに、Webサイトの検索結果だけを見せるわけにはいきません。情報を探すだけではなく、電話をしたり、予約を入れたりするなど用事をかたづけたいという場面もあります。検索からの自然な進化、というのがGoogleアシスタントのひとつの領域かなと。
そんな機能を実現するには、検索だけではなく、マップ、YouTubeなどグーグルの全製品をうまく使いこなす必要があります。それだけでは足りなくて、他社さんのサービスとうまく組み合わせることになります。あらゆることをこなせる、“話しかけやすい入口”がGoogleアシスタントの価値だと思います。
日本語版の開発
――日本語版の提供にあたり、日本語文の意図を解釈する仕組み作りは、どういった形で進められたのでしょうか。ゼロから作り上げられたのですか?
徳生氏
検索ベースですから、ゼロからではありませんが、言語によってうまく動かないことはありますので、そういった対応はありました。また英語は、単語や文章の区切りがわかりやすいのですが、日本語は検索の時のように、単語と単語の間にスペースがあるのならともかく、自然言語への処理は、英語にはないチャレンジだと思います。
また主語がない場合、たとえば「きょうつかれた」という表現ですと、「(僕は)今日疲れた」なのか「(あの人が)今日着かれた」なのか。今はまだ解決できていませんが、いずれ解決できると思いますし、英語にはない挑戦ですね。
――自然言語の処理などもゼロから開発されたわけではない、と。
徳生氏
検索から使えるものもありますので、まったくゼロからというわけはないです。とはいえ、Googleアシスタントは検索に輪をかけて複雑ですので、壊れないように動かすとか、あるいは品質が良くなるための伸びしろを探すとか工夫する余地はありました。
グーグルのような企業が、言語ごとに開発するのは非効率ですから、そういう意味でもまったくのゼロから、というのは少なくなりますね。
検索サービスを提供してきた強み
――29日の会見では、検索と音声認識の実績を積み重ねてきたと仰ってましたね。検索というところを、もう少し教えてください。
徳生氏
「意図を理解する」ということにも通じると思うのですが、たとえば検索ですとユーザーは(高さという切り口ひとつでも)、「オバマ前大統領の身長」「東京タワーの高さ」といった検索をします。はたまた、家族が像に乗っている写真を検索するといったこともあります。場面が違っても、意図を理解するためには「検索」で培ったことが役立つと思います。
――個人の属性にあわせる、あるいはユーザーが利用する機器にあわせる、という点で、汲み取るべき意図が変わってくるのでは? と思ったのですが、識別する仕組みはあるのでしょうか。
徳生氏
1人でもいろんなことを検索するため、内容から識別するのは相当難しいでしょう。ただ、Google Homeでは声で家族を識別できる仕組みはあります。また、検索ではよく見ているページが上位に表示されるといった仕組みはあります。
ちなみに1日の検索ワード(クエリ)のうち15%は、それまで検索されたことがなかったものなので、そうしたワードにもきちんと結果を表示できるようチャレンジしてきています。
機械学習がもたらした性能
――発表会では「まだ第一歩、完成ではない」と仰っていたのは、そうした新規クエリへの対応、といった側面もあるのでしょうか。
徳生氏
はい、その通りです。音声入力になると、質問の仕方も若干変わるんです。検索ボックスだと「オバマ」「身長」でしたが、Googleアシスタントではもっと自然な文章になるでしょう。検索で培ったノウハウが100%通じるわけではないでしょうが、ユーザーがアシスタントにどういうことを質問してくるか、これからわかってきますから。
音声での実績は、ニューラルネットワーク、ディープラーニングといった機械学習が背景にあります。というのも、当社で機械学習がめざましい実績を上げたのは画像認識と、音声認識なんです。
かつて音声認識の認識率は、雑音の中では悪かったですね。でも人間って、パーティ会場でもうまく聞き取れますよね。人間ができることはなんとなく機械学習でうまくいくということもあるのですが、この1年~2年でうまくなったんです。クルマの中、電車の駅で使われると効いてくるんです。
Google Homeも、当社のスンダー・ピチャイCEOが「最初は8個のマイクをつけようと思っていたが、それでは人の声がどこから聞こえてくるかわからない。人間の耳は2つなのに聞き取っている。うまく機械学習を使えばだんだん認識できるようになってきた」という話をしていましたね。音声認識の精度が非常に上がってきたんです。
ハードの違い
――スマートフォンだけではなく、さまざまな機器でGoogleアシスタントを、という話もあります。でもスマートフォンだけでいいのでは? という見方もあると思うのですが。
徳生氏
まだ日本ではGoogle Homeは出ていませんが、たとえば自宅での使い方を考えてみましょう。自宅には家族など人が何人かいますよね。そして自分のスマートフォンがあるとはいえ、ずっと手元に持ち続けるわけではありません。リビングルームにGoogle Homeが置いてあれば、とりあえず話しかけるだけで操作できるわけですから、便利だろうと思います。
――リビングにAndroidタブレットを置いてGoogleアシスタントと使う場合と、Google Homeを使う場合で得られる体験はどう異なりますか? もちろんマイクやスピーカーなど異なるハードウェア構成になるため、そういった点が違う体験を提供することになるかもしれませんが……。
徳生氏
あらゆるものでGoogleアシスタントを動かせるようにしたいので、究極のゴールに至ったら、確かにハードウェアの違いが一番大きいかもしれません。とはいえハードウェアの違いは無視できません。音を拾うといった点だけでもGoogle Homeのほうが圧倒的に優れていると思います。
――おいくらくらいになるんでしょうね(笑)
広報担当者
米国だと129ドルですね(笑)。
まだ英語版のほうがいい品質
――今の段階で、Googleアシスタントの課題・弱点を挙げるとしたら何でしょう?
徳生氏
社内の公用語は英語ですし、やっぱり英語版のクオリティが高くなってしまうんですね。とはいえ、日本語だけを修正するエンジニアというか、日本で勤務していてもグローバル製品の仕事をしていますので、ローカライズ要員みたいなスタッフはいないので、うまくやっていきたいですね。
――ちなみに英語版のクオリティが高いというのは……。
徳生氏
想定質問と、それに対する結果という意味で、ですね。英語版のほうがより最適な結果が得られると。
日本語版だけではなくGoogleアシスタント全般というと、やることはたくさんあるのですが、そもそも新しい分野で、グーグル自身がサーチからアシスタントに踏みだそうとしているところですので、ユーザーにとってバリューを感じてもらうために、開発をどういう順番でやっていくか、ということになるでしょうか。
――使ってもらうため、という点では「本当に声を出して使ってもらえるのか」という質問は、29日の会見でも出ていましたね。
徳生氏
音声入力自体の利用は増えているんです。もちろんタイピング、文字入力を抜くとは思っていません。でも、クルマなど、Googleアシスタントを利用するとき必ず音声入力が必要な場面がありますから、音声入力機能の提供自体に迷いはないです。ちなみにGoogleアシスタントは、つい先のGoogle I/Oで文字入力に対応すると発表したばかりで、日本語版は最初から文字入力の利用に対応しています。
――なるほど。
徳生氏
そういえば、子供は本当に音声入力を使いますね。
――シニアもでしょうか。シニア層からは文字入力は音声が楽だと言う話もよく伺いますね。
どんなジャンルに期待?
――日本での利用は、今後提供される他国よりも利用されるようになると思いますか? 米国は別格としても……。
徳生氏
日本語版を出したばかりで正直わかりませんが、日本はもっともモバイル化が進んだ国ですので、何か(特徴が)出てくると思っています。
――そういう意味でActions on Googleにも期待されていると。
徳生氏
はい、非常に大事なところです。サードパーティのサービスがないと理想のアシスタントにはなりませんから。
――ジャンルとしてどういうところに期待していますか?
徳生氏
米国での70のパートナーが、どのカテゴリーが多いのか把握していないのですが、グーグルのサービスを振り返ると、日本で先んじたものとしてはモバイル全般、経路検索などですね……そうした物の中にニーズがあるかもしれませんが、まだわからないですね。シニアという観点は面白いかもしれませんね。高齢化先進国ですし。
――ちなみに、Googleアシスタント対応サービスを開発すると、それは自動的に外国語からも操作できるようになるのでしょうか。
徳生氏
それは開発サイドの手間のかけ方次第かもしれません。
――ということは、勝手に自動翻訳というわけではないんですね。
徳生氏
そういうニーズが大きければ対応するかもしれませんが、自動翻訳ですと完璧な訳にはなりませんので……。
他社の動きはどう見ている?
――AIなどを駆使したアシスタントサービスは他社からもあって、たとえば日本ではLINEが、日本に根差す企業だからこその強みがあるという説明をしています。グーグルとて検索で培われたノウハウがあれば、ひけを取らないという印象もあります。
徳生氏
ひけを取らないといいですね。盛り上がっているのはいいと思いますし、LINEさんはすごい会社だと思っています。僕も、一ユーザーとして楽しみにしています。
――スピーカー型のデバイスって本当に便利でしょうか。
徳生氏
あると便利ですよ。よくなったら、本当に便利になるでしょう。
――「よくなったら」というのがいつになるかわかりませんが……。
徳生氏
画像認識、音声認識の進化を見ていると、機械学習はまだまだ飽和したとは言えません。コンピューターも、デスクトップからスマートフォンへと大きく変化しました。半年という単位では、どれほど進化するかわかりませんが、数年というスパンで見るとものすごい面白いことが起きるのではないかと思っています。
――ありがとうございました。