ニュース

「ピカチュウトーク」のデモも披露、Google アシスタントで利用できるサードパーティのサービスが拡充中

太田亮三

2017年11月9日 17:44

　Googleは、スマートフォンやスマートスピーカー向けに提供している、音声でさまざまなサービスを提供する機能「Google アシスタント」について、サードパーティがサービスを開発できる「Actions on Google」の取り組みを中心に解説する説明会を開始した。Actions on Googleの取り組みの中でも注目を集めている「ピカチュウトーク」については、ポケモンの担当者も登壇、開発の背景や、どんな受け答えをするのかデモンストレーションも披露された。

左からポケモンの新藤氏、グーグルの徳生氏、ポケモンの小川氏

　ニュースや天気といった情報を聞く、タスクを手伝うといった「Google アシスタント」で利用できる機能・サービスは、Googleが開発して提供しているもののほかに、サードパーティが自社サービスをGoogle アシスタント上で利用できるよう開発できる「Actions on Google」の仕組みが用意されている。

　この仕組は、日本語の環境では10月24日から利用できるようになっているとのことで、11月9日の説明会では、スマートスピーカーの「Google Home」を使って、クイズ「日本史語呂合わせ」を利用する様子が披露された。またここでは、スマートフォンで利用する場合には、画面に回答の候補を表示するといった、デバイスにより表示内容を変えて開発できる様子も紹介された。

グーグル製品開発本部長徳生裕人氏

スマートフォンの画面ではクイズの回答の候補を表示するといった、デバイスの使い分けも可能

　なお、「Actions on Google」の取り組みで提供されるサードパーティ製のサービスを含めて、Google アシスタントで利用できる機能・サービスの全容などは、近いうちに、分かりやすい場所に掲載する予定としている。

　本誌の10月5日の「Google Home」発表時のニュース記事で掲載している内容以外では、「ピカチュウトーク」のほか、「イカステージ」「一分カウントダウン」「おうむ返しくん」「じゃんけんゲーム」「外為どっとコム」「絶対音感オーケストラ」「ピザピザピザ」（Google社内で開発）「MALLOW hair and spa」「ロボトリビア」などが明らかになっている。

「Actions on Google」で提供されるサードパーティのサービス（一部）

「ピカ」しか言わなくても伝わる!? 「ピカチュウトーク」のデモ

　ポケモン社からは新藤貴行氏と、小川慧氏が登壇、「ピカチュウトーク」の開発背景などが語られた。なお本誌では11月1日に「ピカチュウトーク」に関するニュース記事を掲載、両氏のコメントもお届けしている。

　この日のデモでは、「Google Home」を使い、実際に「ピカチュウトーク」で会話する様子を披露。「今日、誕生日なんだけど」と言うと、ピカチュウが「ピッカピッカ～ピーカ～（ハッピバースデートゥーユー）」と歌い出すなど、「ピカ」ですべてを表現してしまう、あの愛らしい様子を垣間見ることができた。

　なお、詳細な数字は非公表としているものの、ピカチュウの受け答えのバリエーションは100種類以上、ピカチュウが反応する呼びかけの種類は数百種類としている。これらはアップデートで追加される見込み。

「ピカチュウトーク」のデモ。10万ボルトやバースデーソングなど

ポケモンの新藤貴行氏（左）と小川慧氏（右）

初期段階でGoolgeに提出した企画書の1枚

おうちにピカチュウがやってくる

説明会の会場にもピカチュウが！

音声合成にも独自の強み

　グーグル製品開発本部長徳生裕人氏からは、技術的な解説として、Google アシスタントで実現されている、音声合成の仕組みについても触れられた。音声合成の仕組みは、比較的古くから使われてきた方式（concatenative TTS）がすでにあったものの、開発時のサンプル用音声の収録が膨大なことや、発音に不自然さが残るなど、限界があったという。一部を数値化して計算することで開発時の負担を減らす方式（parametric TTS）も登場するが、こちらも計算で出されることから柔軟性や自然さに欠けるといった欠点があった。

　そこでGoogleとDeepMindなどが協力して開発した新たな方式が「WaveNet」だ。これは、どんな言葉を入力しても、“なんとなく自然に聞こえる”よう出力するニューラルネットワークを構築し、それを利用して音声合成を行うもの。ただし、開発当初は大量の計算と時間が必要で、たとえば「はじめまして」という言葉を合成するだけでも50秒程度かかったという。しかし、開発が進むことで、これを0.05秒にまで短縮、毎回ニューラルネットワークを用いて音声を生成することも実用の範囲になった。

　徳生氏によると、現在「WaveNet」が適用されているのは英語と日本語のみ。この2つの言語では、自然に聞こえるかどうかのスコアも以前より向上していることが紹介された。徳生氏は「録音しないで、これだけの音声を出せる。なかなかよくできたのではないか」と自信を語っていた。