インタビュー
進化系音声アシスタント「Hound」はSiriとどう違う?
SoundHound CEOにインタビュー
2016年6月13日 18:07
“鼻歌から曲を検索”する音楽検索アプリが話題となった米SoundHound(サウンドハウンド)。3月より、米国で音声アシスタントアプリ「Hound」(ハウンド)の提供を開始した。今までの音声アシスタントと比べて、より複雑な会話を認識できるというHound。現在米国で英語版のみが提供されているが、今後日本語版の提供も予定されている。
今回、来日したSoundHoundの社長兼CEO、Keyvan Mohajer氏に、インタビューをする機会を得たので、新サービス「Hound」についてお話を伺った。
高速で複雑な会話を理解、さまざまな要望に応える「Hound」
――日本では音楽検索アプリの「SoundHound」で知られているサウンドハウンドですが、今回そこにとどまらない、新しい事業を開始されたそうですね。新サービスについて、詳しく教えてください。
Mohajer氏
新サービスは音声認識技術「Hound」を利用したアシスタントサービスです。これを弊社では2つの形で提供しています。
1つは、米国でコンシューマー向けに提供している音声アシスタントアプリの「Hound」です。もう1つは、Houndの音声認識・アシスタント技術を家電や車載機器、アプリなどさまざまな製品の開発者が利用できるサービス「Houndify」(ハウンディファイ)です。APIとして提供しており、インターネットに接続できる機器ならばHoundの音声認識サービスを手軽に組み込めます。
――音声認識を利用したアシスタント技術は、競合他社も存在しますが、Houndの強みはどのような点にあるのでしょうか。
Mohajer氏
開発体制としてましては、全ての技術を自社で持つ点に強みがあります。これはこの業界でも非常に珍しいことで、Houndに匹敵する技術を持つ競合はすぐには登場しないでしょう。潜在的な競合と成り得るのは、おそらくアップルやグーグル、マイクロソフトといった企業です。
そして、技術面でもHoundは他社の技術に対して優位性を備えています。大きな差別化要因は、3つ存在します。
1つは、「スピーチ・トゥ・ミーニング」(Speech-to-Meaning)です。競合他社の技術は、人間が機械に話した言葉を一度テキスト化して、そのテキストを元に意味を解釈しています。この「スピーチ・トゥ・テキスト」のアプローチには、二重の処理を加えるために、認識にかかる時間や精度において不利になります。
我々は、この二重の処理をせず、一度のステップで行える唯一の企業です。そのため、話し終わった直後に応答することができます。話した言葉からそのまま意味解釈をする「スピーチ・トゥ・ミーニング」のアプローチは、人間の脳の動きに近いものです。他の人と目の前で話す時にわざわざテキストにしませんよね?
Mohajer氏
2つ目の強みは、複雑な会話を理解できることです。アップルのSiriやマイクロソフトのコルタナのようなアシスタント機能では、簡単な会話を理解するのが限界です。我々の技術では、ひとつの文章の中に条件がいくつも入った質問のような、複雑な会話も理解できます。
3つ目は、「ドメイン」――応答する内容の追加を柔軟に行えることです。
例えば、アップルのSiriが2011年に登場した当時、天気や株価などの12個のドメインに対応していました。当然、ドメインを増やせば利便性が上がるわけですから、アップルもSiriにドメインを追加していきます。しかしながら、5年経過した現在でも25ドメインにとどまっています。
一方で、当初50ドメインで開始したHoundでは、6カ月間に125ドメインまで増やしました。開発担当者が新たなドメインの内容を効率的に学習する体制が整っているのです。
では、デモンストレーションをお見せしましょう。
Mohajer氏
比較的簡単な例ですと、例えば「東京で午後4時半の時にサンフランシスコは何時ですか」といった質問でも答えられます。
実用的な質問ですと、例えばホテルを探したい時、明日サンフランシスコに行く、2泊で、予算は300ドル~500ドル、エクササイズしたいのでジムがあるホテルがいい、愛犬を連れて行きたいのでペット可のホテルを、と複数の条件から絞り込みます。
今までは、ホテル予約サイトでひとつずつ条件を指定しているでしょうが、これをまとめてHoundアプリに「サンフランシスコで明日から2泊、予算300~500ドルでジム付き、ペット受け入れ可のホテルを探したい」と話しかければ、ほら、表示されます。これを絞り込むこともできます。
また、「除外」する検索もできます。「レストランを探したいけど中華料理はイヤ」といった場合にSiriで「中華料理“以外の”レストランを探したい」と話しても、中華料理のレストランが表示されてしまいますが、Houndでは、ちゃんと除外して表示します。
さらにHoundで、「アジア系のレストランで中華料理と日本食以外」と検索した後、「水曜日の夜9時以降に開いている星4つ以上のレストランに絞り込んで」といったように、絞り込み検索もできます。
ここまで、手を使った操作をしていないことにお気づきでしょうか。「OK,Hound」の音声コマンドで起動して、あとはそのまま音声で完結します。
実は、Houndから質問を返す場合もあります。例えば住宅ローンを探したい場合。「住宅ローンを探したい」とHoundに言うと「頭金は何%にしますか」「返済期間は」「利息は」といったように内容を確認します。もちろん「頭金20%で35年ローン、利率は3.9%で住宅ローンを探したい」とまとめて話しかけても同じ結果を表示します。
――Houndは現状米国でのみ提供されていて、対応言語も英語のみとなっていますが、日本語への対応は予定されていますか。
Mohajer氏
2年以内に主要な16言語に対応する予定です。その中には日本語も含まれています。優先度が高い言語から順次カバーしていく予定です。
――では、我々日本人から積極的に要望を上げていけばもう少し早く対応していただけますか。
Mohajer氏
イエス(笑)。
「人とコンピューターが会話する世界」のヒントはSFに
――サウンドハウンドと言うと、日本では流れている音楽を識別するアプリで知られていますが、今回なぜ音声アシスタントサービスを提供されたのでしょうか。
Mohajer氏
サウンドハウンドはもともと「人とコンピューターとの間で、会話ベースのコミュニケーションを実現する」というビジョンを掲げ、10年ほど前に設立した会社です。
これは、会社設立前、私がスタンフォード大学の博士課程に在籍していたころから一貫して取り組んできた課題です。その時点から、人間とコンピューターとのやり取りにおいて、将来的に対話インターフェイスの台頭という大きな変革がもたらされると確信していました。
そういった将来において大きな役割を果たすために、サウンドハウンドを設立して当初から音声認識、自然言語処理、AI、サーチといった分野の技術に取り組んできました。9年間の秘密裏での技術開発を経て、今回満を持してリリースしたのが「Hound」です。
――10年前といえば、スマートフォンが普及する以前ですが、当時はどういったデバイスでHoundを利用することを想定していたのでしょうか。
Mohajer氏
良い質問ですね。仰る通り、10年前に「人がモノに対して話しかけて、モノが応答する」というビジョンを伝えようとしても、多くの人はピンと来ませんでした。当時は今と違って、スマートフォンもスマートな家電製品もありませんでしたから。
そういったときに未来をイメージするのに役立ったのが、「スター・ウォーズ」や「スター・トレック」といったSF作品でした。こういった世界が将来には現実のものになるのだと想像しながら取り組みました。
――音声アシスタントの「Hound」と音楽識別アプリ「SoundHound」は、見え方が大きく違うように思えますが、なぜ「SoundHound」を提供されるのでしょう。
Mohajer氏
最終的にはすべての「サウンド」を理解するのが目的でしたが、これには何年かかるかわかりませんでした。ベンチャー企業が何年間もかけてR&Dだけを行うというのは非現実的なことでした。
その点で幸運だったのは、本命の製品を開発する過程で、カフェで流れている音楽や鼻歌からその曲の情報を検索できるアプリ「SoundHound」(midomi)を開発できたことです。「SoundHound」アプリは、現在3億ダウンロードを達成してます。
見え方は違いますが、「SoundHound」と「Hound」、「Houndify」の3つのサービスは、バックエンドで多くの共通する技術を利用しており、相乗効果で精度を高めていくシステムになっています。
家電や自動車も話しだす“Houndify”化
――Houndの市場予測として、オンライン検索がもっとも多く、次いでフライト検索や旅行検索などで多く利用されると予測されていますが、当初はこういった分野をターゲットとして取り組まれるのでしょうか。
Mohajer氏
現時点では、アプリやゲーム、旅行検索といった利用がもっとも需要が多いと思っていますが、将来的にはどのような領域でも利用される技術だと考えています。我々は“Houndify everywhere”と掲げていますが、家電や自動車など、音声アシスタント技術が進出できる領域はアプリにはとどまりません。
Houndifyはクラウドサーバーを利用できるサービスとしてAPIを公開していますので、Houndifyの技術を利用してたくさんのメーカーやアプリベンダーが新製品の開発を行っています。自動車分野ではNVIDIAと提携し、通信環境に応じてローカルでの処理にも対応可能なハイブリッド型のHoundifyも提供しています。
――日本のモバイル業界では「Bluetoothの通話用ヘッドセットが普及しない」と話題があがるように、日本人は機械に話しかけるのに抵抗感がある人が多いように思えます。そういった日本人の特性は、Houndにとって障壁にならないでしょうか。
Mohajer氏
米国では、ちゃんとした声でフィードバックが戻ってくることで、音声アシスタントの利用率が上がるという好循環を確認しました。機械に話しかけてトンチンカンな回答が返ってくると恥ずかしいですが、そういった部分が解消されれば、普及の時期に差はあれ、世界中で使われるようになっていくのではないでしょうか。
――日本市場は「Pepper」や「RoBoHoN」といった世界的にも変わった製品が出てくる市場ですが、将来的にHoundの技術はそういったロボットなどとも融合していくのでしょうか。
Mohajer氏
私もロボットは好きです(笑)。米国でもロボットは注目されていますが、Houndはロボットとも相性が良い技術です。単にロボットがたたずんでいても、話せなければ意味がありません。“Houndify”化すれば、人とコミュニケーションするためのさまざまな機能を搭載できると考えています。
――本日はお忙しい中、どうもありがとうございました。