グーグル、Android端末とiPhoneで利用できる音声検索サービス


 グーグルは、音声認識技術を使った無料検索サービス「Google音声検索」の提供を開始した。Android端末(HT-03Aなど)やiPhoneで利用できる。

 「Google音声検索」は、携帯電話のマイクと通信機能を利用し、携帯電話に探したい内容を話しかけると画面上に検索結果が表示されるというもの。英語版(米英)、中国語版に続く3カ国語目として提供されることになった。対応機種では専用アプリを利用する形となり、画面上部に表示されるマイクのアイコンを押すと、音声認識を受け付ける状態となり、話しかけると、音声全てがサーバーへ送信される。サーバー上では、音声認識エンジンが処理を行い、テキストに変換して検索を行う。Android端末向けにはAndroidマーケットで専用アプリ、iPhone向けには「Google Mobile App」で同サービスが利用できる。なお、iPhone版は「音声検索は英語での利用になる」と表示されるが、この表記は近日修正される予定という。

マイクのアイコンを押して音声入力音声認識はサーバーで処理
“カタカナ英語”で音声入力すると、正しいスペルに変換

 キーワードによるWeb検索のほか、「市ヶ谷から渋谷」「渋谷のラーメン屋」「宇宙から見た日本の写真」「YouTube 猫」といった言葉で検索すると、経路検索、ローカル検索(店舗情報検索)、画像検索、動画(YouTube)検索ができるようになっている。検索時には、携帯電話のGPS機能を利用し、ユーザーの現在地付近の情報を上位に出す。たとえば渋谷付近で「ラーメン屋」とだけ入力すると、渋谷駅付近の該当店舗が表示される。

 また「けーたいうぉっち」と音声入力すると、認識により「ケータイwatch」になるなど、アルファベットにすべき語彙はサーバー側で変換してくれる。「英和」「ですてぃねーしょん」と入力すれば「destination」という英単語の表記になるとともに、検索結果で単語の意味も表示され、簡易辞書として使うこともできる。

 雑音や騒音から声を拾い出したり、音を的確な言葉へ変換したりする作業は、全てサーバー上で行われ、携帯電話上では特に音声認識に関する処理は行われないという。

「イタリアン」とだけ検索すると、現在地近くの店舗を検索結果として表示画像検索もできる

 

仕組み、コンセプトについて

 同社では7日、都内で記者会見を開催。同社モバイル担当プロダクトマネージャーの井上陸氏からコンセプトなどが紹介された。

グーグルの井上氏

 これまでも携帯電話やパソコンなどで利用できる音声認識技術は、数多く存在している。今回「Google音声検索」の音声認識エンジンは、グーグル側が独自に開発したもの。携帯電話向けの音声認識では、処理速度を向上させるため、端末側で声の特徴点だけ抽出してサーバーへ送信する、といった仕組みを採用するものもあるが、今回は音声を全てサーバーへアップロードしている。

 これは、音声認識エンジンが今後進化することを見据えた対応という。端末側に依存する形であれば、認識エンジンの技術が進化しても、端末側に手を加えることは難しい。全てサーバーで処理できれば、技術が進化するたび、ユーザーが体験できるサービスへすぐ反映されるというわけだ。

 ただ、音声全てを送信すると、検索結果の表示までに時間がかかる可能性がある。そこで「Google音声検索」では音声全て、検索結果の全てを一気に送受信するのではなく、どちらも徐々に送受信してタイムラグをできるだけ埋めているという。
 音声認識では、精度も大きな課題の1つ。この点への対策として、Google音声検索では、多くの人の声を得てサンプリング数を増やすといった手段で、個人差や年齢差、性別差、地域差に対応する。

精度と処理速度、検索結果が特徴

 また、「音声検索」であることから、「検索に用いられる言葉が入力される」と想定できるため、“認識すべき言葉”の範囲を狭めて確率を向上させている。範囲を狭くしすぎると「六本木」「うどん」など、単語で話しかけなければならなかったり、「えー」「んー」など喋っている途中の声も認識されてしまう。認識エンジン側では「どういう確率で、どういうキーワードが入力されるか」といった考え方に基づいて処理を行う。その結果、「六本木のおいしい焼き鳥」と自然な文章でも認識できるようになった。また12月3日に公開されたパソコン向け日本語変換ソフト「Google日本語変換」の技術も用いられ、入力された音声とより正しい言葉へ変換できるようにしている。

 井上氏は、実機でのデモを行いながら説明し、「パソコンでもモバイルでも、これまでになかったサービスを提供できるようになった。Googleでは、携帯電話とクラウド(ネットワーク経由で接続できる数多くのサーバー)を繋ぐことで、革新的なサービスを提供できると考えている。携帯電話に搭載されるカメラやGPSなどとクラウドを繋ぐことで、今後どうなるのか。引き続きサービス開発を行う」などと説明していた。

 



(関口 聖)

2009/12/7 16:15