|
気になる携帯関連技術
|
|
UIに新たな可能性をもたらす音声認識
|
|
|
NTTドコモの「らくらくホン プレミアム」「らくらくホンV」などの音声認識技術を手がけるアドバンスト・メディア。最近では、声の似ている有名人を判定する「声ちぇき!」や、iPhone向けの音声認識アプリなども開発している。ユーザーインターフェイス(UI)の重要性が高まる中、同社の音声認識技術はケータイにどのような“進化”をもたらすのか。同社のモバイルプロジェクトを束ねる枝連俊弘氏に、音声認識技術の可能性を聞いた。
|
アドバンスト・メディア ソリューション事業部 技術グループ モバイルプロジェクトチーム チームリーダー 枝連俊弘氏
|
――音声認識技術の会社ということで、一般ユーザーのあまりなじみがないかもしれません。ということで、まずは、会社のプロフィールを教えてください。
会社は97年に設立された独立系のベンチャーで、今期で12期目になります。2005年には上場もいたしました。業務内容は主に音声認識で、設立当初から専業でやっています。この音声認識と、しゃべった人が誰であるかを確認する声紋認証と2本立てでやってきましたが、売上の大体9割5分ぐらいは前者ですね。
――音声認識に取り組んでいる会社はほかにもありますが、ライバルとの違いはどこにあるのでしょうか。
まず、精度には自信があります。私たちは音声認識専門でやっているので、きちんとしたものを出さないと、どうにも後がなくなってしまいます。どうしても音声認識は客寄せパンダ的に使われてしまいがちで、カーナビなどの中には「性能は二の次で載せとけばOK」というものもあります。ですが、私たちは“使えないものは出さない”ということを、一番大事だと捉えています。
――では、御社の技術の特徴を教えてください。
事前の学習なしで音声認識が可能なエンジンを、世界で始めて開発しました。その技術要素をベースにこれまでやってきています。携帯電話で力を入れているのが、分散型音声認識で、これは、端末側で音声に必要なデータだけを取り出し、圧縮してサーバー側に送って文字にする仕組みになります。音声認識はどうしてもCPUのパワーが必要な技術です。携帯だとまだまだものによっては辛いことがありますが、通信機能が付いているため、クライアントとサーバーに分散できます。例えば、全国の住所を音声入力するだけでも、単語数が10万を超えてしまいます。これをスタンドアロンで動かすのは、なかなか難しいことなんです。
――御社は業務用のシステムやソリューションからケータイまで、幅広く手がけられていますケータイと関わり始めたのは、いつ頃のことでしょうか。
M1000や702NKといった、オープンプラットフォームの端末が出始めたころから積極的に携帯電話に進出していきました。iアプリだと(当時は)そもそも音声も取り込めませんでしたからね。それだとうちとしてはお手上げです。Symbianのオープンプラットフォーム端末が出て、音を取れるようになったので、まずはそこからという形で始めました。その後は、富士通さんの「らくらくホン プレミアム」や「らくらくホンV」にも、弊社の音声認識が採用されました。
――ケータイの場合、全て端末とサーバーで分散して処理をしているのでしょうか。
富士通さんの「らくらくホン プレミアム」「らくらくホンV」などに提供しているものは「音声入力メール」はクライアント/サーバー型ですが、同じ富士通さんの端末にプリインストールされた「脳力ストレッチング」というゲームアプリは、クライアント側だけで処理しています。また、スタンドアロンで文章認識を行うような技術にも取り組んでいます。
――クライアント/サーバー型に向いているもの、スタンドアロンに向いているものの具体例を教えてください。
地図や駅の検索はサーバーでやればいいですし、最近流行の行動支援サービスのように、サーバーに個人の情報が蓄積されるものも、サーバーで音声認識をしたほうが上手くいくのではないでしょうか。基本的に、データベースがサーバーにあるかどうかが、切り分けのポイントになると思います。
――らくらくホンの「音声入力メール」は、認識率が高いですよね。
メールに関しては、モニターを集めてテストしたところ、90%以上の認識率を出せました。ただ、音声認識は一概には比べることができません。こういう条件で、こうやれば90%以上ですが、別の条件だと60%ということもありえます。
――では、なぜそこまで認識率が高いのかを教えてください。
音情報だけだと、文字に変換するのが、非常に難しいんです。それは、人間も同じです。外国語でしゃべりかけられて、「同じようにしゃべってごらん」と言われても、できないですよね? 頭の中に単語情報や文法情報がないと、聞き取れないんです。音声認識もそれと一緒で、言語的な情報と辞書情報を持つ必要があります。メールの場合、メールでよく使う単語をしっかり辞書として用意していますし、この単語の次はこの単語が使われやすいという出現頻度の情報も組み立てて、データベースにしています。ですから、日本語になっていない意味不明なことをしゃべられると、認識が難しくなってしまうんですよ。
――メール用語には既存の辞書などは存在しないと思いますが、データベースはどのように作ったのでしょうか。
ポイントサイトにお願いしたり、購入したりと、ひたすらメールの文章を集め、それを元にデータベースを作りました。ある意味では、ケータイメールの専門用語で固めた辞書とも言えます。逆に、「拝啓~」のようなものは、上手く認識しないんです。
――ちなみに、絵文字はどうしているのでしょうか。
今回、ドコモさんと初めて一緒に仕事をしましたが、絵文字って重要なんですね。その時、初めて知りました(笑)。ドコモさんの絵文字の一覧に、1つずつどう読んでいくか、読み仮名を振っていきました。例えば「今日ビールを飲みませんか」と発話すると、カタカナのビールが先に出て、次の候補が絵文字のビールになるようにしました。「今日は帰れそうにありません、顔文字」というと、文末に顔文字の一覧が出てきたりもします。
――かつてのパソコン向け音声認識ソフトなどでは、使い始める際に自分の声を学習させる必要がありました。御社のものでは、なぜ登録なしに人の声を認識するのでしょうか?
音響のデータベースがキーになりますが、これを万人向けにしっかりと作り上げたところがポイントです。個人ごとに完璧にチューニングできれば、それが一番なのは確かですが、現実的には難しいですよね。そこが私たちの出発点になっていて、最上級からなるべく落とさなくても済むデータベースにしていきました。
――ちなみに、日本語以外もデータベース次第で実用化できるのでしょうか?
はい、その通りです。タイ語などにも対応していて、実際にコールセンターで使ってもらっています。あとは、“日本人がしゃべる英語”を認識するものを商品化しました。これまでの音声認識型の英会話学習ソフトは、ネイティブの発音を使っていました。ですが、それだと日本人の中学生が発音した英語を、全く認識しないんです(笑)。そこで、弊社のソフトは、「L」と「R」を間違えたり、「TH」を発音できなかったり、母音を強調して発音するといったところは大目に見るようにしています。もちろん、そこが正確に発音できていないということは、ちゃんと指摘しますけどね。
|
|
あのセリフで印籠が現れるiPhone向けアプリ「印籠」
|
声で遊べる「声ちぇき!」
|
――一方で、御社は音声認識コンテンツも充実しています。一般のケータイ向けに提供している「声ちぇき!」などを始められました。iPhone向けには、「SPOON」や「印籠」などのユーモラスなソフトも出していますね。
私たちは、やはりまだまだ音声認識は、世の中に認知されていないと思っています。もしくは、使えないというレッテルを貼られたままの状態です。そこで、まずは「使える」と思ってもらいたいので、コンテンツやアプリを始めました。英会話学習コンテンツは音声認識を使わないと絶対に不可能ですし、ほかのアプリは音声認識を使う楽しさがあります。
言い方は悪いかもしれませんが、完全に実用的なアプリにすると、ものすごく作り込みが大変になってしまいます。「これで作業が50%軽減できます」となった瞬間に、当然ユーザーの期待も大きくなります。認識率が90%でも、10%間違えば「使えない」となってしまいますからね。ただ、「印籠」に関しても、「この紋所が目に入らぬか」としっかり言わないと認識しませんし、誰がしゃべっても大丈夫なようにしています。それは、ちゃんとした音声認識エンジンを使っているからこそです。
|
認識率が非常に高いiPhone用の音声入力アプリ(開発中)
|
――では、その先に実用アプリがあるということですね。
実は、iPhone用の音声認識メールアプリを、なんとか今年度中に出したいと考えています。ユーザーからお金をいただくのがいいのか、無料で配信して認知してもらった方がいいのか、価格設定はまだ悩んでいます。日本のiPhone市場を考えるとなかなか難しくて……。
――実際に使ってみると、こちらのアプリも認識精度の高さに驚かされますね。英語圏まで広げれば市場も大きくなると思いますが、いかがでしょうか。
まだそこまでは考えていませんが、おっしゃる通り、「英語版にして世界に出したら」という意見もあります。手が大きいアメリカ人が、ちゃんとiPhoneでメールを打てるとは思えないですし(笑)。個人的には、BlackBerryでも厳しいんじゃないかなと思うぐらいです。中には電車内だと音声で入力するわけがないと一蹴する人もいますが、アメリカや日本の地方などの車社会においては、音声入力が非常に便利です。アメリカだと口述筆記も一般的なので、受け入れられるかなという気がします。
――口述筆記を、ほかのアプリケーションに広げていくことは考えていますか。
iPhoneだと、住所の検索などは便利だと思います。乗換検索なナビゲーションアプリをだされている会社に、使ってもらえないか提案することも考えています。iPhoneに限らず、住所の入力は至難の業ですからね。
ほかによく使いたいと言われるのが、留守番電話をテキスト化してメールにするようなサービスです。ただ、メールの入力以上に話す内容が私的で、話す方もテキストに起こすことを想定していません。文字化は基本のデータベースがないと難しいんです。本当にフリーディスカッションは非常にハードルが高くて、まだそこまではたどり着けていません。語尾が曖昧でどちらか分からなくても、「まさかこの人がこの状況でイエスというわけがない」といった判断が入っているんです。
――では、最後に、今後の目標や読者へのメッセージをお願いします。
トータルのUIとして音声認識が組み込まれれば、もっと使ってもらえるのではないかと思います。今の携帯電話は、どこにどんな機能があるのかが分かりづらくなっているので、「○○をしたい」と話しかけると、その答えが出るような機能があってもいいと思います。最初から最後まで全部音声入力の機種があってもいいのではないでしょうか。UIの選択肢の1つとして、10%ぐらいの人たちに使ってもらえれば嬉しいですね。
もちろん音声認識が万能だとは思いません。ことケータイに関しては、キーの入力が皆さんものすごく上手い(笑)。ですから、先ほど申し上げたように、文章で入力した上で答えを出したり、入力したものを翻訳してあげたりと、音声を認識したあとのプラスαを打ち出していくのが重要だと思います。ユーザーの皆さんも、ネガティブなイメージをいったん忘れて、ぜひ使ってみてください。
■ URL
アドバンスト・メディア
http://www.advanced-media.co.jp/
■ 関連記事
・ 声がどの有名人と似ているかを判定する「声ちぇき!」
・ ドコモ、健康管理機能をサポートした「らくらくホンV」
・ ドコモ、多機能志向の「らくらくホン プレミアム」
(石野純也)
2009/01/16 12:28
|
ケータイWatch編集部 k-tai@impress.co.jp
Copyright (c) 2009 Impress Watch Corporation, an Impress Group company. All rights reserved.
|
|
|
|
|
|