気になる携帯関連技術　 UIに新たな可能性をもたらす音声認識

インタビューバックナンバー

■	「SH-06A NERV」企画者インタビュー “初号機”に込められたこだわりを聞く［2009/06/23］

■	「P-08A」開発者インタビュー “P”らしく進化させたスライドケータイ［2009/06/23］

■	「P-09A」開発者インタビュー基本機能が充実、ハイエンド志向の薄型ケータイ［2009/06/19］

■	シャープにソフトバンク向け夏モデルを聞く新規デバイス搭載で個性的なラインナップを実現［2009/06/18］

■	「N-08A」「N-09A」開発者インタビュー携帯デザインをエモーショナルに、μシリーズの進化の形［2009/06/17］

■	「P-10A」開発者インタビュー “防水Wオープン”の難しさと開発の狙い［2009/06/12］

■	「K002」開発者インタビュー 10.9mmに実用性とデザイン性を備えた大人の携帯［2009/06/03］

■	「T-01A」開発者インタビュー「Snapdragon」を搭載した東芝製スマートフォンの魅力［2009/05/27］

■	「N-06A」開発者インタビュー無線LANでケータイの使い方を変えるNEC ［2009/05/22］

■	「832P」開発者インタビューデザイン・機能のバランスを追求、頼りになる薄型ケータイ［2009/05/22］

■	「P-07A」開発者インタビュー “トリニティ”になったWオープンの進化を聞く［2009/05/22］

■	「S001」開発者インタビューケータイらしさを取り込んだ新Cyber-shotケータイ［2009/04/09］

■	「モバイルウィジェット」企画者インタビューオープンと待受常駐を武器にウィジェット市場を切り開く［2009/04/01］

■	「WX340K」「BAUM」開発者インタビュー PHSシングルユーザーを満足させる2モデル［2009/03/17］

■	「930P」開発者インタビューゲームやネットとの親和性を追求したWオープンケータイ［2009/03/11］

■	「P001」開発者インタビューパナソニック初のKCP+ケータイ、開発背景や新液晶の特徴を聞く［2009/03/05］

■	「NSシリーズ」開発者インタビュー auが未来に継承したいと考える新しいチャレンジ［2009/03/03］

■	「K001」開発者インタビュー子供が持ちたくなるようなケータイを目指す［2009/03/02］

■	「830N」開発者インタビュー若者の直感に訴えかけるNEC的スライド端末［2009/02/27］

■	「SH001」開発者インタビュー 8メガCCDを搭載したスタイリッシュな高感度カメラケータイ［2009/02/23］

■	「930CA」開発者インタビューすぐに撮れることにこだわった高速起動とスライドデザイン［2009/02/19］

■	「Walkman Phone, Premier³」開発者インタビュー “ケータイで音楽”をさらに広げる普遍的なWalkman Phone ［2009/02/18］

■	「831SH」「932SH」開発者インタビューダブルワンセグのAQUOSケータイとワンランク上のスタンダードモデル［2009/02/16］

■	「CA001」開発者インタビュータッチパネルを搭載したカシオのスタンダード端末［2009/02/12］

■	「H001」開発者インタビュー 3D液晶搭載の4代目Woooケータイの狙い［2009/02/06］

■	「F-01A」「F-03A」開発者インタビュー「ヒトに合わせる」を考えチャレンジを続けるFシリーズ［2009/02/06］

■	「SH-04A」開発者インタビュータッチとフルキーで携帯の新しい流れを提案［2009/02/05］

■	「P-04A/P-05A」開発者インタビュー薄さ9.8mmにこだわりながらGSMに対応［2009/02/03］

■	「N-04A」開発者インタビュー amadanaとのコラボで生まれたNEC初のスライド端末［2009/01/28］

■	「P-02A」開発者インタビュー “D”の遺伝子を受け継ぐ「継承と進化」のスライドケータイ［2009/01/27］

■	ケータイユーザーの“本音” 教師側から見たケータイ文化［2009/04/17］

■	ケータイユーザーの“本音” 女子高生に聞いた10代後半のケータイ事情［2009/03/04］

■	気になる携帯関連イベント “ケータイソムリエ”を養成する「モバイル実務検定」［2009/01/22］

■	キーパーソンインタビュー Huawei担当者が語るデータ通信端末戦略［2009/04/23］

■	キーパーソンインタビュー UQ WiMAXに聞く、WiMAXがもたらすインパクト［2009/02/26］

■	キーパーソンインタビューマイクロソフト越川氏に「Windows Phone」戦略を聞く［2009/02/25］

■	キーパーソンインタビューオープンOSとフルタッチの台頭――ドコモ辻村氏が語る今後のケータイ［2009/02/19］

■	キーパーソンインタビューイー・モバイル阿部副社長が語る2009年の目標［2009/01/13］

■	気になる携帯関連技術技術とコンテンツの融合を目指すプライムワークス［2009/02/13］

■	気になる携帯関連技術 UIに新たな可能性をもたらす音声認識［2009/01/16］

■	【キーパーソン・インタビュー】請負から提案へ、東芝の目指すモバイルインターネットの世界［2009/06/09］

■	【キーパーソン・インタビュー】 KDDI高橋誠氏に聞く、夏モデルから始まるauの反転攻勢［2009/05/27］

■

2008年

■

2007年

■

2006年

■

2005年

■

2004年

■

2003年

■

2002年

気になる携帯関連技術

UIに新たな可能性をもたらす音声認識

　NTTドコモの「らくらくホンプレミアム」「らくらくホンV」などの音声認識技術を手がけるアドバンスト・メディア。最近では、声の似ている有名人を判定する「声ちぇき！」や、iPhone向けの音声認識アプリなども開発している。ユーザーインターフェイス（UI）の重要性が高まる中、同社の音声認識技術はケータイにどのような“進化”をもたらすのか。同社のモバイルプロジェクトを束ねる枝連俊弘氏に、音声認識技術の可能性を聞いた。

枝連俊弘氏

アドバンスト・メディアソリューション事業部技術グループモバイルプロジェクトチームチームリーダー枝連俊弘氏

――音声認識技術の会社ということで、一般ユーザーのあまりなじみがないかもしれません。ということで、まずは、会社のプロフィールを教えてください。

　会社は97年に設立された独立系のベンチャーで、今期で12期目になります。2005年には上場もいたしました。業務内容は主に音声認識で、設立当初から専業でやっています。この音声認識と、しゃべった人が誰であるかを確認する声紋認証と2本立てでやってきましたが、売上の大体9割5分ぐらいは前者ですね。

――音声認識に取り組んでいる会社はほかにもありますが、ライバルとの違いはどこにあるのでしょうか。

　まず、精度には自信があります。私たちは音声認識専門でやっているので、きちんとしたものを出さないと、どうにも後がなくなってしまいます。どうしても音声認識は客寄せパンダ的に使われてしまいがちで、カーナビなどの中には「性能は二の次で載せとけばOK」というものもあります。ですが、私たちは“使えないものは出さない”ということを、一番大事だと捉えています。

――では、御社の技術の特徴を教えてください。

　事前の学習なしで音声認識が可能なエンジンを、世界で始めて開発しました。その技術要素をベースにこれまでやってきています。携帯電話で力を入れているのが、分散型音声認識で、これは、端末側で音声に必要なデータだけを取り出し、圧縮してサーバー側に送って文字にする仕組みになります。音声認識はどうしてもCPUのパワーが必要な技術です。携帯だとまだまだものによっては辛いことがありますが、通信機能が付いているため、クライアントとサーバーに分散できます。例えば、全国の住所を音声入力するだけでも、単語数が10万を超えてしまいます。これをスタンドアロンで動かすのは、なかなか難しいことなんです。

――御社は業務用のシステムやソリューションからケータイまで、幅広く手がけられていますケータイと関わり始めたのは、いつ頃のことでしょうか。

　M1000や702NKといった、オープンプラットフォームの端末が出始めたころから積極的に携帯電話に進出していきました。iアプリだと（当時は）そもそも音声も取り込めませんでしたからね。それだとうちとしてはお手上げです。Symbianのオープンプラットフォーム端末が出て、音を取れるようになったので、まずはそこからという形で始めました。その後は、富士通さんの「らくらくホンプレミアム」や「らくらくホンV」にも、弊社の音声認識が採用されました。

――ケータイの場合、全て端末とサーバーで分散して処理をしているのでしょうか。

　富士通さんの「らくらくホンプレミアム」「らくらくホンV」などに提供しているものは「音声入力メール」はクライアント/サーバー型ですが、同じ富士通さんの端末にプリインストールされた「脳力ストレッチング」というゲームアプリは、クライアント側だけで処理しています。また、スタンドアロンで文章認識を行うような技術にも取り組んでいます。

――クライアント/サーバー型に向いているもの、スタンドアロンに向いているものの具体例を教えてください。

　地図や駅の検索はサーバーでやればいいですし、最近流行の行動支援サービスのように、サーバーに個人の情報が蓄積されるものも、サーバーで音声認識をしたほうが上手くいくのではないでしょうか。基本的に、データベースがサーバーにあるかどうかが、切り分けのポイントになると思います。

――らくらくホンの「音声入力メール」は、認識率が高いですよね。

　メールに関しては、モニターを集めてテストしたところ、90％以上の認識率を出せました。ただ、音声認識は一概には比べることができません。こういう条件で、こうやれば90％以上ですが、別の条件だと60％ということもありえます。

――では、なぜそこまで認識率が高いのかを教えてください。

　音情報だけだと、文字に変換するのが、非常に難しいんです。それは、人間も同じです。外国語でしゃべりかけられて、「同じようにしゃべってごらん」と言われても、できないですよね？　頭の中に単語情報や文法情報がないと、聞き取れないんです。音声認識もそれと一緒で、言語的な情報と辞書情報を持つ必要があります。メールの場合、メールでよく使う単語をしっかり辞書として用意していますし、この単語の次はこの単語が使われやすいという出現頻度の情報も組み立てて、データベースにしています。ですから、日本語になっていない意味不明なことをしゃべられると、認識が難しくなってしまうんですよ。

――メール用語には既存の辞書などは存在しないと思いますが、データベースはどのように作ったのでしょうか。

　ポイントサイトにお願いしたり、購入したりと、ひたすらメールの文章を集め、それを元にデータベースを作りました。ある意味では、ケータイメールの専門用語で固めた辞書とも言えます。逆に、「拝啓～」のようなものは、上手く認識しないんです。

――ちなみに、絵文字はどうしているのでしょうか。

　今回、ドコモさんと初めて一緒に仕事をしましたが、絵文字って重要なんですね。その時、初めて知りました（笑）。ドコモさんの絵文字の一覧に、1つずつどう読んでいくか、読み仮名を振っていきました。例えば「今日ビールを飲みませんか」と発話すると、カタカナのビールが先に出て、次の候補が絵文字のビールになるようにしました。「今日は帰れそうにありません、顔文字」というと、文末に顔文字の一覧が出てきたりもします。

――かつてのパソコン向け音声認識ソフトなどでは、使い始める際に自分の声を学習させる必要がありました。御社のものでは、なぜ登録なしに人の声を認識するのでしょうか？

　音響のデータベースがキーになりますが、これを万人向けにしっかりと作り上げたところがポイントです。個人ごとに完璧にチューニングできれば、それが一番なのは確かですが、現実的には難しいですよね。そこが私たちの出発点になっていて、最上級からなるべく落とさなくても済むデータベースにしていきました。

――ちなみに、日本語以外もデータベース次第で実用化できるのでしょうか？

　はい、その通りです。タイ語などにも対応していて、実際にコールセンターで使ってもらっています。あとは、“日本人がしゃべる英語”を認識するものを商品化しました。これまでの音声認識型の英会話学習ソフトは、ネイティブの発音を使っていました。ですが、それだと日本人の中学生が発音した英語を、全く認識しないんです（笑）。そこで、弊社のソフトは、「L」と「R」を間違えたり、「TH」を発音できなかったり、母音を強調して発音するといったところは大目に見るようにしています。もちろん、そこが正確に発音できていないということは、ちゃんと指摘しますけどね。


あのセリフで印籠が現れるiPhone向けアプリ「印籠」	声で遊べる「声ちぇき！」

――一方で、御社は音声認識コンテンツも充実しています。一般のケータイ向けに提供している「声ちぇき！」などを始められました。iPhone向けには、「SPOON」や「印籠」などのユーモラスなソフトも出していますね。

　私たちは、やはりまだまだ音声認識は、世の中に認知されていないと思っています。もしくは、使えないというレッテルを貼られたままの状態です。そこで、まずは「使える」と思ってもらいたいので、コンテンツやアプリを始めました。英会話学習コンテンツは音声認識を使わないと絶対に不可能ですし、ほかのアプリは音声認識を使う楽しさがあります。

　言い方は悪いかもしれませんが、完全に実用的なアプリにすると、ものすごく作り込みが大変になってしまいます。「これで作業が50％軽減できます」となった瞬間に、当然ユーザーの期待も大きくなります。認識率が90％でも、10％間違えば「使えない」となってしまいますからね。ただ、「印籠」に関しても、「この紋所が目に入らぬか」としっかり言わないと認識しませんし、誰がしゃべっても大丈夫なようにしています。それは、ちゃんとした音声認識エンジンを使っているからこそです。

認識率が非常に高いiPhone用の音声入力アプリ（開発中）

――では、その先に実用アプリがあるということですね。

　実は、iPhone用の音声認識メールアプリを、なんとか今年度中に出したいと考えています。ユーザーからお金をいただくのがいいのか、無料で配信して認知してもらった方がいいのか、価格設定はまだ悩んでいます。日本のiPhone市場を考えるとなかなか難しくて……。

――実際に使ってみると、こちらのアプリも認識精度の高さに驚かされますね。英語圏まで広げれば市場も大きくなると思いますが、いかがでしょうか。

　まだそこまでは考えていませんが、おっしゃる通り、「英語版にして世界に出したら」という意見もあります。手が大きいアメリカ人が、ちゃんとiPhoneでメールを打てるとは思えないですし（笑）。個人的には、BlackBerryでも厳しいんじゃないかなと思うぐらいです。中には電車内だと音声で入力するわけがないと一蹴する人もいますが、アメリカや日本の地方などの車社会においては、音声入力が非常に便利です。アメリカだと口述筆記も一般的なので、受け入れられるかなという気がします。

――口述筆記を、ほかのアプリケーションに広げていくことは考えていますか。

　iPhoneだと、住所の検索などは便利だと思います。乗換検索なナビゲーションアプリをだされている会社に、使ってもらえないか提案することも考えています。iPhoneに限らず、住所の入力は至難の業ですからね。

　ほかによく使いたいと言われるのが、留守番電話をテキスト化してメールにするようなサービスです。ただ、メールの入力以上に話す内容が私的で、話す方もテキストに起こすことを想定していません。文字化は基本のデータベースがないと難しいんです。本当にフリーディスカッションは非常にハードルが高くて、まだそこまではたどり着けていません。語尾が曖昧でどちらか分からなくても、「まさかこの人がこの状況でイエスというわけがない」といった判断が入っているんです。

――では、最後に、今後の目標や読者へのメッセージをお願いします。

　トータルのUIとして音声認識が組み込まれれば、もっと使ってもらえるのではないかと思います。今の携帯電話は、どこにどんな機能があるのかが分かりづらくなっているので、「○○をしたい」と話しかけると、その答えが出るような機能があってもいいと思います。最初から最後まで全部音声入力の機種があってもいいのではないでしょうか。UIの選択肢の1つとして、10％ぐらいの人たちに使ってもらえれば嬉しいですね。

　もちろん音声認識が万能だとは思いません。ことケータイに関しては、キーの入力が皆さんものすごく上手い（笑）。ですから、先ほど申し上げたように、文章で入力した上で答えを出したり、入力したものを翻訳してあげたりと、音声を認識したあとのプラスαを打ち出していくのが重要だと思います。ユーザーの皆さんも、ネガティブなイメージをいったん忘れて、ぜひ使ってみてください。

■ ＵＲＬ
　アドバンスト・メディア
　 http://www.advanced-media.co.jp/

■ 関連記事
・声がどの有名人と似ているかを判定する「声ちぇき！」
・ドコモ、健康管理機能をサポートした「らくらくホンV」
・ドコモ、多機能志向の「らくらくホンプレミアム」

（石野純也）
2009/01/16 12:28

ケータイ Watchホームページ