ドコモに聞く

機械が翻訳、「通訳電話」「メール翻訳コンシェル」の裏側


 手元の機械が自動的に外国の言葉を翻訳する――少し前まで、それはSFドラマやアニメの世界の話だった。しかし、それが一般的なサービスとして登場しつつある。

 NTTドコモでは、昨年11月、音声を自動的に翻訳する「通訳電話」のトライアルをスタート。さらに今年6月からは、対応言語を増やして参加者を1万人に拡大した。また、6月1日から提供されている「メール翻訳コンシェル」は、日本語と外国語を相互に翻訳し、メール本文にコピーして利用できるサービスだ。

メール翻訳コンシェル

 通訳電話は、その場で翻訳する“対面翻訳”と、遠く離れた場所の人との“通話翻訳”が利用できる。どちらも専用アプリを使う形となるが、翻訳処理はクラウド上のサーバーが行う。

 もう一方の「メール翻訳コンシェル」もまた、専用アプリを用いて、クラウド上で翻訳する。アプリからは、Androidのインテントという仕組みを用いて、他のアプリへテキストデータを渡すため、メールだけではなく、Twitterなどでも翻訳を利用できる。

 今回、NTTドコモ研究開発センターネットワーク開発部の太田昌宏氏と、西本暁洋氏に開発の経緯などを聞いた。

柱になる3つの技術

――基本的な部分ですが、通訳電話とメール翻訳コンシェルを支える技術は同じものなのでしょうか。

ドコモの太田氏(左)と西本氏(右)

太田氏
 通訳電話では、「音声認識」「機械翻訳」「音声合成」、メール翻訳コンシェルは主に「機械翻訳」を主に使い、入力時のサポートで「音声認識」を使います。機械翻訳と音声認識は共通です。

――どちらも機械による翻訳を実現するサービスですが、開発の経緯を教えてください。

太田氏
 通信事業者ということで、コミュニケーションサービスを提供してきたわけですから、翻訳という形のサービスも以前から開発したいと考えていました。しかし技術的な条件が揃っていなかったわけです。ところが、近年のコンピュータの進化などで、技術が成熟してきました。

西本氏
 具体的に「通訳電話」のプロジェクトがスタートしたのは一昨年の夏ごろです。そして昨春の「Mobile World Congress 2011」(スペインで開催される展示会)で試作版を披露し、その後日本での展示会(2011年5月のWIRELESS JAPAN 2011)でもデモを行いました。その6カ月後の2011年11月にトライアルを開始、今年6月から拡大、という流れです。昨年11月のトライアル以降、モニターからのフィードバックを得ながら改善を進めています。

――スマートフォンの登場は影響したのでしょうか。

西本氏
 それも1つの要素です。やはりフィーチャーフォンに比べて、アプリを開発しやすいですから。

太田氏
 OSの深いレベルまでカスタマイズして提供する、という形ではなく、ほとんどの処理はクラウド上で行います。提供のスピード感などを考えると、クラウドを活用する形のほうがいいだろうと考えました。

ドコモ内部に外部の技術を取り入れる基盤

――比較的、短期間で開発が進められたという印象です。

太田氏
 そうですね。短期間で進められたのは、もともと携帯電話会社として音声に関する基礎技術の開発を行っていたこと、そしてWebの技術との組み合わせ、という基盤がドコモ内にもできたことにあります。クラウドを使って技術をうまく統合して……という流れになったのです。

――「技術的な条件が整って」という話がありましたが、これはどういったことなのでしょう。

西本氏
 音声認識、機械翻訳、音声合成という技術は、ドコモ独自で開発したのではなく外部の技術を用いています。それらの技術のレベルが、ここ数年どんどん向上しているのです。

――独自技術だけではなく、外部の技術を取り入れたと。

太田氏
 もともとは電話サービス、メールといったものを独自に開発、提供してきたわけですが、機械翻訳などの技術は、我々が進めてきた技術の流れと違うところにあった、という面があります。市場の技術として、より良い物がないか、探求して活用しています。

西本氏
 どの技術を用いているかは非公開なのですが、1社の技術だけに固定するのではなく、その時々で良い技術を採用していこう、という考え方が、我々の開発思想にはあります。

――そうした技術の導入にあたり、どういった点で評価したのでしょうか。

太田氏
 正答率や認識率の高さといったところですね。

UIや翻訳精度の改善に注力

――サービスとして整えていくなかで、重要なポイント、工夫したところは?

対面翻訳の画面(昨年11月時点のもの)

太田氏
 通訳のタイミング、そしてマイクからの距離といったユーザーインターフェイスに関わる部分でしょうか。たとえばマイクからの距離については、端末によってマイクの性能が異なります。通話用のマイクですから、通常は顔に近づけて話すわけですが、対面翻訳時には、手に持ったスマートフォンに話しかけることになりますから、周囲のノイズを拾わないようにしつつ、きちんと認識できるよう調整する必要がありました。これはひたすらトライアンドエラーを繰り返して検証しています。

西本氏
 通訳電話は、昨年11月の段階と比べ、今年6月のトライアル拡大時に、「翻訳開始ボタン」を押してから、実際に発話できるまでのタイミングを少し早めにしています。モニターからのフィードバックを踏まえた改善なのですが、以前はボタンを押してから発話できるまで時間がかかっていました。と言っても、1秒もかかっていないのですが、使ってみるとストレスに感じたようなのです。それをわずかながら短縮しました。ただ、これもちゃんと調整しなければ、音声認識の開始前に、ユーザーが話し始めて、声の先頭が切れてしまう、といったことになります。細かな点ですが、ユーザビリティの改善は重要なポイントです。

太田氏
 機械翻訳では、単語、辞書の強化で精度を高めています。昨年のトライアルでは英語をサポートし、その後中国語、韓国語に対応していますが、もともと精度が高かったのです。だいたい7割~8割程度でしょうか。トライアル拡充で追加した言語(ドイツ語、フランス語、スペイン語、ポルトガル語、イタリア語、タイ語、インドネシア語)については、まだこれからチューニングを重ねる必要があります。

――翻訳の精度はどうやって高めるのでしょうか。

太田氏
 一概には言えないのですが、単語の追加とアルゴリズムの改善、正答性、順序のマッチングといったところでしょうか。

――翻訳のしやすい言語はあるのでしょうか。既に英語ではある程度の精度とのことですが、そこから欧米の言語も翻訳しやすい、といったことになるのでしょうか。

西本氏
 少なくとも韓国語は、日本語との翻訳の親和性は高いと言えます。これは文法が非常に似ているためです。他の言語は、そうしたところがありません。英語が最初から精度が高かったのは、高いニーズなどの背景があると思います。

太田氏
 英語と比べると、他の欧州の言語は、日本語から翻訳する時のワード数がまだまだ少ないのかもしれません。

西本氏
 かといって、○○万語あればいい、とも言えませんが、ある程度のワード数は必要です。

店舗で高い“中国語のニーズ”、語学学習に応用も

――トライアルを実施したことで、あらためてわかった用途などはありますか?

西本氏
 用途ではないのですが、法人の小売店での要望は、思った以上の反応だった、と思います。と言うのも、小売店のインフォメーションで、外国人観光客の対応などに通訳電話が利用されているのですが、そうした店舗からは「中国語(翻訳機能)が欲しい」というニーズが高いのです。英語圏の人に対しては、(学校教育で習っていることもあり)ある程度、言葉がわかりますので、なんとかなるものの、中国語ではそうはいきません。

 それからメール翻訳コンシェルは、メール以外でも利用できますので、たとえばレディ・ガガのツイートを翻訳する、といった使い方もできます。ネット上の反応を見ていると、シンプルに辞書代わりに使っているケース、あるいは再翻訳できますので、日本語で入力した文章を英語にして、さらに日本語に戻して確認してから送ったり、英文のチェックに使ったり、といった方もいるようです。通訳電話も、日本人ユーザーがあえて英語で入力して、日本語に翻訳して、ネイティブの発音に近いかどうかチェックする方もいますね。

――新語の対応といいますか、たとえばネットの時代、あるいはSMSの流行で、英語圏では独特の略語が用いられることがあるそうですが、今回の翻訳サービスでは対応しているのでしょうか。

西本氏
 全てというわけではないのですが、たとえば「hrs」と書いて「hours」(時間)という意味で解釈する、といったところはあります。

――今後はどういった方向で進化することになるのでしょうか。

太田氏
 基本はUIの改善、そして翻訳精度の向上ですね。海外渡航時は、ローミングしながら利用できます(Wi-Fi経由は現状不可)ので、海外での大規模なイベントにあわせた機能改善の可能性もあるでしょう。通訳電話も今年度中の商用化を目指していきます。

――ありがとうございました。




(関口 聖)

2012/7/26 06:00