ドコモに聞く

利用件数は1億超、「しゃべってコンシェル」開発の舞台裏


 NTTドコモの音声エージェントサービス「しゃべってコンシェル」が人気だ。3月1日の提供以来、ダウンロード数は約300万件、利用件数は1億2000万弱に達している。

 アラームの設定やカメラの起動といったスマートフォンの操作のほか、レシピや乗換などの専門検索、そして6月のバージョンアップでは、さまざまな質問に答えられるようになり雑学に強くなった。またちょっとした雑談にも対応できる。仕組みとしては、音声認識や文章の解析をクラウド側で行っている。

 ドコモ自身のネットワークに付加価値を提供する「ネットワーククラウド」を象徴する同サービスは、どういった経緯で開発されたのか。NTTドコモ研究開発センター サービス&ソリューション開発部で「しゃべってコンシェル」を開発した飯塚真也氏と、6月の機能拡充を担当した内田渉氏に聞いた。

ITリテラシーに関わらず便利に使えるサービスを目指す

――「しゃべってコンシェル」の開発はどういったきっかけで始まったのでしょうか。

内田氏(左)と飯塚氏(右)

飯塚氏
 そもそも音声を使ったサービスは、音声入力メールなどフィーチャーフォン時代から続けてきました。ドコモでは、携帯電話が“アラジンの魔法のランプ”となって、ユーザーが話しかけると何でも応答してくれる世界を目指そうという考えがあったのです。

 技術の進展で、徐々に音声認識が進化して、特に「Web検索を音声で」という使い方が実用レベルになってきました。しかし個人的には、そうした「Web検索」という使い方とモバイルが合致するのか、疑問に思っていたのです。

――疑問というのは、具体的にどういうことでしょう?

飯塚氏
 モバイルでの検索と、パソコンで行う検索は、利用スタイルが異なるではないかと考えていたからです。たとえばモバイルでは、生活シーンに密着した検索が多いですよね。つまり飲食店や経路検索などを調べたいと考えるケースです。

――ITリテラシーの違いも影響しそうですね。

飯塚氏
 まさにそこです。ITリテラシーが高い方が、たとえばカレーを食べたいと考えたとき、「カレー」「グルメ」「溜池山王」といったワードで検索すれば、正しい検索結果へたどり着きやすいと、経験的に知っていると思います。ところが、そうした仕組みを知らなければ「カレーを食べたい」と検索してしまう。こうしたワードでは、ブログなどにアクセスしてしまうことになるのではないでしょうか。

――なるほど、ワードで区切って検索する、というのは、確かにパソコンで馴染んだ検索スタイルです。

飯塚氏
 「しゃべってコンシェル」では「~したい」と問いかけると、答えを導き出す仕組みになっています。この原型を当時の上司に提案して、いったんは厳しく評価されたのですが、やりたいならばやっていいぞということになりました。当時は、別のプロジェクトも進めていましたので、それはそれでやりつつ、という形です。その後、紙ベースで進めていたのですが、その上司からある日「1週間後、社長へ説明しに行くぞ」と突然言われ、あわててデモ用のアプリを開発しました。

 そのとき社長だった山田(隆持氏、今年6月までドコモ社長)に見せるため、紙芝居のようなアプリを作りました。音声で話しかけると、その内容を認識して、専門検索にジャンプするというものです。ただ、デモ用ですから音声認識を実装せず、何を話しかけても「横浜でもつ鍋が食べたい」と認識して、グルメ検索する、ということしかできないアプリだったのです(笑)。

 山田は「いいじゃないか」とすぐ反応して、プロジェクトとして開発を進めることになりました。

内田氏
 前社長は「いいじゃないか」が口癖でしたね(笑)。

――他のプロジェクトを抱えつつ、とはいえ、案外すぐ開発に着手できたという印象です。

内田氏
 先に飯塚の話に出た、「しゃべってコンシェル」のひな形を厳しく評価した上司が、数年前から、そうした活動を推進しているのです。何か開発してもデモするだけで終わるのではなく、早く開発してマーケットインしてユーザーに評価してもらおうということです。これはスマートフォン時代だからこそ、と言えるかもしれません。フィーチャーフォンに組み込む機能として開発するのは、そのスピード感では難しいですから。

――なるほど。

「面白味がない」と評された原型アプリに……

飯塚氏
 そうして開発を進め、2011年5月にプロトタイプをAndroidマーケット(現Google Play)で提供しはじめました。これが「VOICE IT!」というアプリで、「しゃべってコンシェル」の原型になります。ユーザーが喋った内容に応じて、飲食店や、目的地までの乗換案内を検索するというものです。今はもう公開していませんが、かなり実用的な方向に振ったツールでした。

――「VOICE IT!」に対し、どういった反応が返ってきたのですか?

飯塚氏
 レビューやTwitterでの反応を見ていくと、コンセプトは凄いと評価される反面、認識性能がまだまだという評価が多かったですね。これは純粋に性能を上げていく取り組みを続けました。意外だったのが、「面白味がない」という評価でした。

――それはまた受け止め方が難しい評価ですね。ここが使いづらい、と言われれば、どこを改善すべきか進めやすくなりますよね。その後はどう取り組んだのですか?

飯塚氏
 それはもう「何が面白いのか」といろんな人に聞いてみました(笑)。行き着いたひとつの答えは、「おしゃべりしている感」でした。そこから心地よい対話とは何か、追求しはじめたのです。機械による対話と言えば、コールセンターなどの自動音声応答システムによく使われていますが、まわりくどいイメージがありました。さくっとした操作感との両立が大事だと考えました。

――昨年は、iPhoneに音声認識を使った「Siri」が導入され、ネットでも「Siri」で遊ぶ人が後を絶たない状況でしたね。

飯塚氏
 「Siri」は昨年10月頃の登場ですよね。「Siri」に限らず、音声エージェント機能というものは米国のベンチャーを中心に提供されていましたが、一気に関心度が高まったというのは、1つのベンチマークにはなりました。

――相次いで登場したことで、「Siri」と「しゃべってコンシェル」を対比して見る場合もありますね。

飯塚氏
 他社の製品ですので、私が「Siri」のことをコメントするのは難しいのですが、「しゃべってコンシェル」は、スマートフォンを使いこなしていない方にも気軽に乗換検索やグルメ検索を使ってもらえるようアシストする、という考え方です。

――影響を受けたのか、という質問は多いのでは? 「Siri」は昨年10月に登場し、日本語に対応したのは今年3月後半だと思いますが、そのSiriの日本語対応より2週間ほど早い時期に「しゃべってコンシェル」はリリースされていますね。

飯塚氏
 よく言われますが、さすがにそんな短期間で開発はできません。世界的に見て、音声エージェントは数年前から注目されていた分野です。音声認識やクラウドコンピューティングの進展を受けて、先頭集団が次々と実用化にこぎつけたという印象です。

――日本でもヤフーが音声認識のアプリを提供していますから、トレンドの機能と言えるわけですね。

思った以上に使われている“雑談”

――「しゃべってコンシェル」では、ユーザーの利用傾向はどうなのでしょうか。

飯塚氏
 正直に言って、“雑談”が想像以上に利用されていると思います。

内田氏
 僕らにとっては、オマケ機能と言いますか、そこまで雑談は重視されないだろうと思っていたのですが、どうやら2時間も楽しむ方がいらっしゃるようなんです。質問でも「アイドルグループの○○のうち、一番カッコイイのは誰?」という主観的な質問も多いですね。それは、本当に誰が格好良いのか知りたいのではなく、どういった回答になるか、エージェントとの対話を楽しんでいるのだと思います。

――雑談というと“愛してる”と呼び掛けると、「しゃべってコンシェル」が反応する……といった遊び方ですよね。2時間楽しんだ人がいる、ということですが、ユーザーがどう利用したか、把握できるのですか?

内田氏
 いえ、それはTwitterでの投稿から得た話です。ユーザー個人がどう使っているか、個人情報と利用内容は紐付かないようにしています。ただ、全体的な利用傾向は確認できます。

――なるほど。そうした利用傾向が見えてきた中で、6月に機能拡充が行われたわけですが……。

飯塚氏
 6月の拡充は、「雑談」と「雑学」が2本柱でした。

6月には雑学、そして雑談への対応が強化された

――雑学に強くなったというのは、発表会でもアナウンスされていましたが、雑談も強化したのですか。

内田氏
 雑談と雑学に強くしたのは、幅広い利用に応えられるようにするためです。ユーザーが問いかけて返答できない、という“抜け”のなさが重要です。質問して返事がないと落胆しますから。特定のデータベースから答えを見つけ出すことも重要ですが、より幅広く、ずばりと対応できることを目指しました。この機能を実装するため、NTTのメディアインテリジェンス研究所の技術を用いています。

――その技術はどういったものですか?

内田氏
 大きく分けると、「しゃべってコンシェル」で答えを探し出す技術には、2つの技術が使われています。1つはDB(データベース)型、もう1つは検索型です。DB型は、システム内で、「こういう質問にはあの答え」とデータベース化しておくものです。そこで答えが見つからなければ検索型で対応します。イメージとしては“しゃべってコンシェルくん”が質問を受けて、答えを探しに行くようなものです。

――これが答えでは? と「しゃべってコンシェル」のシステムが判断するのですか。それはどういうロジックなのでしょうか。

内田氏
 詳細は明らかにできないのですが、複数の回答候補を見つけ、聞いている質問の回答になりそうなものをざっくりと提示します。現時点ではまだ、完全とは言えませんので、適宜、調整しています。そのため、質問によっては“珍回答”をしてしまうこともあるのです。

今後の進化

――ちなみに、より正しい答えが得やすい質問の仕方はあるのでしょうか。

飯塚氏
 文章を解釈するエンジンがありますので、検索ワードを単独で言うよりも「○○が食べたい」という形のほうがいいですね。「カレー」というだけでは、店を探しているのか、レシピを求めているのか、機械側では判断しつづらいのです。それから、いわゆる「てにをは」は省かないほうがいいです。

内田氏
 英語で言うところの「5W1H」(Who、What、When、Where、Why、How)にあたる言葉を入れると、より良いですね。何をしたいのか、明示していただいたほうがより正しい回答を提供しやすくなります。それから、音声認識や文章解釈のエンジンはクラウド側で、日々チューニングしていますから、今日はうまく行かなかった質問であっても、少し時間を置くと回答できるようになっているかもしれません。

――そもそも何を聞いていいか、わからないということもありますね。

飯塚氏
 ヘルプ画面のほか、公式サイトや広告などの媒体でも、いろんな使い方を積極的に公開しているのですが、まだまだ浸透していませんから、そこは課題の1つです。改善策として、たとえばチュートリアルの提供などを検討しています。

――方言は大丈夫なのでしょうか。

飯塚氏
 ある程度は、ですね。細かな部分までは対応していません。

――何を質問していいか分からないユーザーへの対応が課題とのことですが、今後はどういった進化を遂げていくのでしょうか。

飯塚氏
 機能面で、「こういうのは面白そうかも」と個人的に考えているものはありますが、まだ公にできる段階ではありません。まずは精度の改善を続けていきます。

 「しゃべってコンシェル」という音声エージェントが本当に受け入れられるか、開発した自分自身でさえ、半信半疑でした。手軽にスマートフォンを使いこなせるよう、行動を支援するサービスとして開発しましたが、「しゃべってコンシェルはこういうものだから、こうあるべき」とガチガチに決めているわけではありません。

 ユーザーさんからの反応は大事にしているつもりです。何を求められているか、常に軌道修正しながら改善しなければいけないと考えています。

――また新機能が追加されれば、ぜひ教えてください。今日はありがとうございました。




(関口 聖)

2012/7/25 06:00