みんなのケータイ

海外取材で役立つ「Google Pixel 4」のローカル文字起こしを導入

【Google Pixel 4】

 1月22日、23日に開催された「DOCOMO Open House 2020」に行ってきました。1社主催とは思えないくらいの規模で、ドコモがいかに幅広い分野でオープンイノベーションに取り組んでいるかが、よくわかるイベントでした。会場には様々な技術やサービスが展示されていたのですが、中でも個人的にとてもワクワクしたのが、英語音声認識&自動文字起こしサービス「Otter」と、機械翻訳サービス「みらい翻訳」を組み合わせて、英語で話した内容をほぼリアルタイムに日本語で表示するデモンストレーション。具体的なサービス提供時期などは未定ですが、ドコモがOtterに出資して協業するとのことです。

 音声を認識して自動的に字幕を表示する機能や、それをリアルタイムに翻訳する機能は、すでにYouTubeやテレビ会議サービスなどにも実装されていますが、Otterとみらい翻訳の組み合わせは、テキストが表示されるスピードも日本語表現も申し分なく、これがサービスとして提供されるようになれば、いよいよ「英語のプレゼンテーションが同時通訳なしに、その場で完璧に理解できるようになるかも」という期待が膨らみました。

 というのも私のリスニング力は、英語のプレゼンテーションをその場で完璧に理解できるようなレベルには到底なく、取材時にはいつも録音した音声を聞き直す確認作業が必要だからです。そしてこの確認作業を劇的にラクにしてくれたのが、まさに今回ドコモが提携を発表した「Otter」。音声を聞き直さなくても、文字起こしされたテキストをチェックすれば、聞き取れなかった箇所を簡単に確認できるし、わからない単語があってもすぐに調べられます。「Otter」のおかげで、海外取材がめちゃくちゃ捗るようになりました。「DOCOMO Open House 2020」の会場で同社のSam Liang CEOにお会いした際には、感激のあまり握手をお願いしてしまったほどです。

※こちらがOtterです
CESで同じプレゼンテーションを音声文字変換したOtterの画面(左)と、Google Pixel 4のレコーダーの画面。Otterは複数の話者がいた場合にそれを認識することができるが、Google Pixel 4のレコーダーではできない。

 ただ「Otter」にも1つだけ難点があります。それはインターネット接続が必須だということ。音声データを随時クラウドに送って、クラウドでテキスト化するしくみなので、当然ながらネットにつながっていないとテキスト化されません。録音した音声データをあとからアップロードすることもできるのですが、プレゼンを聞きながらリアルタイムにテキストをチェックしたい場合には、安定した通信環境が必須なのです。一方でプレゼンが行われる会場には多くの場合、複数の電波が飛び交っていて、安定した通信環境を得るのは簡単ではありません。そこで昨年末から新たに「Google Pixel 4」を導入しました。

 Google Pixel 4はAI処理によって星空も撮れるカメラが話題ですが、筆者が着目したのはレコーダー機能。Google Pixel 4には、クラウド接続なしに音声をリアルタイムにテキストに変換できるレコーダーが搭載されているのです。今はまだ英語にしか対応していませんが、音声認識&自動文字起こしを実現するAIがローカルで稼働するため、インターネットにつながっていない環境でも、今目の前の人が話している英語をテキストで確認できます。

 使い方は簡単で、レコーダーアプリを立ち上げて録音ボタンを押すだけ。文字起こしされたテキストを見たいときは画面を「音声文字変換」へスライドするだけでいい。録音後データを保存する際、認識されたキーワードからタイトルをサジェスチョンしてくれる機能も。録音された音声と文字起こしされたテキストは、音声データ&テキストデータとして、Googleドライブに保存できる

 クラウドで音声認識&文字起こしを行う「Otter」に比べると、文の切れ目がわかりにくかったり、複数の人が話したときに認識できなかったりといったことはありますが、もちろんノイズなどにも左右されるものの、ローカルとは思えない高い認識精度で、通信環境に左右されずに使えるのは大きなメリット。というわけで年始に取材したCESでは早速、iPhone 11 ProにインストールしたOtterとGoogle Pixel 4のレコーダー機能の2台体制で、英語でのプレゼンテーションを乗り切りました。どちらかが近い将来、きっと日本語にも対応してくれると信じて、しばらくはこの体制で頑張りたいと思います。