ニュース

グーグルの書き起こし機能「音声文字変換（Live Transcribe）」の秘密を聞く

関口聖

2019年3月28日 20:42

　グーグルが2月に発表した「音声文字変換（Live Transcribe）」という新機能をご存じだろうか。現在はベータ版として、Android向けに提供されており、話した内容をそのまま文字へ書き起こしてくれるようになっている。

　日本語を含む70以上の言語に対応する「音声文字変換（Live Transcribe）」について、プロダクトマネージャーのサガー・サブラ（Sagar Savla）氏が来日、開発に至った背景や、その技術を語った。

音声文字変換でできること

　ライブトランスクライブ、つまりリアルタイムで音声をテキスト化してくれるという本機能は、現在、Androidでのみ利用できる（Google Play Storeの配信ページ）。

　アプリをインストールし（Pixel 3/3 XLでは設定メニューのユーザー補助でON）、アプリ一覧から起動すると、いつでも音声をテキストにする状態になる。そのままスマートフォンの近くで話していると、拾った音声をそのまま文字にしてくれる。

　70もの言語に対応しているとのことで、設定から、認識したい言語を2つ選べる。認識中は、その2つを手動で切り替えて利用する形だ。

　音声認識をしているものの、その録音はされない。また、文字になった内容はコピーできず、いったん「音声文字変換（Live Transcribe）」を終了すると、文字化した内容は消える。

　音声をテキスト化するといった用途はビジネスシーンでもニーズがあると見られ、今後の展開に向けてGSuiteのチームと検討中という。またテキストを保存する機能は今後数カ月以内に発表される。

　また同時通訳技術も構想はあるものの、音声からの書き起こしする際の精度や、書き起こしたテキストを翻訳する際の誤りといった点が今後の課題になる。

機械学習で社会をより良くする

　プロダクトマネージャーのサブラ氏は、インドで育ちエンジニアリングを学んだあと、渡米して機械学習を学び修士号を得た。

　貧しい中で育ったというサブラ氏は、「機械学習で、社会をより良くすることはできないか。聴覚障害者向けに役立てることはできないか」と考え、研究に打ち込んできた。

プレゼンで紹介された写真はサブラ氏自身の祖父母。ライブトランスクライブを使っている際の写真という

　聴覚障害と一口に言っても、たとえば高齢になって徐々に衰えることもあれば、幼少のころに失う場合もある。

　サブラ氏は「たとえば65歳を超え、聞くことが困難になると、心の準備ができておらずに困惑したり、社会から隔離されたような感覚にさいなまれたりする人がいる。徐々に衰えるため、医療的な処置を怠ることもある」と解説。そうした人たちのコミュニケーションに役立つアプリとして「音声文字変換（Live Transcribe）」が提供されることになった。

聴覚障害者向けに提供されることになった

会話のためのカスタマイズ

　グーグルでは、10年以上にわたり音声認識の研究開発を進めてきたが、「音声文字変換（Live Transcribe）」では、聴覚障害者の利用を想定し、自然な会話になるような工夫がこらされている。

　たとえば、テキストの書き起こしスピードは、200ミリ秒以下になるようチューンアップされた。これは手話など他の方法を組み合わせたコミュニケーションの邪魔にならないよう配慮した結果だ。

　さらに音声を書き起こす際の課題としてサブラ氏は、「文脈に即していなければ意味が無い」とコメント。たとえば「雲の間から一本の蜘蛛の糸が降りてきました」と話す場合、「くも」という音を、文脈にあわせて「雲」「蜘蛛」と分けて変換できるようにしている。

文脈を解析して変換する

　グーグルでは音声でテキスト入力できるアプリを提供しており、そのベースとなる技術は「音声文字変換（Live Transcribe）」も同じ。

　ただ、音声テキスト入力は、短い文章を想定した物。その一方で、会話向けの「音声文字変換（Live Transcribe）は、それなりの長さになる会話を想定。そこで文脈をどう理解するのかという課題に挑むことになった。

スマホ本体とクラウドで変換

　機械学習としては、大きく分けて、ふたつのモジュールが採用されている。

　ひとつはスマートフォン本体へ搭載するもの。犬の鳴き声やガラスの割れる音などは、スマートフォン側で識別している。

スマホ単体とクラウド側でそれぞれ処理している

　もうひとつが、実際の音声認識を行うクラウドベースのものだ。データセンターの処理能力を活用し、高い精度でテキスト化している。このため、30分程度の会話であれば150～250MB程度の通信が発生する。

　クラウドで処理することによって、Androidスマートフォンの古い機種や、ローエンドモデルでも「音声文字変換（Live Transcribe）」を利用できるようになった。

　音声認識の際には、音の波形そのものを読み込み、言葉を推定していく「アコースティックモデル」が活用されている。いわゆる音素を組み合わせて単語を推定していくもので、たとえば、「KO（こ）」「NI（に）」という音素があれば、「こんにちは」という言葉という可能性が高まる。

3つのモデルで音声をテキストへ変換

　もちろん音素だけでは不十分となるため、言語モデルも活用する。たとえば日本語と指定しておけば、日本語で「こ」「に」と続けて発音する場合は、「こんにちは」ではないかと推測できる、というわけだ。

　こうした推定は、人が認識する際の流れに似ているとサブラ氏。一連の処理は15ミリ秒で完了する。

　さらにグーグルでは、2年前に、音に関する情報（オーディオセット）を公表した。これは、800万あまりのYouTubeのビデオに対して、マニュアルでタグ付けをしたもの。道具（Tools）というタグが付けられたものもあれば、「吠える」というタグでくくられたものもある。

オーディオセットをオープンソースで公開

　オープンソースになったオーディオセットを活用して、たとえば乳幼児の睡眠などを音で検知するサービスや、自宅用のセキュリティサービスでガラスの割れる音を検出するサービスなどを開発する企業も現れた。

　さらには、YouTubeの自動字幕技術ではたとえばスピーチが行われておらず拍手が鳴り響く場面を識別し、字幕を付与しないようにする、といった形で役立っている。

　実際に利用すると、画面上では、周囲の騒音などをわかりやすく表示するようユーザーインターフェイスにも工夫がこらされている。

小型プロジェクターも検討

　オーディオセットの公開で、音声認識の精度が高まり、実用化に向けて進んだ「音声文字変換（Live Transcribe）」。最終的にはスマートフォンへ搭載されることになったが、その前には、たとえば小型プロジェクターを活用するといった利用シーンも検討された。

　これは、テキスト化した内容を、小型プロジェクターで話す相手の胸に投影するというアイデア。話した内容がその場ですぐ相手の胸に表示されれば、大きく目をそらすことなく、より自然に会話できる。ただ、プロジェクターは一般的に高額なこと、あるいはバッテリーの持ち時間が限られることから断念。より多くの人が利用するスマートフォン向けになることが決まった。

今後はグループでの会話などにも

　技術で社会貢献することを標榜するグーグルでは、「情報へアクセス権利は、どの人にも平等にある」（サブラ氏）という理念を持つ。

グーグルの掲げるミッション

グローバルでの聴覚障害者の人数は4億6600万人

　「音声文字変換（Live Transcribe）」は、聴覚障害者向けとしたことで、コミュニケーションツールとしての開発が先行して進められた。その結果、プライバシーに配慮して録音機能は見送られ、テキストを他のアプリで活用できるような機能の実装は後回しとなった。

　そうした中で、今後は3つの目標が掲げられている。ひとつは音声認識をデバイス側でも行えるようにすること。すでにPixel 3向けには、英語のみながら、先週から同様の機能が提供されており、今後拡充が図られる見込み。

　ふたつ目の目標は宴会中のような騒がしい場面でも高い精度で認識できるようにすること。また現在は1対1の会話に限られているが、グループでの会話でも活用できるようにしていく。

　こうした技術をもとに、グーグルでは「音声文字変換（Live Transcribe）」とあわせて、「音声増幅アプリ」もリリースしている。これは、AI（機械学習）を用いた補聴器とも言えるもので、周辺の騒音を低減しつつ、音声だけを聞き取りやすくしたものだ。

　サブラ氏は、翻訳精度が高くない場合でも、聴覚障害者にとってはコミュニケーションする上で役立つものと説明。多言語での精度向上など、引き続き開発を進める姿勢を見せた。