ニュース

聴覚障害者をサポートするAndroidの“文字起こし”や“声を聞き取りやすくする機能”、グーグル担当者が紹介

石井孝幸

2019年8月21日 17:45

　グーグルは、聴覚障害者をサポートする機能として、音声を文字起こしする機能「音声文字変換」や、会話を聞き取りやすくする機能「音声増幅」をアクセシビリティとしてAndroidデバイス向けに提供している。

　これらのアクセシビリティの機能について、Androidのアクセシビリティを担当している、Google本社のAndroidアクセシビリティプロダクトマネージャーのブライアンケムラー（Brian Kemler）氏が来日し、現在提供されている機能や、次期Androidに実装される機能など、今後提供予定の機能を紹介した。

聴覚障障害者をサポートする機能

Androidアクセシビリティプロダクトマネージャーのブライアンケムラー（Brian Kemler）氏

音声文字変換（Live Transcribe）

　2019年の2月から、音声をリアルタイムで文字起こしできる機能「音声文字変換」が提供されている。

音声文字変換（Live Transcribe）

　日本語を含む70以上の言語に対応し、英語では、大文字、小文字、ピリオドまで判別できる。文字起こしされたテキストは3日間端末に保存可能で、テキストを選択してコピーも可能。また、拍手やドアのノック音など、60種類以上の環境音も判別でき、周囲の状況を判断する際にも役立つ。

ケムラー氏によるデモ。同氏の英語、日本語どちらも正しく検出していた

　「Google Pixel 3」シリーズでは、プリインストールされており、設定のユーザー補助から利用できる。その他のAndroidスマートフォンの場合は、OSがAndroid 5.0以上であれば、Google Playストアからインストールして利用可能。

　同機能は、マイクから拾った音を「会話」と「環境音」の2種類に分け、会話はクラウドで、GoogleのAPIを利用して文字変換される。環境音は、デバイス上の機械学習を利用して判別している。

Live Caption

　音声文字変換を発展させたものとして、Androidデバイス上のさまざまなコンテンツ上で字幕を表示する「Live Caption」を開発しているという。SNS上や自分で撮影した動画、音声メッセージなどのコンテンツがテキスト化される。

Live Caption

　Live Captionは、クラウドベースで動作するものではなく、デバイス上でリアルタイムに変換されるもの。年内に英語が対応する予定で、日本語の提供時期は未定。

　Androidは、さまざまなメーカーからデバイスが発売されているが、今年後半には同機能をサポートする端末が公開されるという。同社としては、すべてのユーザーが利用できるような取り組みをしていくとした。

音声増幅（Sound Amplifier)

　音声文字変換と同時期に、周囲の音声を聞き取りやすくする機能「音声増幅」が公開され、提供されている。

音声増幅（Sound Amplifier)

　周囲が騒がしい状況でも、スマートフォンなどに有線イヤホンを接続し、同機能を利用すれば会話の声を聞き取りやすくなる。7月のアップデートでは、音声検出を視覚的に表す機能など、目で見て判断できるようユーザーインターフェースが改善された。

　Android 6.0以上であれば、Google Playストアからインストールして利用可能。

　何千という聴覚プロファイルを機械学習させており、ノイズから信号音を引き出し、音を理解しているという。

Hearing Aid Support

　補聴器をAndroidデバイスなどに接続して音声を聴く場合は、中継器の役割を持つ「ストリーマー」と呼ばれる機器が必要で、スマートフォンなどと一緒に持ち歩く必要がある。

Hearing Aid Support

　次期Androidである「Android Q」では、BLE（Bluetooth Low Energy）を利用してAndroidデバイスと補聴器が直接つながる「Hearing Aid Support」が実装される。同機能によりストリーマーは不要になり、補聴器はBluetoothイヤホンのようなイメージで利用できる。

　同社はさまざまな補聴器メーカーと連携して、同機能を実現していくとした。

Google社員も音声文字変換を実際に利用

　実際に音声文字変換を使っており、Googleの社員である小林育未氏も登壇した。同氏は重度の難聴で、普段は補聴器や読唇で相手の話した内容を理解しているという。

小林育未氏

　社内の会議で音声文字変換を使うことで「以前では、会議の内容が理解できず、発言がしにくかったが、（音声文字変換を使うことで）会議内容の理解度が上がり、話していることが分かる、という当たり前のことができて感動した」と語った。

　同氏は、実際に使っていく中で、会議など話す人が複数人いる場合に、誰がなにを話しているか分かるような、文字の色分け機能があると便利と感じ、開発チームにフィードバックしているという。

全ての人がアクセスできるように、グーグルのミッション

　ケムラー氏は、アクセシビリティは、グーグルにとって使命であり、世界中の人々がアクセスできて使えるようにすることが我々のミッションであると説明した。今までのAndroidのアクセシビリティは、選択したテキストを読み上げる機能や画面上の項目を読み上げる「TalkBack」といった視覚障害者向けの機能、スイッチで端末を操作する機能などが中心であった。

これまで提供してきたアクセシビリティ機能

　聴覚障害者の人口は、WHOによると4億6600万人で、15人に1人の割合になるという。そのため、同社では比較的ユーザー数が多い聴覚障害者向けのアクセシビリティをこの1年半、開発してきた。

音声文字変換の精度、音声データのプライバシーは

　音声文字変換は、広い場所などでは音声が検出されにくいという。これについて、ケムラー氏は「音声文字変換は、人同士など、近くにいる人同士の会話での利用を想定している。また、周囲の環境やデバイスのマイクの性能によって変わってくる」と説明。言語検出の精度については、言語ごとに機械学習モデルの質が異なっているため、うまく検出されない場合あるが、すべての言語モデルの質を上げようと取り組んでいるところだという。

　音声が利用されるということで、気になるのはプライバシーだが、音声文字変換では、音声データは一切保存されないと説明した。音声がクラウドに飛んだあと、文字変換に必要な時だけ保存され、その後データは消されるという流れになっている。

　今後については、環境音だけでなく、会話もデバイス上で処理できるようにしていきたいと語り、Live Captionは、その方向性で考えているという。