みんなのケータイ

Pixelのレコーダーアプリの「話し手のラベル付け(Speaker labels)」機能を検証してみた

 12月8日の夜にPixel 6 Proの「Recorder」アプリをチェックしていたところ、「話し手のラベル付け(Speaker labels)」と書かれた新機能のトグルスイッチが追加されていることに気付いた。現在のところ、取材で音声録音に使っているのはこのPixel 6 Proの「Recorder」アプリであり、音声文字変換の機能を有効にして日々活用している。取材後はGoogleのクラウドに変換したテキストごとアップロードしてしまい、後の文字起こしや発言確認の場面でWebブラウザのインターフェイスを介してアクセスすればいい。これだけでも充分便利ではあるが、PixelのRecorderでは「入力された音声をすべて順番にテキストに変換してしまい、話者の区別ができない」という問題がある。今回の新機能はこれを解決するものだ。

「話し手のラベル付け(Speaker labels)」機能を有効にするトグルスイッチが追加

対応言語は英語のみ、Otterにどこまで対抗できるか

 さっそく試してみたいと思ったが、運悪くRecorderアプリが活躍しそうなインタビューは本稿を執筆している翌週の12日までやってこない。というわけで、すでに録音済みの過去の取材記録を引っ張り出してみることにした。PixelのRecorderに搭載された音声文字変換のトランスクリプト機能は、同アプリが録音中にしか動作しない。つまり音声ファイルをクラウドとかに投げて処理が終わるのを待つ……といった仕組みには対応しないため、PCのスピーカー上でRecorderアプリの録音を再生しつつ、その近くにPixel本体を置いてRecorderアプリを起動して音声文字変換を有効にする微妙なやり方を採用した。

 サンプルとして使ったのは先日行った帝都自動車交通 代表取締役社長の篠﨑敦氏とMobility Technologies代表取締役社長の中島宏氏へのインタビュー音声で、Recorderを起動してしばらく待っていたものの「話し手のラベル付け」が行われる気配がない。いろいろ試したものの、音声文字変換の言語が「日本語」になっている間はこの機能は有効化されないようだ。

複数音声がごちゃ混ぜ表示されている日本語トランスクリプト

 そういうわけで次に試してみたのがMoney20/20という今年2022年10月後半に米ネバダ州ラスベガスで開催されたイベントでのセッションの録音。下記写真にあるように展示会場のど真ん中にあるステージで騒々しく、ノイズのみならずステージ以外の音声も割り込みで入ってくるような劣悪な録音環境ではあるものの、今回の「話し手のラベル付け」機能を試すのに最適な「パネルディスカッションで複数のパネラーが(英語で)交互に喋り合う」というシチュエーションであり、素材としてはうってつけと判断した。

「話し手のラベル付け」のテストに利用した英語でのパネルディスカッション。隣のブースの絶叫音声が何度も入ってくるなど劣悪な環境ではあるが、しっかり音声文字変換は機能していた

 先ほどと同じようなセッティングを行いつつ、今度は言語設定を「英語(US)」に変更して「話し手のラベル付け」機能を有効にすると、先ほどは出現しなかったメッセージが表示され、機能が本当に有効化されたことが分かった。実際の音声文字変換の様子を説明すると、通常のトランスクリプトでは上から順番に変換されたテキストが文章に追加されていくのに対し、「話し手のラベル付け」が有効化された状態では最下段の部分でまずテキストへの変換が行われ、ある程度のサイズの文章になった段階で上の方の文章列へと追加されていくようになる。この際に「Speaker+数字」のような形で話者の区別が行われ、「誰の発言か」を見極めた後に変換済みのテキストをそれぞれの話者の発言した段落へと追加していく流れのようだ。

言語設定を「英語(US)」にした状態で「話し手のラベル付け(Speaker labels)」のトグルスイッチをオンにすると、このメッセージが表示されて機能の有効化を確認される
「話し手のラベル付け」を有効化した状態での音声文字変換。いったん音声からテキスト変換した文章をプールしておき、話者を判断した時点で上の文章列に追加していく

 では、実際の機能の有効性はどうなのか。前述のように録音した音声自体のクォリティがそれほどでもないという問題はあるが、正直いうと「まだ微妙」というのが本音だ。録音された(主要な)音声としては、場外アナウンス、司会、パネラーが3人といった具合に合計で5名しか登場しないのだが、Recorderアプリの「話し手のラベル付け」では再生開始5分の時点で「8名」のスピーカーが登場しており、音声の話者間での区別もかなりの混濁がみられる。別々の人物の発言を1つの話者としてまとめてしまったり、あるいは明らかに1人の音声を区別できずに「3人いる」と判断してしまったり、現時点での実用性は乏しい。

 その点では、いまだに後処理型の「Otter」の方にかなりの分がある。今回のパネルディスカッションの録音に関していえば、Otterはすべて完全に話者を聞き分けており、一時期苦手だった固有名詞の判別も含めてかなりトランスクリプトの性能が上がっている。一方で、変換精度に関してはデバイス上で処理を完結させているPixelのRecorderの方が分が悪いとみられ、「話し手のラベル付け」の信頼性の低さを考えれば、当面はRecorderで音声文字変換を有効にしてラベル付けを行わない音声録音をしつつ、アップロードした音声をOtterにインポートしてトランスクリプト化するという流れが正解のようだ。ただし、Otterは現時点で「日本語対応していない」という問題があり、その点では日本語の音声変換はPixelのRecorderアプリ頼みということになる。

同じ音声のOtterでの変換例。苦手だった固有名詞にもかなり強くなり、金融カンファレンスでの業界キーワードもかなりの部分の変換に対応していた