みんなのケータイ

音声認識の精度は音響と取り込むマイクに左右されると思う日々

【Galaxy S24 Ultra】

 Galaxy AIをプッシュしているGalaxy S24シリーズ。ですが、私はS24 Ultraを購入しようと決めたときからレコーダーアプリの文字起こし機能に注目していました。

Galaxy S24シリーズはレコーダーアプリも進化。時間無制限になった文字起こし機能に期待していました。

 Galaxyのレコーダーには以前から文字起こし機能があったのですが、10分間の時間制限があったため、1時間近い発表会やインタビューなどで使うには足りませんでした。それが今回から時間制限がなくなりました。俄然、使おうという気持ちになります。

 Galaxyのレコーダーの文字起こしは、Google Pixelのようなリアルタイム文字起こしではありません。普通に録音し、終わったあとに録音データをサーバーにアップして文字データに変換してもらう形です。

 他の文字起こしサービスはあまり知らないのですが、ソースネクストの「AutoMemo」と似た感じ。Pixelはまさに今話している言葉がどんどん文字化されていく驚きがありますが、ソースネクストの担当者の話では、リアルタイム文字起こしよりも録音データをすべて把握して文字起こしした方が精度が上がるとのこと。Galaxyのレコーダーもその通りかどうかは分かりませんが、特に問題はなく、これはこれでOKです。

 というわけで、Galaxy S24 Ultraで発表会や座談会など、いくつか録音して文字起こしをしてみたのですが、言葉の認識精度については、現時点ではもうちょっとがんばってほしいと感じています。音声認識の精度は「要約」の出来にも影響するのでなおさらです。

 要約は文字起こしが終わると使えるようになります。文章全体をコンパクトに要約するというよりは、話者の言葉が切れる部分を把握して、その間の文章を逐一要約しているような感じです。例えば、質疑応答だと、質問の要約、回答の要約が箇条書きで並んでいきます。小見出しも付いているのにはびっくりしました。

録音ファイルを選んで「文字起こし」をタップし、言語を選択します。1時間くらいの録音だと、文字起こしに5分程度かかります。文字起こしが済むと「要約」が使えるようになります。要約タブをタップすると、Galaxy AIが働く間、少し待って要約が表示されます。
要約はこんな感じです。ただ、実はこのときの音声認識精度はいまひとつで、要約もあまり正しくありません。

 現時点で、Pixelのレコーダー、AutoMemo、Galaxyのレコーダー中から、どれか1つだけ選ぶとしたら、私はPixelを選びます。

 リアルタイム文字起こしは、音声が文字化されていく様子が面白いだけなく、「さっき、なんて言っていたっけ?」とすぐに読み返せるのがいいです。私はタイピングが下手で遅いので、これにはよく助けられています。また、Pixelの音声認識精度は当初よりかなり向上していて、通信の専門用語もがんばって文字化してくれます。

 ただ、Pixelのレコーダーは、まれに保存中画面がなかなか終わらないことがあり、そうなると新たに録音ができなくなるのは困ります。私は幸いにもありませんが、保存がいつまで経っても終わらず、アプリを強制終了したら録音データが消えてしまった、という事態になってしまった人も知っています。あと、時々文字起こしがストップすることも。そのうち復活しますが、その間は音声で確認するしかありません。

 今は、Pixelだけだと不安、録音で絶対に失敗したくないというときに、サブとしてGalaxyのレコーダーでも録音するという使い方をしています。これからGalaxyの日本語の認識精度が良くなってくれることを期待しています。

 ところで、音声の認識精度は、周りの環境と音声を取り込むスマホのマイクの影響も大きいと思います。広いイベント会場で声が反響する場所だと、音響設備がかなりちゃんとしていないと、認識精度はかなり落ちます。私の経験では、Pixelの場合、日本語よりも英語の認識精度の方が高いと感じているのですが、英語でも反響の強い環境だと精度は落ちます。文字起こしだけにこだわるなら(そんなことにはなりませんが)、現地での取材よりオンライン配信される音声を録音した方が正しく文字起こしされます。

 会議室などで行う座談会も、結構、誤認識が多いです。1人1人にマイクを装着してもらって音声を拾いたいと何度思ったことか。反対に、机をはさんだ1対1、2対2程度のインタビューだと、かなり精度高く文字起こしされます。

 どんな環境でも言葉を正しく聞き取れる人間の耳ってすごいんだなと改めて思うとともに、きっとまもなくスマホに搭載されたAIが、音声認識の甘さをカバーしてくれるようになるのだろうとも期待しています。