レビュー

Pixel 6と4a、音声文字起こしの精度を比較してみた

 グーグルのスマートフォン「Pixel」シリーズで、「レコーダー」アプリが日本語の文字起こしに対応した(「Pixel 3」以降)。

 もともと「Pixel 6」「Pixel 6 Pro」向けに提供されていた機能が旧機種でも利用できるようになったため、本記事では「Pixel 6」と「Pixel 4a」による同機能の比較レビューをお届けする。

左:「Pixel 6」、右:「Pixel 4a」

検証方法

 検証方法はいたってシンプル。スマートフォンでYouTubeの動画を流して、それを同時に「Pixel 6」「Pixel 4a」の「レコーダー」アプリで録音するというものだ。

 同アプリでは、録音と同時に文字起こしも行われるため、その精度を比較した。

左:「Pixel 6」、右:「Pixel 4a」

 余談ではあるが、日本語の音声を「レコーダー」アプリに認識してほしい場合は、録音前に「設定」をタップし、「音声文字変換の言語」を「日本語」にしておこう。

「Pixel 4a」の設定画面。日本語のほか、ドイツ語やフランス語にも新たに対応した

検証その1

 まずは、「Pixel 6」で文字起こしを試した過去記事と同様、グーグル 公式ブログの文章を音読した動画で試してみる。

 Google Pixel 6は、74,800円(税込)からご購入いただける使い勝手のいい万能なスマートフォンです。116,600円(税込)からご購入いただけるGoogle Pixel 6 Proは、より高機能で上質な仕上がりを求めるユーザー向けのスマートフォンです。

グーグル 公式ブログ

左:「Pixel 6」、右:「Pixel 4a」

 前回の検証時、「Pixel 6」では完璧な文字起こしができていたが、今回の「Pixel 4a」でも同様にパーフェクトな文字起こしができた。

検証その2

 続いて、金子総務大臣による閣議後記者会見(12月3日)の動画の一部(6分ごろ~)を、両機種の「レコーダー」アプリで録音・文字起こしした。

 私も4社のヒアリングには立ち会わせていただきました。総務省の有識者会議において、これまで携帯電話事業者4社からのヒアリングが実施され、ご指摘のように、今後の我が国の携帯電話用周波数の割当方式について様々なご意見をいただいたところであります。

 こうしたヒアリングの結果も十分踏まえつつ、諸外国の事例について調査・分析を行った上で、年度末の1次取りまとめ、来年夏の2次取りまとめに向けて、引き続き、新たな割当方式の検討を行ってまいりたいと考えております。

会見発言記事(12月3日)

左:「Pixel 6」、右:「Pixel 4a」

 1つ目の検証と比較してやや長めの文字起こしになり、内容にも差が出た。よく見ると「Pixel 6」のほうが少しだけ精度が高いような気もするが、「Pixel 4a」もしっかり文字起こしができている。

検証その3

 最後に、ライターの法林岳之氏による「ケータイしようぜ!!」の動画から、一部(13分50秒ごろ~)を文字起こししてみた。

 いくつか考え方はあるんですが、グーグルとしては機械学習、AIを使っていろいろなことをやろうとしているというのがあります。

 ただ、これはグーグルのいろいろ言われている部分もちょっと含むんだけど、グーグルって基本的にみんなが使ったもの、検索したデータに合わせて広告を出したりするじゃないですか。

 それは彼らのひとつのビジネスのスタイルなんだけど、それをすると、通信をしていないと何もできないという話になってしまう。

法林氏のYouTube動画を筆者が書き起こしたもの、一部編集した部分あり

左:「Pixel 6」、右:「Pixel 4a」

 2つ目の検証と同様に、「Pixel 6」と「Pixel 4a」で明確な差異は見られないような印象を受ける。機種名を隠したブラインドテストをしたら、どちらの機種による文字起こしか判別するのは難しいかもしれない。

まとめ

 合計で3回検証をしてみたが、いずれも文字起こしの精度に明確な優劣はないように感じられた。「Pixel」シリーズの旧機種でも、文字起こし機能は十分に活用できそうだ。

 少し気になったのは、長時間(30分~1時間程度)の文字起こしをした際の安定性。文字起こし後のテキストファイルをチェックしてみると、「Pixel 4a」のファイルが「Pixel 6」のものよりも短くなっているケースが何度かあった。

 グーグルの広報によれば、「レコーダー」アプリの文字起こし機能は、「Pixel」シリーズの新旧に関わらずオンデバイスで動作するという。安定性の違いは、両者のスペック(チップセット)の差異によるところもあるかもしれない。

 もちろんこれは筆者の利用環境における現象であり、テキストファイルの長短については再現性があるとは言い切れない。

 しかし、リアルタイムで確実に文字起こしをしたい場合は、グーグル独自開発の最新チップセット「Tensor」を搭載した「Pixel 6」シリーズを使うのが良さそうだ。

Web上でも録音データを確認できるのはかなり便利