みんなのケータイ

アメリカで「Apple Intelligence」のボイスレコーダーによる文字起こしを試してみた
【iPhone 15 Pro】
2025年2月3日 00:00
アップルは2024年に独自のAIプラットフォーム「Apple Intelligence」の提供を開始しましたが、残念ながら現在利用できるのは英語のみ。日本のiPhoneで利用できるのは2025年4月とまだ先のようで、折角Apple Intelligenceに対応した「iPhone 15 Pro」を使っている筆者も残念に思っている所です。
とはいえ、実は対応するiPhoneの言語設定を米国英語に変えれば、実はApple Intelligenceが使えるようになるというのは知られている所かと思います。もちろん使えるのは英語のみですし、言語設定を英語の状態にしておかなければいけないので、通常の操作だけでなく、「Gmail」「Facebook」など本体の言語設定に合わせて言語が変わるアプリも使い勝手が悪くなってしまうといった弱点があるのも確かです。
ただ、そこまでしてでもApple Intelligenceを使いたかった理由もありまして、それは英語の文字起こしのためです。実は先日、米国で実施されたサムスン電子の「Galaxy Unpacked」の取材をしに行ったのですが、そこで問題となったのがボイスレコーダーと翻訳の両立です。
通常の取材であれば「Pixel 7」のボイスレコーダーを使って文字起こしをしているのですが、英語ができない筆者としては、そのPixel 7で「Google翻訳」を使い、講演のリアルタイム翻訳がしたかったのです。もちろんGoogle翻訳はiPhoneにも提供されているのですが、「会話」モードで画面を分割せず、1画面で表示する仕組みはなぜかAndroio版にしかありません。それゆえ講演をリアルタイムで翻訳したい場合には、画面分割のないAndroid版Google翻訳を使う必要があった訳です。
そうなると困るのが、文字起こしができるボイスレコーダーが使えなくなることです。Pixel 7でGoogle翻訳とボイスレコーダーを同時に動かしても、一方のアプリでしかマイクを利用できないので、どちらか一方しか利用できません。
そこで英語だけでいいから、iPhoneで録音と文字起こしができないか……と考え、Apple Intelligenceを使うに至った訳です。iPhoneのボイスレコーダーはApple Intelligenceが利用できる、つまり米国英語に設定した場合だけ文字起こしができるようなので、それを使って講演の英文文字起こしに挑戦してみたのでした。
実際に試してみると、Pixelシリーズのボイスレコーダーと同様、リアルタイムでスムーズに文字起こししてくれるようです。もちろんクラウドは使用せず、オンデバイスで処理してくれるので、今回のように多くの人が訪れるイベントであっても通信環境を気にしなくていいことから安心感があります。
文字起こししたテキストは見るだけでなく、メニューからクリップボードにコピーすることも可能。1時間超の文字起こしテキストも丸ごとコピーし、メモアプリなどに取り込めばクラウド経由でパソコンなどでも見ることができますが、Pixelシリーズのように音声とテキストをクラウドにアップロードして聴いたり見たりする仕組みはないようで、仕事で使う上ではその点やや不便といえます。
そしてもう1つ、気になるのは文字起こしの精度です。実は今回、もう1 Pixelシリーズのスマートフォンを持っていっていたので、そちらでも音声の文字起こしをし、双方の結果を「Googleドキュメント」に取り込んで翻訳し、比べてみることにしました。
その結果、Pixelシリーズと比べると文字起こし精度は低め、というのが正直なところでした。単語を誤って認識しているケースが多く見られ、翻訳するとさらに精度が落ちてしまうというのが主な要因なのですが、それに加えてPixelシリーズであれば自動的にしてくれる段落分けもないので、文章が見づらくなってしまうのも不満を抱いた要因といえます。
ただ録音する音声の精度が高ければ認識率はかなり上がるとの話も聞きましたので、もっと色々な環境で試してみて評価してみる必要があるかもしれません。ただ今回のような用途であれば、まさにGalaxyシリーズの通訳アプリで「リスニングモード」を使えばスマートフォン1台で済むのでは、と言われてしまうとぐうの音も出なかったりするのですが……。