みんなのケータイ

アメリカで「Apple Intelligence」のボイスレコーダーによる文字起こしを試してみた

【iPhone 15 Pro】

 アップルは2024年に独自のAIプラットフォーム「Apple Intelligence」の提供を開始しましたが、残念ながら現在利用できるのは英語のみ。日本のiPhoneで利用できるのは2025年4月とまだ先のようで、折角Apple Intelligenceに対応した「iPhone 15 Pro」を使っている筆者も残念に思っている所です。

 とはいえ、実は対応するiPhoneの言語設定を米国英語に変えれば、実はApple Intelligenceが使えるようになるというのは知られている所かと思います。もちろん使えるのは英語のみですし、言語設定を英語の状態にしておかなければいけないので、通常の操作だけでなく、「Gmail」「Facebook」など本体の言語設定に合わせて言語が変わるアプリも使い勝手が悪くなってしまうといった弱点があるのも確かです。

日本語ではまだ利用できない「Apple Intelligence」だが、対応するiPhoneの言語設定を米国英語に変えれば使えるようになる。ただ英語でしか利用できず、言語設定を戻すと使えなくなるのが難点

 ただ、そこまでしてでもApple Intelligenceを使いたかった理由もありまして、それは英語の文字起こしのためです。実は先日、米国で実施されたサムスン電子の「Galaxy Unpacked」の取材をしに行ったのですが、そこで問題となったのがボイスレコーダーと翻訳の両立です。

 通常の取材であれば「Pixel 7」のボイスレコーダーを使って文字起こしをしているのですが、英語ができない筆者としては、そのPixel 7で「Google翻訳」を使い、講演のリアルタイム翻訳がしたかったのです。もちろんGoogle翻訳はiPhoneにも提供されているのですが、「会話」モードで画面を分割せず、1画面で表示する仕組みはなぜかAndroio版にしかありません。それゆえ講演をリアルタイムで翻訳したい場合には、画面分割のないAndroid版Google翻訳を使う必要があった訳です。

「Google翻訳」の「会話」モードを使えば、クラウド経由でのリアルタイム翻訳が可能になるが、画面分割せずに会話を表示する機能はなぜかAndroid版にしかない

 そうなると困るのが、文字起こしができるボイスレコーダーが使えなくなることです。Pixel 7でGoogle翻訳とボイスレコーダーを同時に動かしても、一方のアプリでしかマイクを利用できないので、どちらか一方しか利用できません。

 そこで英語だけでいいから、iPhoneで録音と文字起こしができないか……と考え、Apple Intelligenceを使うに至った訳です。iPhoneのボイスレコーダーはApple Intelligenceが利用できる、つまり米国英語に設定した場合だけ文字起こしができるようなので、それを使って講演の英文文字起こしに挑戦してみたのでした。

一連の環境を実際に現地で試しているところ。左の「iPhone 15 Pro」で録音と英文の文字起こしを、左の「Pixel 7」でリアルタイム翻訳をしている

 実際に試してみると、Pixelシリーズのボイスレコーダーと同様、リアルタイムでスムーズに文字起こししてくれるようです。もちろんクラウドは使用せず、オンデバイスで処理してくれるので、今回のように多くの人が訪れるイベントであっても通信環境を気にしなくていいことから安心感があります。

録音した内容の文字起こし結果。Pixelシリーズのボイスレコーダー同様、オンデバイスで処理するためネットワーク接続が不要、かつスムーズな文字起こしができる

 文字起こししたテキストは見るだけでなく、メニューからクリップボードにコピーすることも可能。1時間超の文字起こしテキストも丸ごとコピーし、メモアプリなどに取り込めばクラウド経由でパソコンなどでも見ることができますが、Pixelシリーズのように音声とテキストをクラウドにアップロードして聴いたり見たりする仕組みはないようで、仕事で使う上ではその点やや不便といえます。

文字起こししたテキストはメニューから全文をコピーできるので、後はノートアプリなどに張り付けて保存すれば翻訳なども可能だ

 そしてもう1つ、気になるのは文字起こしの精度です。実は今回、もう1 Pixelシリーズのスマートフォンを持っていっていたので、そちらでも音声の文字起こしをし、双方の結果を「Googleドキュメント」に取り込んで翻訳し、比べてみることにしました。

 その結果、Pixelシリーズと比べると文字起こし精度は低め、というのが正直なところでした。単語を誤って認識しているケースが多く見られ、翻訳するとさらに精度が落ちてしまうというのが主な要因なのですが、それに加えてPixelシリーズであれば自動的にしてくれる段落分けもないので、文章が見づらくなってしまうのも不満を抱いた要因といえます。

Apple Intelligenceによる文字起こしの結果を「Googleドキュメント」で翻訳したところ。単語の認識違いによってところどころ不自然な訳が生じているほか、段落がないので文章が見づらい
同じくPixelシリーズのボイスレコーダーで文字起こしした結果を、Googleドキュメントで翻訳したところ。完全ではないが翻訳しても比較的読める文章となっており、段落分けもされているので見やすい

 ただ録音する音声の精度が高ければ認識率はかなり上がるとの話も聞きましたので、もっと色々な環境で試してみて評価してみる必要があるかもしれません。ただ今回のような用途であれば、まさにGalaxyシリーズの通訳アプリで「リスニングモード」を使えばスマートフォン1台で済むのでは、と言われてしまうとぐうの音も出なかったりするのですが……。