みんなのケータイ
グーグルの新AI「Gemini」で実現した「Pixel 8 Pro」録音アプリの新機能「要約」を試してみた
【Pixel 8 Pro】
2023年12月11日 00:00
12月7日(日本時間)、米グーグルが新しいAIモデル「Gemini(ジェミニ)」を発表しました。その発表で、さっそく「Pixel 8 Pro」の最新ソフトウェアが公開され、「Gemini」のスマホ向けAIモデルである「Gemini Nano」が利用できるようになりました。
具体的に体験できる機能のひとつが今回紹介する「録音アプリ」の“要約”です。
Pixelシリーズの録音アプリと言えば、Pixel 6シリーズで導入された“書き起こし”機能が最大の特徴です。その後のソフト更新により、Pixel 3以降で利用できるようになっており、話した言葉をかなり高い精度で、テキストにしてくれます。
録音する場面は、筆者の場合、インタビューや説明会・発表会など、業務の上ではかなりの頻度で遭遇します。一般的なお仕事でも、会議など人と話す場面でとりあえず録音する、という使い方は、書き起こしでのメモづくりにも役立つので、かなりおすすめできる機能です。
その書き起こしを新機能の「要約」で、さっと振り返ることができるならもっと便利になるかもしれない……と期待したくなります。
まずは英語での対応のみ、ということで、日本語で利用できるのはまだ先のお話。ひとまず今回は、筆者が過去に取材した録音データや、今年5月の「Google I/O」の基調講演のビデオなどで試してみました。
使って見えてきた“要約”の仕様
まずは要約機能の仕様とでも言える情報からご紹介しましょう。
要約にかかる時間は、およそ10秒程度。これは要約対象のデータの長さ次第な気がしますが、後述する仕様により、現時点では「大体10秒」と考えていいでしょう。
そして、要約された内容は、3行の箇条書きとして示されます。要約文はコピーできませんが、Androidの機能として画面上の文字認識ができますので、そちらを活用すればコピーできるでしょう。
スマホ内だけで処理される、つまり“オンデバイス”で生成されるという話ですので、実際にWi-Fiやモバイル通信をオフにした状態で試してみると、たしかに、きちんと生成してくれます。
新たに録音したものだけではなく、過去に録音したもの、あるいは、ほかのPixelで録音したデータをクラウド(recorder.google.com)経由でダウンロードしても要約してくれます。ちなみにクラウド上で要約は利用や表示はできません。
そして先述した「要約生成の時間」と関連しそうな「要約できる録音データの長さ」については、だいだい、10分程度の録音データですと、すんなり要約してくれます。
逆に言えば、1~2分程度の短いものや、15分、30分、1時間といった長い時間の録音データでは「要約できない」と表示されました。
特に長いものについては、15分程度がひとつの境目なのかな……? と思い、いくつか試してみたのですが、要約してもらえるものもあれば、できないものもあり、一概には言えなさそう。ただ、先述した通り、10分程度であれば、まず間違いなく要約してもらえるようです。
もし、長い時間の録音データをもとにしたい場合は、録音アプリ上で「切り出し」をして、別データとした上で要約する、という手順になりそう。
ちょっと手間ではありますが、確かに1時間の内容を3行でまとめるのも無理がありますし、10分程度のもので要約を生成するというのは、スマホへの負荷を考えても現実的な落としどころと思えます。
要約の精度は?
では、要約の内容・精度はどんなものか。
筆者の体感をなんとか言葉にするならば、「外してはいないけれど、ふんわりとした内容」といったかたち。まったくの間違いではないのですが、話の内容での鍵をピックアップしてくれているのか、というと、重要な要素が切り出されてはいない、という感じです。
一例として、今年5月の「Google I/O」の基調講演のうち、冒頭部分を要約してみました。
これは、スンダー・ピチャイCEOがまずメールでの生成AIの活用として、「スマートリプライ」「Help Me Write」などを紹介。そしてGoogleマップの「イマーシブビュー」や、1日あたり2000億kmのナビをしていること、Googleフォトの新機能「マジックエディター」を紹介する場面です。そして、それらのAI活用サービスを支える仕組みとして、「人々のためになるAIを作ること」を目指し、その時点での最新AIモデル「PaLM 2」の発表がアナウンスされました。
これらのお話は基調講演のなかで約10分で進められたもの。聞いている身からすると、「情報量多すぎ」とつい感じてしまうボリュームですので、そもそも要約するのがとっても難しい場面かもしれませんが、基調講演で、経営トップが語る言葉はやはり要約したい場面……ということでご紹介することにした次第。
その内容を「Pixel 8 Pro」に録音させ、要約すると「AIは、我々(グーグル)の製品改善に手助けし、人々や仕事、コミュニティなどに役立つ」「AIはGoogleフォトをより良く、便利にしてくれる」「AIは世界の情報をもっと便利に、アクセスしやすくしてくれる」という3行になりました。
なるほど、たしかにそういった内容は動画に含まれていたと思います。なので外してはいない。ですが、それ以外に要約としてピックアップしてほしい内容もあるような気が。
繰り返しになりますが、上記の例は、基調講演のなかでも話題が盛り込まれすぎで、今回のテストには適していないと考えるべきかもしれません。日々過ごすなかで、会議や顧客とのミーティングでの10分間というものは、そこまで話題がコロコロ変わることはないでしょう……でもCEOのお話だったので……。
とまぁ、10分程度の録音データが対象、要約に得意不得意がありそう、対応言語が英語だけ、というところをちょっとネガティブに捉える方もいらっしゃいそうな気はしますが、なによりもスマホ上でこんなことができる時代になったという点は、まさに時代の転換期・革新期に生きているのだ、という感慨を抱きますし、これからの進化が楽しみでなりません。
このところの生成AIは、クラウド上での処理が大前提になっていたところはありますが、用途やプライバシーの保護といった面では、オンデバイス(スマホ上での処理)が今後どんどん広がると目されています。2024年以降、スマホではどんなふうにAI機能が進化するのか、「Pixel 8 Pro」だけではなく、ほかのスマホメーカーの取り組みも注目していきたいところです。