みんなのケータイ
Googleの最新「Gemini 1.5 Pro」を触ってみたら音声・動画認識がスゴい!
2024年4月16日 00:00
日々AI絡みの何かしらの進化があって、キャッチアップするのがめちゃ大変になってきている今日この頃。4月9日にはGoogleの最新AIモデル「Gemini 1.5 Pro」がプレビューリリースされて、誰でも試せるようになったので、ちょっとだけ触ってみた。
「Gemini 1.5 Pro」を試すには、「Google AI Studio」というWebサイトが手っ取り早い。これは、基本的にはGeminiのAPIを利用してサービス開発したい人向けの、いわゆるプレイグラウンド的なもの。プロンプトや入力データによる挙動をあらかじめここで確認し、各種プログラミング言語のコードとして出力できるツールだ。
ChatGPTと同じようにプロンプトを入力し、チャット形式でAIとやりとりする形になっている。ただ、4月11日時点ではGemini 1.5 Proを利用したコード出力には対応していない。プレビュー段階ということで、とりあえずはGemini 1.5 ProのAIモデルの動作をここで確認できるよ、という状況のようだ。
Webサイトなのでスマホからもアクセス可能ではあるものの、PCなど横幅の広い画面に最適化されており、縦置きだと表示されないことがある。その場合は端末を横置きにすることでギリギリ利用できるが、やはりPCやタブレットなど画面の広い端末がおすすめだ。
利用料金は、今のところは無料。といっても、1分間に2回までのリクエストかつ3万2000トークンまで、といったわりと厳しい制限があるので、ガシガシ使いまくる、というわけにはいかない。制限が緩和される有料版は近日提供予定(PCからアクセスすると筆者の場合は5月2日と表示された)となっているので、本格利用はそれ以降ということになるだろう。
で、気になるのは、Gemini 1.5 Proで音声認識できるようになったうえに、動画の認識も可能になったという点。今回はこの2つの機能をチェックしてみることにした。
まずは音声認識がどれくらいの精度なのか、Google Pixel 8 Proのレコーダーアプリで録音した音声ファイルを元に確かめてみる。参考までにレコーダーアプリの端末ローカル(リアルタイム)と、ChatGPT(Whisper API)での文字起こし結果とも比べてみた。
Gemini 1.5 Proでは固有名詞が正確に表記され、文字起こししたときに強調すべき「水」というワードをカギカッコつきで表現していることが、なによりもスゴい。一部端折られている言葉があるのは気になるものの、全般的には影響のないレベルで、早く有料版のAPIでガッツリ使ってみたいなと思う。
ちなみに、録音データをアップロードするだけでなく、その場でマイク入力して録音し、文字起こしすることも可能。スマホやタブレットでも動作する。いずれはGemini 1.5 Proを利用したリアルタイム文字起こしアプリも登場するのだろうか。
次に動画の認識だ。Google AI Studioでは最初からいくつかのサンプル動画が用意されているが、ここでは筆者が撮影した数秒の動画をもとに、場所の推定と、映り込んでいる人の数の認識、看板等の文字の認識が可能かどうかにチャレンジした。
結果はスクリーンショットにある通り。場所はAIの指摘通りたしかに空港(ラスベガス)だ。映り込んでいる人の数は実際には7、8人いそうだが、「少なくとも5人」と認識された。人の姿形ではっきり見えているのは多くないから、ここは仕方がないかも。看板などの文字も、画質があまりよくないなかで頑張って読み取ってくれている。ただ、「Excape the ordinary」「Lounge like a boss」「HOLLYWOOD」という3つは誤認識だ。
無料版しかまだ試せないこともあって、本来の実力はまだまだはかり切れていないけれど、このレベルのAI認識が遠くない将来、スマホ上で当たり前のように使えるようになるかも、ということを考えると、ものすごく楽しみ。ChatGPTやCopilotやClaudeやCommand R+などなど、他にもたくさんのAIサービスやAIモデルが存在するとはいえ、スマホと密接に連携してくれそうという意味で、Google Geminiに対する筆者の期待感は自然と大きくなってしまうところだ。