ニュース

Google、「Gemini 2.5」の機能強化、自然な音声での応答やブラウザ自動操作

 Googleは、開発者向けイベント「Google I/O」で、生成AIモデルの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」のアップデートについて紹介した。

 今回のアップデートでは、「Gemini 2.5 Pro」と「Gemini 2.5 Flash」により人間らしい自然な音声でのテキスト読み上げや会話の流れにあわせた抑揚やトーンで応答する「Native audio output」(ネイティブ音声出力)が利用可能となった。

 Google I/Oでは、通常のトーンでの音声出力と、ささやき声での音声出力が、どちらも人間らしく自然に読み上げられることが披露された。この機能は、「Gemini 2.5 Pro」と「Gemini 2.5 Flash」でサポートされ、日本語を含む24言語で今日から利用できる。

【「Native Audio Outputs」のデモ】

 「Gemini 2.5 Pro」は、学術ベンチマークにおいて驚異的なパフォーマンスを記録しただけでなく、WebDev ArenaやLMArenaのランキングでトップとなっている。また、取り扱いできるトークンが100万トークンに拡張され、長文のコンテキストや動画の内容を理解できるようになった。

 ユーザーに代わってAIがブラウザ上での操作を自動化する「Project Mariner」では、AIがアプリケーションを操作したり、フォームに必要な情報を入力したりするだけでなく、情報を検索した上で整理するなどの複雑な処理も行えるようになり、より能動的なアシスタントとしての機能が追加された。

 このほか、AIの安全性や信頼性を高めるための機能強化、安全のための機能強化も追加された。具体的には、AIモデルを騙して本来とは異なる動作をさせる「間接プロンプトインジェクション」への対策が強化され、ツールを使った攻撃に対してGeminiの保護率が大幅に向上しているという。

 AIの透明性を高めるための取り組みとして、AIがどのようにして結論に至ったのか「思考プロセスを表示」で確認できる。また、AIが返事をする前に取り扱うトークンの量を調整できる「思考バジェット」(Thinking Budgets)が「Gemini 2.5 Flash」向けに提供されたほか、「Gemini 2.5 Pro」でも間もなく利用可能となる。

Deep Think

 体験版として新たに「Gemini 2.5 Pro」に「Deep Think」が追加される。同モードは高度な数学とコーディングのための推論モードで、最も難しい数学のベンチマークの1つである「2025 USAMO」で高スコアを獲得したほか、競技レベルの難易度の高いコーディングのベンチマークやマルチモーダル推論においても高いスコアを記録している。

「Gemini 2.5 Pro Deep Think」の各種パフォーマンス

 なお、「Gemini 2.5 Pro Deep Think」は、最先端の技術を追求するため、安全性の評価に通常よりも時間を要している。

Gemini 2.5 Flash

 速度と低コストを重視して設計された「Gemini 2.5 Flash」は、Googleの生成AIにおける最も効率的な主力モデルで、推論やマルチモーダルなど各種性能がさらに改善した。Googleの評価では、トークン使用量が20%~30%削減されている。

「Gemini 2.5 Flash」の性能比較

 新しい「Gemini 2.5 Flash」は、Geminiアプリで全ユーザーがプレビュー版が利用できるほか、6月上旬には開発者向けの「Google AI Studio」と「Vertex AI」で「Gemini 2.5 Flash」の更新版が公開され、その後まもなく「Gemini 2.5 Pro」も一般公開が予定される。

「Live API」の改善

 「Live API」ではネイティブ音声出力による対話機能がプレビュー版として導入され、開発者は「Gemini 2.5」を通じてより自然な対話機能が利用できる。また、ユーザーは話し方やアクセントについて指定できる。

 初期段階の実験的機能として、ユーザーの声に含まれる感情を検知してAIモデルが応答する「感情認識対話(Affective Dialogue)」や、バックグラウンドの雑音を無視してよりスムーズな会話を実現する「プロアクティブ音声(Proactive Audio)」などの機能も提供される。