ニュース

「Gemini Live」がカメラ連携、より自然な合成音声など機能強化

 米Google(グーグル)は、「Gemini Live」向けに新たな機能を追加する。

ビジュアルガイダンス(Visual Guidance)

 ビジュアルガイダンスでは、「Gemini Live」を通じてカメラに映るものについてやりとりできる。

 例えば、工具ツールセットをカメラで映しながら「説明書に1/2サイズのレンチを使うって書いてあるんだけど、そのレンチは(この中の)どれ?」とたずねると、「Gemini」が質問内容とカメラに映っている工具を判別し、適切なレンチがどれかをディスプレイ上に示してくれる。

 他にも、服装に合うスニーカーはどちらか決めるのを手伝ってくれるなど、「カメラに映ったもの」やユーザーの意図を汲み取った応答が可能になる。この機能は「Pixel 10」シリーズから提供され、その他のAndroid、iOSデバイスにも順次提供される。

Googleアプリとの連携強化

 Googleの各種アプリとの連携により、Googleカレンダーで予定を確認し、薬局が閉まる前に薬を取りに行くためのリマインダーを設定したり、夕食の新しいレシピを考案中に、GeminiにGoogle Keepの新しい買い物リストに全ての材料を追加したりできる。

 これらの機能は、Googleカレンダー、Google Keep、Google Todoリストとの統合によって既に実現されており、英語版では既に利用できる。また、近日中に電話アプリ、Google メッセージアプリ、時計アプリを追加し、Google マップの統合機能も拡張するため、「Gemini Live」とより多くのGoogleアプリが連携する。

 たとえば、移動中に地下鉄の最速ルートを探しているが、予定の時間に遅れることに気付いた時には、「アレックスに10分ほど遅れることを伝えて」と言うと、Geminiがテキストの下書を作成してくれるので、すぐにナビアプリに戻れる。

音声がより自然に、かつ調整可能に

 「Gemini Live」の新たな音声モデルでは、抑揚・リズム・声色が大幅に改善され、より人間との自然な会話に近い合成音声でコミュニケーションがとれる。このアップデートは、今後数週間以内に適用される。

 さらに、「Gemini Live」が話す速度を調整して、急いでいる時には速く、メモを取ったり深く考えながらやりとりする時にはゆっくり話すように指示できる。あるいは、場を盛り上げるために楽しいアクセントで話す、という指示も可能となる。

 ほかにも、「ジュリアス・シーザー自身の視点でローマ帝国について話して」と言うと、キャラクターにあわせたアクセントを交えてストーリーを読み上げるという。