ニュース

新モデル「Gemini 3.5 Flash」や常時駆動のAIエージェント、スマートグラスも登場――「Google I/O 2026」の発表まとめ

 5月19日(現地時間)、Googleは開発者向けイベント「Google I/O」の基調講演を実施し、同社の生成AI「Gemini」の各種最新機能を発表した。

Google/アルファベットのスンダー・ピチャイCEO

Google独自のTPUは第8世代に

 基調講演の冒頭では、Gemini動作の基礎となっているGoogle独自の生成AI向けプロセッサーユニット「TPU」の最新世代が発表された。TPUは生成AIに特化したASICで、最新の第8世代は、学習特化の「TPU 8t」と推論特化の「TPU 8i」の2つがラインナップされる。

 第7世代までは学習も推論も同じTPUを使い、構成を変えることなどで、必要な演算能力の異なる学習と推論の両方に対応させていたが、第8世代では学習(training)特化のTPU 8tと推論(inference)特化のTPU 8iに分離し、それぞれの用途に必要な性能に最適化して設計されている。

 もともとこうした生成AI特化のASICは、生成AI以外の用途に使いにくい代わりに、生成AIの計算処理ではNVIDIAなどの汎用GPUに比べて効率が桁違いに良く、データセンターのコスト削減などに効果を発揮していた。TPU 8tは前世代に比べて約3倍の計算能力を持つほか、チップ同士の連結性能も強化され、全体のパフォーマンスが大きく向上する。一方のTPU 8iは、より低遅延に推論の回答ができるよう、応答性能が強化されている。

 生成AIの計算需要は急増しており、こうした生成AI特化ASICにより、データセンターのプロセッサ自体のコスト、電力や冷却コストを削減することは業界のトレンドとなっている。そしてこの生成AI特化ASICの分野では、8世代にもわたり開発し続けているGoogleが他社に大きく先行しており、新たに学習用と推論用で設計を分けて効率化することで、先行する立場をさらに固めるものとなる。

 GoogleのTPUはもともと、GoogleがGeminiのために作ったようなASICだったが、技術的に業界をリードするような存在なため、現在はTPUを使ったデータセンターを他社にレンタルしたり、TPU自体を顧客のデータセンターに提供するといったことも始まっており、ライバルのAnthropicなどもTPU搭載データセンターを購入している。

世界をシミュレートするマルチモーダル生成AI「Gemini Omni」

 画像や動画など、さまざまなメディアを生成する新しいマルチモーダル生成AIとして「Gemini Omni」が発表された。すでに動画を生成するVeo、画像を生成するNano Bananaといったモデルが存在しているが、Gemini Omniはそれらを統合するような位置づけとなる。

 Gemini Omniは提供を開始しており、有料プラン契約者はGeminiアプリやGoogle Flowですぐに利用ができる。無料ユーザーについては、YouTubeの動画編集機能の一部として今週後半より順次導入されるという。

 Gemini Omniは入力と出力、いずれもテキストや動画、写真、コードなどの形式を問わない「マルチモーダル」なものとなっている。テキストプロンプトから動画を生成するだけでなく、ピアノの旋律音声からボーカル入りのリミックスを作る、といったこともできる。

 さらにGemini Omniの特徴として、実世界の3次元構造や力学などを理解していることが挙げられる。Googleはこの特徴を持ったGemini Omniについて、「World models」と表現している。これにより、以前よりも自然で破綻のない出力の生成が可能となる。既存のVeoも同様に物理法則を理解していたが、Gemini Omniはその部分の精度がさらに強化され、動画以外の入出力にも対応している。

 基調講演でのデモンストレーションでは主に映像などのメディア生成がメインだったが、あらゆる出力を生成することを目指している、としていることから、たとえば「3Dプリンター出力のために強度や加工性を考慮した3Dモデル」や「登場人物の位置関係や挙動が破綻しない小説のワンシーン」といった生成も視野に入っているものと考えられる。

本日提供開始の「Gemini 3.5 Flash」

 新たな生成AIモデルとして、「Gemini 3.5 Flash」が発表された。発表と同時に提供を開始しており、すでにGeminiを使うあらゆる製品で利用可能となっている。

 Gemini 3.5 Flashはより高性能化していて、他社の最先端モデルよりも出力速度が4倍以上高速とアピールされている。また、前世代の上位モデル「Gemini 3.1 Pro」と比較しても、ほぼ全てのベンチマークスコアでGemini 3.5 Flashが上回っているという。

 より高精度で複雑な推論を実行する上位モデルの「Gemini 3.5 Pro」については、2026年6月に提供開始を予定している。Gemini 3.5 Pro提供前にGeminiのアプリなどで「Pro」を選択しても、前世代のGemini 3.1 Proで実行されることとなり、精度の上ではGemini 3.5 Flashが上回り、速度はGemini 3.1 Proの方が遅いということとなるので注意が必要だ。

 なお、前述のGemini Omniについても、軽量な「Gemini Omni Flash」(本日から提供開始)と高精度な「Gemini Omni Pro」(6月以降提供開始予定)の2種類が用意される。

新しいAIエージェント「Gemini Spark」

 生成AIを使った新たな機能として、「Gemini Spark」が発表された。こちらは今週からテスター向けに公開され、来週には米国の「Google AI Ultra」の新しいサブスクリプションプラン契約者向けにベータ版が提供される。

 Gemini Sparkはよくある生成AIの利用スタイル、プロンプトに対して出力を返してくる「一問一答」とは異なるもので、常時バックグラウンドでタスクを実行し続ける、パーソナルAIエージェントとなっている。たとえば複数のメールやドキュメントの情報をまとめたり、出欠確認を追跡して未回答者にリマインダーを送ったり、スケジュールを調整する、といった秘書に頼むような作業が可能となっている。

 Gemini SparkはGmailやカレンダー、連絡先、Googleドライブと言ったGoogleサービスと統合しており、それらデータを扱ったりできる。今後はサードパーティ製ツールとの連携もできるようになる。

 Gemini Sparkに実行させるタスクは、ブラウザやGeminiアプリ内で管理するが、今年後半にAndroid 17に搭載される「Android Halo」から管理できるようになる。詳細なUIデザインは発表されていないが、画面左上の時刻表示のさらに左側にタスクがあることを示すアイコンやタスク名が表示されるようなイメージが公開されている。

Google検索もGeminiでさらに進化

 Google検索については、2025年のGoogle I/Oで「AIモード」が発表され、すでに実装済みだが、検索機能はGeminiでさらに強化される。

 まず「インテリジェント検索ボックス」として、検索窓そのものが生成AIで強化される。たとえば従来のオートコンプリートが強化され、ユーザーが記述しきれていない意図をも汲み取り、AIが先回りして提案・回答するようになる。

 テキスト以外のマルチモーダル入力も強化され、画像やPDFファイルなど、さまざまな形式を横断して入力できるようになる。こちらのインテリジェント検索ボックスは、本日以降、順次使えるようになるという。

 続いて「検索エージェント」として、サーバー上のAIが24時間常時、バックグラウンドで検索し続け、条件を満たす情報が見つかった瞬間に通知する機能が追加される。こちらは有料プラン契約者向けとなるが、同様にバックグラウンドで動作するGemini Spark(こちらは個人情報とも統合される)がGoogle AI Ultra以上向けに対し、こちらはGoogle AI Pro以上向けに提供される。提供開始は今夏予定となる。

 さらに検索結果としてAIがその場でインタラクティブなアプリを書き出す、という「ジェネレーティブUI」という機能が追加される。基調講演のデモンストレーションでは、「ブラックホールが衝突したときの重力波を教えて」と検索すると、テキストの解説だけでなく、自分でパラメータを操作するとリアルタイムで変化する重力の強さを表現した3Dグラフを生成していた。こちらは今夏から提供予定で、全ユーザーに解放される。

 さらにオンラインショッピングのサポート機能が強化される。まず複数のショップの商品を横断して管理できる、ユニバーサルカート機能が提供される。商品選びもGeminiがサポートし、たとえば自作パソコンのパーツを購入する際、選んだCPUとマザーボードの互換性をチェックして問題があれば代替案を提示する、といったことが可能となる。さらに提携ECサイトであれば決済もサポートされる。こちらの機能は今夏、主に英語圏の国からスタートする。

スマートグラスの商品化も発表

 これまでのGoogle I/Oではコンセプトモデルのみが公開されていたスマートグラス製品について、商品化の予定が発表された。これはGoogle、サムスン、クアルコムが共同開発しているスマートグラスで、商品化が発表されたモデルはディスプレイは搭載せず、カメラとオーディオを搭載する「オーディオ・グラス」になる。

 発売時期は2026年秋を予定しているが、詳細なスペックや価格、販売エリアについては発表されていない。サムスンの製品でもあるので、サムスンの発表会で詳細が発表されると予想される。

 レンズ内に小型ディスプレイを内蔵する「ディスプレイ・グラス」も開発中で、そちらは年内にテスタープログラムを拡大する際、追加情報が公開される予定。

 デザインとしては、アイウェアブランドのWarby ParkerとGentle Monsterと協業している。スマートフォンとペアリングして利用するが、AndroidスマートフォンとiPhoneのどちらとも連携できる。

 このスマートグラス製品では、主に音声を使ってGeminiやスマートグラス自体をコントロールできる。ウェイクワードにも対応し、ハンズフリーで「Gemini、写真を撮って」などと命令できる。返答を音声で聞いたり、通話や音楽を聞いたりもできる。

 カメラは写真や動画の撮影以外にも、生成AIでも利用できる。典型的な使い方としては、眼の前にある文字を翻訳したり、なにかわからないものを聞いたりできる。ただしプライバシー保護の観点から、カメラが稼働状態であることを示すインジケーターライトが実装されている可能性が高い。

 基調講演のデモンストレーションでは、音声コマンドでスマートフォン上のGeminiに命令し、スマートフォンアプリ(DoorDash)をGeminiに自動操作させてコーヒーをモバイルオーダーしていた。こちらの機能は「Gemini Intelligence」という機能で、今夏ごろからGoogle Pixel 10シリーズやサムスンGalaxy S26シリーズなどに提供される機能だ。音声インターフェイスがあれば利用できる機能なので、スマートグラス以外にもPixel Budsなどでも利用できる。

 ただしスマートグラスにはカメラが搭載されていることが大きな違いとなる。たとえば店の眼の前にいるとき、スマートグラスであれば店の看板を前にして「このお店でカフェラテをモバイルオーダーして」というようなマルチモーダルな入力が可能となる。