ニュース

Google、「Gemini 3 Flash」の新機能「Agentic Vision」を提供

 Googleは、AIモデル「Gemini 3 Flash」の新機能として、視覚情報の推論とPythonコードの実行を組み合わせた「Agentic Vision」を提供開始した。

 「Agentic Vision」は、画像理解を「能動的な調査」として扱うもの。モデルは提示された画像に対し、「考える(プラン策定)」、「動く(コード生成・実行)」、「観察する(変換後の画像を確認)」というループを自律的に繰り返すことで、視覚的な証拠に基づいた回答を導き出すという。

 この機能により、コード実行を有効にした環境下では、ほとんどのビジョンベンチマークで5~10%の品質向上が実現するとうたう。

Agentic Visionの主な機能

 Agentic Visionの導入により主に3つの機能が利用できるようになった。1つ目の「ズームと検査」は、画像内の微細な詳細を検出する際、モデルが自律的に特定の範囲を切り取り、拡大画像として再分析するもの。

 2つ目の「画像注釈」は、識別した対象に境界ボックスやラベルをPythonで直接描き込むもの。たとえば、手の指を数える際に各指に番号を振ることで、推論の根拠を視覚的に固定し、数え間違いを防ぐとのこと。

 3つ目の「視覚的な計算とプロット」は、 画像内のテーブルデータを解析し、Matplotlib棒グラフを生成するもの。

 同社によると、今後は画像の回転や計算といった動作もユーザーの指示なしに暗黙的に実行できるように取り組んでいるとのこと。また、Web検索や逆画像検索といったツールとの連携、Flash以外のモデルサイズへの展開も予定されている。

 Agentic Visionは、Google AI StudioおよびVertex AIのGemini API経由で利用できる。Geminiアプリにおいても、モデル選択から「Thinking」を指定することで順次利用可能となる。