ニュース
Google、「Gemini 3 Flash」の新機能「Agentic Vision」を提供
2026年1月28日 19:24
Googleは、AIモデル「Gemini 3 Flash」の新機能として、視覚情報の推論とPythonコードの実行を組み合わせた「Agentic Vision」を提供開始した。
「Agentic Vision」は、画像理解を「能動的な調査」として扱うもの。モデルは提示された画像に対し、「考える(プラン策定)」、「動く(コード生成・実行)」、「観察する(変換後の画像を確認)」というループを自律的に繰り返すことで、視覚的な証拠に基づいた回答を導き出すという。
この機能により、コード実行を有効にした環境下では、ほとんどのビジョンベンチマークで5~10%の品質向上が実現するとうたう。
Agentic Visionの主な機能
Agentic Visionの導入により主に3つの機能が利用できるようになった。1つ目の「ズームと検査」は、画像内の微細な詳細を検出する際、モデルが自律的に特定の範囲を切り取り、拡大画像として再分析するもの。
2つ目の「画像注釈」は、識別した対象に境界ボックスやラベルをPythonで直接描き込むもの。たとえば、手の指を数える際に各指に番号を振ることで、推論の根拠を視覚的に固定し、数え間違いを防ぐとのこと。
3つ目の「視覚的な計算とプロット」は、 画像内のテーブルデータを解析し、Matplotlib棒グラフを生成するもの。
同社によると、今後は画像の回転や計算といった動作もユーザーの指示なしに暗黙的に実行できるように取り組んでいるとのこと。また、Web検索や逆画像検索といったツールとの連携、Flash以外のモデルサイズへの展開も予定されている。
Agentic Visionは、Google AI StudioおよびVertex AIのGemini API経由で利用できる。Geminiアプリにおいても、モデル選択から「Thinking」を指定することで順次利用可能となる。





