ニュース

グーグル「Gemma 4 12B」発表、メモリー16GBで動作するAIモデル

 米グーグル(Google)は現地時間3日、最新のAIモデル「Gemma 4 12B」を発表した。ノートパソコンでのオンデバイス動作に向けて設計されており、ネイティブオーディオ入力を搭載した初のミドルサイズモデルとなる。LM StudioやOllamaなどで試用できる。

ベンチマーク性能は26B MoEモデルに匹敵

 「Gemma 4 12B」は、端末でのエッジ処理に向けた軽量なE4Bと、高度な26B MoE(Mixture of Experts)の中間に位置するモデル。エージェント型のマルチモーダル対応AIを、ノートパソコンに直接搭載するために設計された。

 「Gemma 4 12B」は26B MoEモデルに迫るベンチマーク性能でありながら、16GBのVRAM(ビデオメモリー)またはRAM(メモリー)を搭載した端末で動作するという。

エンコーダーレスのマルチモーダル設計

 「Gemma 4 12B」は視覚入力や音声入力をネイティブに処理できる、新しいマルチモーダル設計であることも特徴。

 従来のマルチモーダルモデルでは、画像と音声を別々のエンコーダーで変換してから言語モデルに渡すのが一般的だった。しかし、エンコーダーの分割は遅延やメモリー使用量の増加につながる。

 「Gemma 4 12B」では、エンコーダー不要の設計を採用し、音声入力と視覚入力をネイティブに処理するよう学習させたという。

【Gemma 4 12Bデモ:Google AI Edgeにおけるネイティブ音声処理の活用】

 視覚入力については、Gemma 4のビジョンエンコーダーを、単一の行列乗算、位置埋め込み、および正規化からなる軽量埋め込みモジュールに置き換えた。これにより、LLMバックボーンが視覚処理を引き継げるようになった。

 また、音声入力については、音声エンコーダーを削除し、生の音声信号をテキストトークンと同じ次元空間に投影した。