ニュース

大規模言語モデルが“目”を持つとどうなる？　グーグルによるデモの内容は

島田純

2023年8月26日 10:00

　米グーグルは、大規模言語モデル（LLM）が、人間で言うところの視覚を備えるようになったらどうなるか、大規模視覚モデル（VLM）のデモを公開した。

　グーグルが公開したデモは、フリマアプリ「メルカリ」の580万件の商品画像をデモ用に取り込んだあと、「Vertex AI Multimodal Embeddings」に受け渡しして、埋め込まれている情報を抽出して検索用のインデックスを構築している。

　デモでは、メルカリの商品検索で任意のテキストを入力してアイテムを検索している。たとえば、「黒と白のビーズを使ったハンドメイドアクセサリー」という検索クエリを入力すると、580万点のメルカリの商品から、検索結果が直ちに表示されている。

「黒と白のビーズを使ったハンドメイドアクセサリー」で検索

　このデモでは、商品のタイトルや説明文、タグなどは一切検索インデックスとして使わずに、VLMで商品画像のみを参照し検索しているという。

　グーグルは、Google Cloudで今月はじめに「Vertex AI Multimodal Embeddings」の一般提供を開始した。このプロダクトは、Google Researchチームによって開発された「Contrastive Captioner（CoCa）」と呼ばれるVLMを使用している。

　このVLMを一言で言うと、画像やテキストを見てその意味を理解するモデルである。たとえば、「Cups with dancing people」のクエリーを、CoCaが画像中のオブジェクトがカップであることを理解した上で、カップの側面に踊る人々が描かれていると認識している。

「Cups with dancing people」の検索結果

　グーグルによると、今回のデモで表示された検索結果は、メルカリで利用可能な実際のデータであり、テキスト、要約、画像などを人力で追加していない。

　その結果、LLMの予期しない動作を心配することなく、すぐに本番環境にデプロイできるという。また、検索結果は数十ミリ秒以内に返されるため、テキスト生成が遅くなったり、コストが異常に高くなったりする心配はない。

類似する画像やテキストを識別する方法

　ディープラーニングモデルの最も強力な用途の一つに、テキスト、画像、音声などの意味を地図化したエンベディングスペースの構築がある。たとえば、画像モデルでは類似した外観と意味を持つ画像は、エンベディングスペースで近くに配置される。

　このモデルでは、画像をスペースに埋め込んでいくことで、この近くに配置されている画像は同様の外観と意味をもつ他の画像が位置づけされる。これが、類似した画像検索の仕組みである。

画像の意味づけのイメージ

　同様に、ディープラーニングモデルでは、画像とテキストをペアにしてトレーニングするように設計できる。

　以下のアニメーションは、こうしたモデルがどのようにトレーニングされるかを示している。このモデルには、画像の埋め込みを取得するモデル、テキストの埋め込みを取得するモデル、テキストと画像の関係を学習するモデルの3つのサブモデルがある。これは、LLMに視覚機能を持たせることに近い。

モデルのトレーニングイメージ

　これにより、画像とテキストに対して意味に基づき組織化されたエンベディングスペースを構築できるVLMができあがる。このエンベディングスペースでは、同じような意味を持つ画像やテキストは近くに配置されるため、テキストに基づいて画像を検索したり、画像に基づいてテキストを検索したりできる。これは、Google検索が画像とテキストを横断して関連する基本的な考え方である。

テキストから画像検索のイメージ

　最近の大規模VLMは、画像とテキストを横断的に検索するだけでなく、業界固有のデータセットを収集する労力や追加のチューニングやトレーニングなしに、さまざまなユースケースにあわせてそれらを専門的に整理する司書レベルに達している。これは、従来の画像のみのディープラーニングモデルではほとんど不可能であった。

VLMが世界をどのように認識・識別するのか

　Nomic AIとGoogleは、VLMが世界をどのように識別するのかを可視化したデモを作成した。このデモでは、ネコ、キリン、ガネーシャ像、クマ、ゾウなどの動物の置物やぬいぐるみを、VLMが理解する方法が垣間見られる。

VLMのマッピングイメージ

　こうした作業により、「Googleロゴの色のカップ」と検索すると、モデルはGoogleのロゴの色と、どの画像にその色が含まれているかを、明示的な学習なしで識別できる。

「Googleロゴ色のカップ」を検索

　また、OCR処理を必要とせずに、画像に含まれるテキストを直接読み取れる。

「It's my birthdayと書かれたTシャツ」を検索

VLMがビジネスにもたらす影響

　優秀なマルチモーダル検索により、幅広いビジネスでキーワード検索をはるかに凌ぐユーザー体験が可能になる。

　eコマースやマーケットプレイスでは、販売者が売りたい商品の画像をアップロードすると、サービス側で同じカテゴリーやブランド、似たような色やスタイルの既存アイテムを検索できる。

　「Vertex AI PaLM API」を使うと、サービス側でアイテム名、商品説明、販売価格を生成して提案できる。これにより、出品者の出品作業に必要な労力が削減できる。また、購入者は自然言語でテキストクエリを入力するだけで、正確なアイテム名でなくても商品を見つけ出せる。

　防犯カメラの分野でも、現場に多数のカメラが設置されており膨大な量の映像を受信していても「ドアを開けようとしている人」、「工場に水が浸水している」、「機械が燃えている」などのテキストに一致する画像を監視できる。

「機械が燃えている画像」を検索（イメージ）

　自動運転を取り入れる自動車メーカーは、「赤信号の横断歩道に立つ歩行者」や、「高速道路の真ん中に故障車が停車している」などの複雑なクエリ条件を使い、これらの画像を素早く整理して見つけだすことで、生産性が大幅に向上するという。

Google Cloudのマルチモーダル検索

　Google Cloudでは現在、マルチモーダル検索で4つのオプションを提供している。

　1つめは、WebサイトやPDFファイルなどが対象の「Gen App Builder - Enterprise Search」、2つめは動画や画像を含むデータが対象となる「Vertex AI Vision Warehouse」、3つめはデータベースや表形式のデータに適した「Vertex AI Multimodal Embeddings」と「Enterprise Search」の組み合わせ、4つめは「Multimodal Embeddings」と「Vertex AI Matching Engine」の組み合わせで、メルカリの例で紹介した画像やテキストを検索できる。

Google Cloud マルチモーダル検索の4つのオプション

ケータイ Watchをフォローして最新記事をチェック！
Follow @ktai_watch