ニュース

グーグル、次世代AIモデル「Gemini 1.5」発表

40分超の動画から「あのシーンは?」を1分以内に返答

 米Google(グーグル)は、次世代のAIモデル「Gemini 1.5」を発表した。

 Googleは2月に入って、チャット形式の生成AI「Bard」を「Gemini」に刷新したほか、サポートする全ての言語で(先週時点での)最新モデルの「Gemini Pro」に対応するなど、AI関連のアップデートを頻繁に行っている。

 今回Googleが公開した「Gemini 1.5 Pro」では、より少ない計算量で「Gemini 1.0 Ultra」と同等のクオリティを担保するという。「Gemini 1.5 Pro」は、長文の理解で画期的な進歩を実現しており、最大で100万のトークンを継続的に処理できるなど、扱える情報量が大幅に増加している。また、これまでの大規模基盤モデルの中で、最長のコンテキストウィンドウを実現している。

Gemini 1.5 Proの概要

 初期テスト用に公開されるAIモデルは「Gemini 1.5 Pro」で、中規模のマルチモーダルモデルで幅広いタスクにわたるスケーリングに最適化され、「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮するという。また、長文の文脈理解に関する試験運用機能も導入される。

 「Gemini 1.5 Pro」は、12万8000トークンのコンテキストウィンドウが標準で付属するが、一部の開発者と顧客向けには、「AI Studio」と「Vertex AI」より、プレビュー版として最大100万トークンのコンテキストウィンドウが試せる。100万トークンのコンテキストウィンドウは計算量が多くなるため最適化が必要だが、規模拡大に向けて取り組んでいるという。

 AIモデルの「コンテキストウィンドウ」は、情報処理の構成要素であるトークンで構成され、トークンは単語、画像、動画、音声、コードの全体または一部にできる。コンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。

 一連の機械学習を通じて、Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の3万2000トークンから大幅に増加し、現在では最大100万個のトークンを実行できる。これは、Gemini 1.5 Proが1時間の動画、11時間の音声、3万行以上のコードまたは70万文字以上のコードなど、膨大な量の情報を一度に処理できることを表している。また、研究では最大で1000万個のトークンのテストにも成功している。

長文レポートに含まれる文脈も正しく理解

 Gemini 1.5 Proでは、特定のプロンプト内のコンテンツを分析、分類、要約できる。たとえば、アポロ11号の月面着陸に関する402ページにわたるPDFには、約33万のトークンが含まれており、記録に残される会話、できごと、画像などの詳細について推論できる。

 Googleが公開したデモでは、アポロ11号の記録文章をGoogle AI Studioにアップロードして「この記録から、笑える場面を3つ引用して絵文字を加えて説明して」とプロンプトを入力すると、アポロ11号の月面着陸時のミッションで、マイケル・コリンズ宇宙飛行士が「あなた(の成功)にコーヒー1杯をかける」とした発言を抽出した。

【Gemini 1.5 Proがアポロ11号の月面着陸に関する記録を分析するデモ】

 また、人の足が月面を歩くようなイラストを描き「これは何の瞬間か?」と尋ねると、それがニール・アームストロング宇宙飛行士の月面への最初の一歩を表すイラストであることを正確に識別した。このイラストでは、何が起きているのかの詳細について文字などでの説明は加えていない。

 最後に、このイラストのタイムコードについて質問すると、正確なタイムコードを応答する例がデモで紹介されている。

映画の「こういうシーン無かった?」をすぐに回答

 このほか、バスター・キートンの44分間の映画(動画)に含まれる約70万のトークンを分析する例では、Google AI Studioに動画をアップロードして「人のポケットから紙が取り出される瞬間を見つけ、そこに書かれている重要な情報とそのタイムコードを教えて」と入力すると、デモでは1分以内に「紙切れは質屋の質札で、上映開始から12分1秒に出てくる」という答えが出力されている。Gemini 1.5 Proの応答は正確で、実際に映画を確認すると、ポケットから取り出された紙切れが質札であることが確認できる。

 また、貯水タンクから落ちてくる水が頭から人にかかるイラストを描いて「これが起きた時のタイムコードを教えて」と入力すると、イラストの意味や内容を正しく理解し、1分以内にタイムコード「15分34秒」と答えた。実際に映画を確認すると、これが正しいタイムコードと確認できる。

【Gemini 1.5 Proが映画の内容を分析・理解するデモ】

 テキスト、コード、画像、音声、動画の包括的なテストでは、Gemini 1.5 Proは、大規模言語モデルの開発に使われるベンチマークの87%で、Gemini 1.0 Proを上回った。また、同じベンチマークでGemini 1.0 Ultraと比較すると、ほぼ同様のパフォーマンスを発揮する。

 また、Gemini 1.5 Proは優れた「インコンテキスト学習」の能力も備え、追加のチューニングを必要とせずに、長いプロンプトで提供される情報から新しいスキルを学習できる。このスキルについて、MTOB(Machine Translation from One Book)ベンチマークでテストをすると、世界中で話者が200人未満のカラマン言語のマニュアルを与えると、モデルは同じ内容を学習している人と同様のレベルで、英語をカラマン語に翻訳することを学習したという。

 Googleは、既に発表済みのAI原則と安全ポリシーに基づき、AIモデルに広範な倫理テストと安全性のテストを実施している。