ニュース

OpenAIが「GPT-5.5」提供開始

 OpenAIは、AIモデル「GPT-5.5」を提供開始した。

 本日より、ChatGPTおよびCodexのPlus、Pro、Business、Enterpriseユーザーは「GPT-5.5」を、Pro、Business、Enterpriseユーザーは「GPT-5.5 Pro」を利用できるようになる。

 同モデルは、ユーザーが何をしようとしているのか、その目的を従来モデルよりも早く理解し、より多くの作業を自律的に実行できるという。

 たとえば、プログラムのコーディングやデバッグ、オンライン調査、データ分析、文章やスプレッドシートの作成、ソフトウェアの操作など、タスクが完了するまで複数のツールを横断して作業できる。

 全ての作業工程を注意深く管理する必要はなく、「GPT-5.5」が自ら計画を立ててツールを使って作業を行い、曖昧さへの対応を行いながら作業を遂行するという。「GPT-5.5」は特にエージェント的なコーディング、コンピュータの操作、初期の科学研究における性能向上が顕著にみられる。

「GPT-5.5」と他モデルの性能比較

 安全面では、これまでで最も強力なセーフガードを備えてリリースされる。一般公開前に、約200社の信頼できる早期アクセスパートナーから実際のユースケースに基づいたフィードバックを収集した。

「GPT-5.5」の機能

 「GPT-5.5」は、「GPT-5.4」と同等のトークンあたりのレイテンシを維持しながら、はるかに高いレベルの性能を発揮できる。また、Codexで同一タスクを完了するために必要なトークンやリトライ数を大幅に削減しており、高性能な上に効率も改善している。

 外部機関により実行された10の評価を加重平均して算出する人工知能分析指数(Artificial Analysis Intelligence Index)でも優れた結果を示した。

人工知能分析指数

エージェント型コーディング

 「GPT-5.5」は、計画、反復、ツール調整が必要な複雑なテスト「Terminal-Bench 2.0」で82.7%を記録し、他モデルより優れた結果を記録した。また、GitHubの実際の課題の解決能力を評価する「SWE-Bench Pro」は約58.6%で、過去のモデルよりも多くのタスクを1回で完結した。

「Terminal-Bench 2.0」のスコア

 「Expert-SWE」は、人間が完了するまで平均20時間を要すると推定される超長期のコーディングタスクを評価するOpenAI社内の指標であり、この指標でも「GPT-5.5」は「GPT-5.4」を上回るパフォーマンスを示した。

「Expert-SWE」のスコア

 これら3つの指標すべてにおいて、「GPT-5.5」は「GPT-5.4」を上回るだけでなく、より少ないトークン数で処理を完了した。

知的労働

 「GPT-5.5」は、ユーザーの意図を理解する能力が高いため、情報の検索、重要事項の把握、ツールの使用、出力結果の検証といった一連のサイクルを、より自然に完了できる。

 Codexでは、「GPT-5.5」は文章、スプレッドシート、スライド資料の作成において「GPT-5.4」を上回った。アルファテスターは、オペレーションズ・リサーチ、スプレッドシートのモデリングなどの業務で、これまでのAIモデルを凌駕したと報告している。

 OpenAIは、社内で既に「GPT-5.5」を実際の業務フローに取り入れている。たとえば、広報チームでは「Codex」内の「GPT-5.5」を使用して過去6カ月の登壇依頼データを検証し、スコアリングとリスク評価、さらにSlackエージェントによる自動化を構築した。これにより、低リスクな登壇依頼は自動処理した上でリスクが高いと判断された案件のみスタッフが確認する体制を実現している。

 財務チームでは、合計7万1637ページにおよぶ2万4771件の税務申告用書類のレビューに「Codex」を活用している。個人情報を除外するワークフローを適用し、前年比で2週間の作業短縮に成功したという。

 推論能力を高めた「GPT-5.5 Thinking」は、より複雑で難しい問題に対してより速い解決策を提示し、スマートで簡潔な回答によって複雑な業務を効率的に進めることができる。

 初期テスターは、「GPT-5.5 Pro」によってChatGPTが処理できる作業の難易度と品質が大幅に改善したと報告している。また、レイテンシー(遅延)の改善により、要求の厳しいタスクもより実用的に行えるようになった。

 「GPT-5.4 Pro」との比較では、新モデルの方がより包括的かつ構造化された、正確で有用と評価される。特に、ビジネス、法律、教育、データサイエンスの分野で優れたパフォーマンスを発揮できるという。

 「GPT-5.5」は、44の職業における実務能力を測るベンチマーク「GDPval」で84.9%のスコアを記録した。

「GDPval」のスコア

 AIモデルが実際のコンピュータを単独で操作できるかを測定する「OSWorld-Verified」のスコアは78.7%で、複雑な顧客サービスワークフローをテストする「Tau2-bench Telecom」では、チューニングなしで98.0%を記録した。

「OSWorld-Verified」のスコア
「Tau2-bench Telecom」のスコア

 このほかの指標では、「FinanceAgent」は60.0%、「OfficeQA」では54.1%に達した。

科学研究

 「GPT-5.5」は、難しい問題に答えるだけでなく、より複雑なプロセスを必要とする科学技術の研究においても、優れた性能を発揮する。

 特に注目すべき点として、遺伝子および定量的生物学における多段階の科学データ分析に焦点を当てた評価ツール「GeneBench」で、「GPT-5.4」を明確に上回る性能を示した。

 この課題では、最小限の指示で曖昧さや誤りを含む可能性のあるデータについて推論し、品質管理の失敗などの現実の障害に対処しながら、最新の統計手法を正しく実装・解釈することが求められる。

「GeneBench」のスコア

 同様に、「BixBench」では、スコアが公開されているAIモデルの中で最高の性能を達成した。OpenAIによると、このモデルの科学的能力は、共同研究者として生物医学研究の最前線の進化をサポートするのに十分なレベルに達しているという。

「BixBench⁠」のスコア

推論効率

 「GPT-5.5」を「GPT-5.4」と同等のレイテンシで提供するには、推論を個別の最適化の集合ではなく、統合システムとして捉え直す必要があった。

 「GPT-5.5」は、「NVIDIA GB200」および「NVIDIA GB300 NVL72」システム向けに共同設計された。

 「GPT-5.5」より前のモデルでは、アクセラレータ上のリクエストを、決まった数のチャンクに分割してコンピューティングコア間で処理を分散させ、大小さまざまなリクエストを同じGPUで実行できるようにしていた。しかし、決まった数のチャンクに分割すると、全てのトラフィックパターンで最適にならないという課題があった。

 GPUをより効果的に使用するため、「Codex」は数週間分の本番トラフィックパターンを分析し、最適な処理分散と負荷分散を行うための独自アルゴリズムを開発した。これにより、トークン生成速度を20%以上改善したという。