ニュース

OpenAIの新モデル「GPT-5」発表、全てのユーザーが利用可

ハルシネーションの大幅減少、過度な迎合表現を抑制

 米OpenAIは、AIモデル「GPT-5」を正式に発表した。同社は、「GPT-5」が史上最も賢く、最速で、最も役立つモデルであるとアピールしている。

 「GPT-5」は、ChatGPTを利用する全てのユーザーが利用でき、有料プランの「Plus」ユーザーはより多くの利用枠を、「Pro」ユーザーは、拡張推論によってさらに包括的かつ正確な回答が可能な「GPT-5 Pro」が提供される。

高速応答用モデルと、複雑問題用モデル

 「GPT-5」は、高速かつ効率的に幅広い質問に回答できる高速応答用モデルと、より複雑な問題に対して回答する複雑問題用モデル(GPT‑5 thinking)の2つのモデルと、ルーター機能で構成される。

 2つのモデルのどちらを使うべきか、会話の種類や複雑さ、ユーザーの意図を汲み取って切り替えする。ルーター機能は、モデル切り替えのタイミングや回答満足度、正確性などのユーザーの利用データを学習して精度を向上させる。

 なお、2つのモデルの使用上限に達すると、各モデルのmini版が質問に回答する。これらの機能は、将来的に1つのモデルに統合が計画されている。

ハルシネーションの大幅な低減

 「GPT-5」は、事実ではない内容や根拠のない情報をもっともらしく生成して回答してしまう、ハルシネーションが大幅に低減されているほか、指示遵守能力の改善、迎合的な回答の抑制で大きく進歩している。これらの進歩により、ChatGPTでよく使われる、文章作成、コーディング、ヘルスケアの3つの分野でのパフォーマンスが大きく向上している。

 ハルシネーションについては、ChatGPTの実際のトラフィックを模したプロンプトで、GPT‑4o と比べて事実誤認が約20%少なく、thinkingモードでは「OpenAI o3」と比較して約70%減少した。

 ハルシネーションの減少に加えて、「GPT-5」のthinkingモードは、モデルの動作や能力の限界について、ユーザーに正直に伝えるようになった。特に、実行不可能なタスクや、前提条件が不足しているタスク、必要なツールが欠けているタスクで改善が見られる。

 たとえば、マルチモーダルベンチマークの CharXiv のプロンプトから画像をすべて削除してテストすると、「OpenAI o3」では、存在しない画像も86.7%の確率で自信があるように回答したが、新モデルでは9%にとどまったという。

コーディング

 コーディングでは、1つのプロンプトからボールミニゲーム、ピクセルアート、タイピングゲーム、ドラムシミュレーターなどのアプリケーションが作成できる。

 たとえば、タイピング練習アプリをコーディングするためのプロンプトとして、以下の例が示されている。

次の要件を満たす単一 HTML ファイルのシングルページアプリを作成してください:
- 名前:タイピングスピードレース
- 目的:時間制限付きタイピングチャレンジで WPM と正確性を測定する。
- 機能:ランダム文章生成、エラーのハイライト、リアルタイム WPM 表示、カウントダウンアニメーション、履歴チャート。
- UI はクリーンで、高コントラストのテキストと大きなタイピングエリアを備えること。

ヘルスケア

 ヘルスケア関連では、ユーザーが自分の健康について十分な情報を得て、主体的に意思決定ができることを「GPT-5」が支援する。このモデルは、現実に即したシナリオと医師が定義した評価基準を用いて公開されたベンチマークHealthBenchにおいて、従来モデルよりも大幅に高いスコアを記録したという。

 しかしながら、ChatGPTは医療専門家の代替ではないため、検査結果を理解するのを助けたり、治療方針を検討したりするパートナーとして活用してほしいという。

ベンチマーク結果

 「GPT-5」は、数学、コーディング、視覚認識、医療などの分野で大幅に賢くなっており、これらの結果は学術評価ベンチマークと、人手評価ベンチマークの両方で示される。

 数学分野では、米国の高校生向け数学競技「AIME 2025」で94.6%(ツールなし)を記録し、コーディングではソフトウェア評価のSWE-benchで74.9%、Aider-Polyglot で88%を記録した。

「AIME 2025」のベンチマーク

 また、マルチモーダル理解ではMMMUで84.2%、医療関連ではHealthBench Hardで46.2%を記録した。これらはいずれも最高水準であるうえ、「GPT-5 Pro」の拡張推論は、大学院レベルの高度な専門課題のベンチマークGPQAにおいて、88.4%を達成した。

医療関連のベンチマーク
ソフトウェア評価のベンチマーク

高速化

 「GPT-5」では、より短い思考時間で適切な回答を行えるようになった。同社の評価では、「GPT‑5 thinking」は視覚的推論、エージェント型コーディング、大学院レベルの科学的問題解決など能力全般で、「OpenAI o3」との比較で出力トークンを50~80%削減しつつ、高い性能を発揮した。