ニュース

OpenAI、「ChatGPT Images」公開 生成速度は4倍に文字描画も進化

 OpenAIは、ChatGPTにおける新しい画像生成インターフェイス「ChatGPT Images」と、最新の画像生成モデル「GPT Image 1.5」を発表した。デスクトップ、モバイル、Webの全プラットフォームで順次提供を開始する。

 新モデルは生成速度が最大4倍に高速化したほか、テキストの描画能力や、既存画像の特徴を維持したまま編集する能力が大幅に向上している。

最大4倍の高速化と空間認識能力の向上

 新モデルは、プロンプトへの追従性と生成効率が強化されている。主な特徴として、従来のモデルと比較して最大4倍の速度で画像を生成できる点が挙げられる。これにより、ユーザーは試行錯誤のサイクルをより速く回すことが可能となる。

 また、空間的な推論能力も改善された。OpenAIが公開した事例では、「6×6のグリッド」を描画し、その特定のマス目に「茶色のブーツ」「ロボット」といった異なるオブジェクトを正確に配置するタスクにおいて、前モデルよりも正確な描写を実現している。

新モデル
前モデル

照明・構図・人物像を維持した高度な編集

 「GPT Image 1.5」の最大の特徴は、アップロードした画像や生成済み画像に対する編集精度の高さにある。従来、AIによる画像編集では、一部を修正しようとすると全体の雰囲気が変わってしまう課題があった。

 新モデルでは、元の画像が持つ「照明」「構図」「被写体のアイデンティティ(人物の特徴など)」を維持したまま、要素の追加、削除、結合、ブレンドが可能となる。

 ブログでは例として、サム・アルトマンCEOの写真を「1980年代のVHSフィットネスインストラクター」風に変換した画像が掲載されており、80年代風の画質を再現しつつ、顔の特徴や全体的な雰囲気が保たれている様子が示されている。

編集前
編集後

テキスト描画とMarkdown対応

 さらに画像内への文字入れ(テキストレンダリング)性能も強化された。

 高密度なテキスト情報の配置が可能になったほか、Markdown形式での記述にも対応する。これにより、インフォグラフィックの作成や、ポスターデザインなど、文字情報を正確に反映させる必要があるクリエイティブ作業での実用性が高まっている。

画像専用ホーム「ChatGPT Images」

 機能刷新に伴い、ChatGPT内に画像生成・編集に特化した新しいインターフェース「ChatGPT Images」が新設された。ここでは、ユーザーがゼロからプロンプトを考える負担を軽減するため、インスピレーションを得られるテンプレート機能などが提供される。

 開発者向けにはAPIも公開され、外部アプリケーションから「GPT Image 1.5」の機能を利用できる。画像の入出力コストがGPT Image 1と比較して20%削減されたため、同じ予算でより多くの画像を生成・反復処理ができるようになる。