ニュース

OpenAI、AIがブラウザを操作できる「Operator」を発表

鈴木妙

2025年1月28日 06:00

　OpenAIは、ブラウザを操作できるAIエージェント「Operator」を発表した。

　Operatorは、「Computer-Using Agent（CUA）」と呼ばれるAIモデルを活用する。CUAは、GPT-4oの視覚機能と強化学習による推論機能を組み合わせたモデル。ボタンやメニュー、テキストフィールドなどのグラフィカルユーザーインターフェース（GUI）の操作が可能で、OSやWebに固有のAPIを使用せずにタスクを実行できる。

　また、高度なGUI認識能力と体系的な問題解決能力が組み合わされており、タスクの分割や、問題発生時には自己修正を実施する。コンピューター上のスクリーンショットを解析し、次の動作を予測するしくみ。人間の操作が必要と判断するまで、クリックやスクロールなどを自動的に進める。何らかのサービスにログインする際、あるいはCAPTCHAへの応答は人間側に確認を求める。

　操作する際には、プロンプト（命令）をテキストで入力する。たとえばセミナーの講義をダウンロードする際には、「〇〇を学びたい。友人から教えてもらった講義のスライドから、他の週のPDFをダウンロードして」などと指示する。ほかには、「○○という商品が欲しい。セール価格で販売されているか確認して」などの指示も可能。コンピュータを使用するタスクではOSWorldで38.1％の成功率、WebベースのタスクではWebArenaで58.1％、WebVoyagerで87％の成功率が確認された。

　まずは米国の「ChatGPT Pro」ユーザー向けにリサーチプレビューが開始され、フィードバックが収集される。