ニュース

OpenAI、AIがブラウザを操作できる「Operator」を発表

 OpenAIは、ブラウザを操作できるAIエージェント「Operator」を発表した。

 Operatorは、「Computer-Using Agent(CUA)」と呼ばれるAIモデルを活用する。CUAは、GPT-4oの視覚機能と強化学習による推論機能を組み合わせたモデル。ボタンやメニュー、テキストフィールドなどのグラフィカルユーザーインターフェース(GUI)の操作が可能で、OSやWebに固有のAPIを使用せずにタスクを実行できる。

 また、高度なGUI認識能力と体系的な問題解決能力が組み合わされており、タスクの分割や、問題発生時には自己修正を実施する。コンピューター上のスクリーンショットを解析し、次の動作を予測するしくみ。人間の操作が必要と判断するまで、クリックやスクロールなどを自動的に進める。何らかのサービスにログインする際、あるいはCAPTCHAへの応答は人間側に確認を求める。

 操作する際には、プロンプト(命令)をテキストで入力する。たとえばセミナーの講義をダウンロードする際には、「〇〇を学びたい。友人から教えてもらった講義のスライドから、他の週のPDFをダウンロードして」などと指示する。ほかには、「○○という商品が欲しい。セール価格で販売されているか確認して」などの指示も可能。コンピュータを使用するタスクではOSWorldで38.1%の成功率、WebベースのタスクではWebArenaで58.1%、WebVoyagerで87%の成功率が確認された。

 まずは米国の「ChatGPT Pro」ユーザー向けにリサーチプレビューが開始され、フィードバックが収集される。