OpenAI、ブラウザ操作エージェント「Operator」をo3ベースに刷新 操作精度と成功率が大幅向上

2025年5月23日、米OpenAIは、AIエージェント「Operator」の基盤モデルを「GPT-4o」から「o3」に刷新したと発表した。
ブラウザ上で人間のように操作を代行する本機能の精度が高まり、タスク成功率や回答の明瞭性が向上するという。
OpenAI、ブラウザ操作型AI「Operator」をo3に強化
OpenAIが提供するブラウザ操作型AIエージェント「Operator」は、Webページ上でのクリックや入力などを人間の代わりに実行できる自律型エージェントである。
2025年1月に「Computer Using Agent(CUA※)」として研究プレビューが始まり、これまでGPT-4oを基盤としていたが、今回新たに「o3」モデルへ移行された。
「o3」ベースへの強化により、ブラウザ上の操作の正確性が増し、エージェントによるタスクの成功率も向上。さらに、ユーザーへの返答がより明確で構造化されるようになったという。
OperatorはOpenAIが提供する月額200ドルの「ChatGPT Pro」ユーザーを対象に提供されている。
なお、OperatorはWeb操作に特化した設計であり、ターミナルやコーディング環境へのネイティブアクセス機能は備えていない。
※CUA(Computer Using Agent):ユーザーの代わりにWebブラウザを操作するAIエージェントのこと。タイプ入力やクリック、スクロールといった人間の行動を模倣してタスクを実行する。
生成AIの実用フェーズが加速 業務代行から汎用エージェントへ進化
Operatorの精度向上は、AIエージェントの社会実装における重要な前進といえる。
従来のチャットベースのAI支援では対応できなかった、複雑なWebフォームの操作や多段階にわたる情報取得などが、人間に近い自然な操作で再現可能になった点は大きい。
今後は、オンラインでの業務代行やカスタマーサポート、データ取得など、より実用的な領域への応用が期待される。
一方で、操作の透明性やセキュリティへの配慮も不可欠であり、誤操作や悪用リスクへの対策が求められるフェーズに入ったとも言える。
OpenAIはこれまで、音声・画像・コードのマルチモーダル対応を推進してきたが、今回のブラウザ操作エージェントの進化により、「実際に行動するAI」への道筋がより明確になった。