OpenAIは1月23日、ブラウザーを使った作業を代行できるAIエージェント「Operator」を発表した。米国のProプラン(有料)ユーザーのみを対象とした研究プレビュー版として提供を開始する。
Operatorは独自のブラウザーを使用し、タイピング、クリック、スクロールなどの操作が可能。フォーム入力、食料品の注文など、日常的な作業を代行する。
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
本機能ではGPT-4oの視覚機能と強化学習による推論を組み合わせることで、画面に表示されるボタンやメニューなどのUIを操作できるようトレーニングした新モデル「Computer-Using Agent(CUA)」を搭載。マウスとキーボードを使ったほとんどのアクションに対応できるため、専用のAPIが用意されていないウェブサービスの操作を自動化することも可能だ。
安全性やプライバシー保護に関しては、ログイン、支払い情報入力、注文の決定といった場面で、一度ユーザーに制御を戻す仕組みを採用。さらに銀行取引や求人への応募など、重大な決定を要する作業については対応を拒否するようトレーニングされているという。
同社では近日中にCUAのAPIを公開するほか、時期は不明ながらProプラン以外の有料プランにも本機能を開放する方針。ChatGPTとの機能統合についても、大規模環境での安全性と使いやすさに自信がもてるようになった段階で、実現したいとしている。







