このページの本文へ

FIXER Tech Blog - AI/Machine Learning

新登場の「ChatGPT agent」は何ができる? どうすごい?

2025年07月24日 15時00分更新

文● 櫻井正雄/FIXER

  • この記事をはてなブックマークに追加
  • 本文印刷

 本記事はFIXERが提供する「cloud.config Tech Blog」に掲載された「Operator+Deep Researchを統合! 万能エージェント「ChatGPT agent」リリース」を再編集したものです。

概要

 2025年7月17日(日本時間18日)早朝、OpenAIはChatGPTの新機能「agentモード」を発表しました。これは、実験的に提供されていたOperatorDeep Researchを統合し、チャットボットが仮想コンピュータ上で複雑なタスクを自律的に処理できるようにした画期的アップデートです。

 本記事ではagentモードの特徴とデモ動画の内容を紹介します。

agentモードとは

 従来の検索・ファイル解析ツールに加え、次の機能を備えた“統合型エージェント”です。

機能 概要
仮想コンピュータ モデル専用のVMでブラウザ操作やコード実行を行いながらタスクを推進
ブラウザ&ターミナル グラフィカルブラウザでサイト閲覧・操作、テキストブラウザで情報収集、ターミナルでスクリプト実行が可能
コネクタ連携 GmailやGitHubなど外部サービスを接続し、予定・ファイルにアクセス
ドキュメント生成 収集データをスライドやスプレッドシートへ自動整形
ユーザー介入ポイント 購入・メール送信など実世界に影響する操作前には許可を必ず要求

具体的に何ができるのか

 公開時の公式ブログには、agentモードの利用例として以下のようなタスクが挙げられています。

・「カレンダーを見て、最近のニュースに基づいてクライアントとの次回会議をブリーフして」
・「日本の朝食を4人分作るための材料を計画して購入して」
・「競合他社を3社分析してスライドを作成して」

 これらのタスクでは、agentがウェブサイトを横断しながら情報を集め、必要に応じてユーザーにログインを促し、コードを実行して分析を行い、最終的には資料としてまとめてくれます。

安全性と制限

プロンプト・インジェクション耐性:悪意ある指示に強い設計
明示的な確認:重要操作前に必ずユーザー許可を取得
ウォッチモード:メール送信などはリアルタイム監視が必須
プライバシー保護:閲覧履歴をワンクリック消去、パスワード入力は非取得

 現在利用できるのはProPlusTeam。Proは月400メッセージ、PlusとTeamは月40メッセージ。Enterpriseと教育プランへの展開は数週間以内、EEA とスイスは調整中です。

ベンチマークと性能

ベンチマーク スコア 備考
Humanity’s Last Exam 41.6%(1試行)44.4%(8並列・最良選択) 問題解決力
FrontierMath 27.4% 難解数学
SpreadsheetBench 45.5% Excel Copilotを大幅に上回る

 既存AIアシスタントを凌駕しつつ、さらなる向上余地が示唆されています。

デモ:週末旅行の計画と予約

シナリオ
 「週末に子供連れで箱根旅行を考えている。おすすめ宿と観光プランを提案し、予約まで済ませて」

1. 天候・嗜好を考慮して宿泊候補と観光地を検索
2. 料金・レビューを比較し、候補を提示
3. ユーザー選択後、ブラウザ操作権限を取得して宿・交通を予約
4. 旅程表を PDF/スプレッドシートで共有

メリット
 検索・比較・予約を一括代行。利用者は確認と最終決定だけで済み、家族旅行や出張の準備負担を大幅に軽減します。動画は自動的にExpediaで宿を検索している様子です。

OperatorとChatGPT agentの比較

 OpenAIはOperatorを「ブラウザを自動操作する実験エージェント」として提供していましたが、分析力不足や深いレポート作成ができないという限界がありました。ChatGPT agentでは、Operatorの画面操作能力に、深掘りリサーチ/ドキュメント生成機能、コネクタ連携、タスクの定期実行などを統合。

 その結果、Operatorは数週間以内に廃止され、今後はChatGPT agentが正式な後継機能として進化を続ける、という位置づけが公式ヘルプ・ブログで一貫して説明されています。

観点 Operator ChatGPT agent 公式の説明ポイント
位置づけ 研究プレビューとして公開された 単機能エージェント。ウェブサイトを自動でクリック・入力してタスクをこなす実験的機能 統合型エージェント。Operator の「画面操作」能力に、深い分析・レポート生成(旧 deep research)やコネクタ連携、タスクスケジューリングなどを組み合わせた正式機能 「Operator はスクロール・クリック・入力が得意、deep research は分析が得意。それらを1つにまとめたのが ChatGPT agent」 (OpenAI)
機能範囲 ブラウザ操作(フォーム入力、スクロール、クリックなど)に限定。高度な分析や複雑な資料作成は不得手 ブラウザ操作+リサーチ+表計算・スライド生成・コネクタ活用・定期実行までワンストップで対応 「agent の内蔵仮想ブラウザに Operator の中核機能を取り込み、さらに追加ツールを統合」 (OpenAI Help Center)
提供形態 専用サイトoperator.chatgpt.comでのみ利用可能(Proユーザー限定/今後廃止予定) ChatGPT画面のツールメニュー(agentモード)から直接利用。Pro/Plus/Teamに段階的提供 「スタンドアロン版 Operatorは数週間以内に廃止予定。今後は ChatGPT agentに一本化」 (OpenAI Help Center)
課題 レポート作成や多段階ワークフローが苦手。操作できない複雑UIも多い 分析・資料生成・API呼び出しも可。ユーザー確認ステップや安全機構を強化 「Operatorは詳細レポートを書けず、agentはそのギャップを解消」 (OpenAI)
今後の扱い 終了予定 — コア機能はすでに agent へ移植済み 正式ルート — 継続的に機能拡張・安全策強化 「Operatorの機能統合によりagentが後継」 (ウォール・ストリート・ジャーナルOpenAI Help Center)

まとめ

 ChatGPTのagentモードは、従来のチャットbotを超えて“作業代行者”へと進化したことを示す大きな節目です。OperatorとDeep Researchの長所を統合し、ブラウザ操作・データ分析・資料作成・外部サービス連携を1人でこなせるようになりました。

 ベンチマークでも高い性能を見せており、実務やプライベートのさまざまなシーンで活用できる可能性があります。一方で新たなリスクも存在するため、ユーザーは確認や介入の仕組みを理解し、適切に利用することが求められます。ぜひ自分自身でagentモードの可能性を試してみてください。

櫻井正雄/FIXER
クラウドインフラの方式検討や構築運用をしています。
興味のある新しいサービスがでたら記事を書きます。
よろしくお願いします。

カテゴリートップへ

この連載の記事