AI企業のAnthropicは10月23日、大規模言語モデル「Claude 3.5 Sonnet」の刷新と、新モデル「Claude 3.5 Haiku」の導入を発表した。Claude 3.5 Sonnetには、AIモデルが人間のようにコンピューターを操作できるようになる新機能「コンピューター使用」が追加された。
アップデート版のClaude 3.5 Sonnetは、特にコーディング分野で大きく性能を伸ばし、業界ベンチマークで広範囲にわたる改善を示した。SWE-benchの検証済みタスクでは、前バージョンの33.4%から49.0%へと性能が向上し、他のすべての公開モデルを上回る結果となった。
新たに導入されるClaude 3.5 Haikuは、前世代の最大モデルであるClaude 3 Opusと同等の性能を持ちながら、コストと速度は前世代のHaikuと同等を維持している。特にコーディングタスクにおいて優れた性能を見せ、SWE-bench Verifiedでは40.6%のスコアを記録した。
さらに、Claude 3.5 Sonnetには新機能「コンピューター使用」機能を追加した。新機能を使うと、AIモデルはスクリーンの内容を理解し、マウスカーソルを動かし、ボタンをクリックし、キーボード入力をするなど、人間のようにコンピューターを直接操作できるようになる。
Anthropicは「コンピューター使用」機能について、3つの異なるデモンストレーション動画を公開している。
1つ目は、研究者のプジャー氏による観光プランニングのデモだ。サンフランシスコを訪れる友人とのサンライズハイキングを計画するため、Claudeがブラウザを操作して最適な場所を検索し、距離を確認し、日の出時刻を調べ、最終的にカレンダーに予定を自動入力するまでの流れを示している。
2つ目は、開発者関係責任者のアレックス氏によるコーディングのデモだ。1990年代風の個人サイトを作成・編集する過程で、Claudeがブラウザでコードを生成し、VS Codeで編集、Pythonのエラー対応までする様子を紹介している。
3つ目は、研究者のサム氏による業務自動化のデモだ。架空の企業「アント・エクイップメント」の取引先申請フォームを処理するため、ClaudeがスプレッドシートとCRMシステムを横断しながら必要な情報を収集し、フォームに自動入力する一連の作業を実演した。
これらのデモは、Claudeが人間のように複数のアプリケーションを操作しながら、情報収集からデータ入力まで、様々な作業を自律的に実行できることを示している。「コンピューター使用」機能は現在、APIを通じて開発者が利用可能で、今後数ヵ月でさらなる改善が期待されている。
「コンピューター使用」は、これまでのRPA(ロボティック・プロセス・オートメーション)と比較して、柔軟性が高く、事前にプログラムされた特定のタスクだけではなく、様々な状況に適応できることが特徴だ。また、画面の内容を理解し、状況に応じて適切な操作を選択できる高度な理解力も持っている。特定のアプリケーションに限定されず、あらゆるデスクトップアプリやウェブサイトを操作できる汎用性も備えている。中でももっとも重要なのは、高度な自然言語処理や推論能力を持つAIモデルと直接統合されていることだろう。
新機能を使えば、ソフトウェアテストの自動化、バックオフィス業務の効率化など、幅広い分野で応用可能になりそうだ。しかし、技術的にはまだ初期段階にあり、Anthropicは低リスクのタスクから始めることを推奨している。また、人間による監督と制御の重要性も指摘されている。
「コンピューター使用」機能は、AIの能力が急速に向上して、人間の作業者が主導権を持ちながら、AIが状況を認識して適切に支援できるようになることを示している。まさに、デジタル業務の副操縦士(Copilot)だ。マイクロソフトのAIアシスタント機能「Copilot」と同様に、AIと人間の協働にどのような影響を与えるのかに注目が集まる。