Anthropicは8月6日、大規模言語モデル(LLM)の最新版「Claude Opus 4.1」を発表した。
新モデルは、エージェントとしての自律的なタスク実行能力や実践的なコーディング、推論能力において既存の「Claude Opus 4」を上回る性能を持ち、すでに有料ユーザー向けに提供が開始されている。同社のAPIのほか、「Amazon Bedrock」や「Google CloudのVertex AI」経由でも利用でき、価格はClaude Opus 4から据え置かれている。
コーディングベンチマークで新記録、デバッグ精度も向上
コーディング能力を評価するベンチマーク「SWE-bench Verified」では74.5%という高いスコアを記録。詳細な情報を追跡しながら自律的に検索・調査する能力も向上しており、より高度なリサーチやデータ分析が可能になったとしている。
実際にモデルを評価したGitHubは、複数ファイルにまたがるコードのリファクタリング性能が特に向上していると指摘。また、楽天グループは大規模なコードベースから修正箇所を正確に特定し、不要な変更や新たなバグの発生を抑える能力を高く評価しており、日常的なデバッグ作業での有用性を示唆している。
Anthropicはすべての用途でOpus 4からのアップグレードを推奨しており、開発者はAPIでモデル名「claude-opus-4-1-20250805」を指定することで利用できる。
同社は今後数週間以内に、さらなる大幅な機能改善を予定しているとのことだ。









