Anthropicは3月4日、同社の大規模言語モデル(LLM)「Claude」の最新版となる「Claude 3」ファミリーを発表。チャット型AI「claude.ai」およびAPIで使用できる。
3つのモデルを用意
Claude 3には「Claude 3 Haiku(以下Haiku)」「Claude 3 Sonnet(以下Sonnet)」「Claude 3 Opus(以下Opus)」の3つのモデルが用意されている。
Haikuはコストと反応速度に特化した、ファミリーで最もコンパクトなモデル。シンプルなインプットに対してこれまでにない速度で回答するという。同時翻訳など速度が重要な用途に向いているほか、ランニングコストもサイズもファミリーで最も小さいため比較的小規模なプロジェクトに向いている。
APIで使用する際の価格は100万トークンごとに入力が0.25米ドル(およそ38円)、出力が1.25米ドル(およそ188円)となっている。
Sonnetは、能力と速度の理想的なバランスを目指したモデル。同等のモデルと比較して低コストで強力なパフォーマンスを発揮するとしている。主にデータ処理やマーケティング、品質管理といった企業向けソリューションでの利用が想定されている。
価格は100万トークンごとに入力が3米ドル(およそ452円)、出力が15米ドル(およそ2258円)となっている。
Opusは最も知能が高く、複雑なタスクでも市場最高のパフォーマンスを発揮するとのこと。APIやデータベースを介した複雑なアクションの計画と実行、インタラクティブなコーディング、創薬、チャートとグラフの高度な分析、財務と市場動向予測といった高度な活用を想定している。
価格は100万トークンごとに入力が15米ドル(およそ2258円)、出力が75米ドル(およそ1万1287円)となっている。
ちなみにOpenAIのGPT-4をAPI経由で利用すると100万トークンごとに8Kモデルで入力が30米ドル(およそ4514円)、出力が60米ドル(およそ9028円)、32Kモデルで入力が60米ドル(およそ9028円)、出力が120米ドル(およそ1万8055円)となっている。
3モデルとも20万トークンのコンテキストウィンドウが提供されるが、実験ではどのモデルも100万トークンを超える入力が可能になっているため、必要に応じ拡大される可能性があるという。
OpusおよびSonnetは現在159カ国で利用可能になったClaude APIで3月4日より、Haikuは間もなく利用可能になる。
また、チャット型AI「claude.ai」では無料でSonnetを利用できるほか、有料の「Claude Pro」サブスクライバーにはOpusも公開される。
さらに、3月4日からAmazon BedrockおよびGoogle CloudのVertex AI Model GardenのプライベートプレビューでもSonnetが利用可能。OpusとHaikuも間もなく登場予定だという。
なお、現状claude.aiにはアクセスが集中しているようで、有料版への登録を促すメッセージが度々表示される状態になっている。
今後も数ヵ月にわたり、関数呼び出し機能、対話型コーディング(REPL)、エージェント機能など主に企業ユースに向けた頻繁なアップデートがリリースされる予定。
ベンチマークでも好成績
上図は複数のAI向けベンチマークによるClaude 3および競合他社モデルとの比較だ。
最も知能が高いOpusは、大学レベルの専門知識(MMLU)、大学院レベルの専門的推論(GPQA)、基本数学(GSM8K)など、ほぼすべてのタスクにおいてOpenAIの「GPT-4」やグーグルの「Gemini Ultra」といった競合他社のフラッグシップモデルよりも高い数値を記録している。
また、すべてのモデルにおいて、分析と予測、微妙なコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの非英語言語での会話能力が向上しているという。
視覚能力も高く、写真、表、グラフ、PDF書類、技術図面など幅広いマテリアルの認識能力も向上している。ベンチマークでは多くの項目でGPT-4より高い性能を見せているが、Gemini Ultraには負けている項目も多い。
応答速度など基礎性能も向上
応答速度も向上しており、ライブカスタマーチャット、オートコンプリート、データ抽出タスクなど即応性が要求されるタスクでも活用可能だという。
特に最も早いHaikuは、チャートやグラフを含む情報とデータが密集したarXivの研究論文(約1万トークン)を3秒未満で読み取ることができるという。
また、Sonnetは大多数のタスクにおいてClaude 2やClaude 2.1よりも2倍高速化されており、Opusは速度は多少落ちるもののはるかに高いレベルの知能を持っているとする。
また、Claudeの前バージョンでは文脈理解が足りず質問に対して回答を拒否することが多かったが、今回のモデルではガードレールに近いプロンプトに対して回答を拒否する可能性が低くなっている。
AnthropicはClaude 3ファミリーの性能はもちろん信頼性も重視しており、偽情報、CSAM(子どもの性的搾取材料)、生物学的濫用、選挙干渉、自律的複製スキルといった広範囲にわたるリスクを追跡・軽減するために専門チームを複数設置しているという。
さらに、「Constitutional AI」の理念に沿ったモデルの安全性と透明性を向上させるため、画像認識などで予想されるプライバシーの問題を軽減するモデルを調整中だという。