AIスタートアップAnthropicは7月11日(現地時間)、今年3月に発表されたばかりの同社の大規模言語モデル(LLM)「Claude」をより高性能にした新モデル「Claude 2」のリリースを発表。米英限定ではあるが一般向けベータ版ウェブサイトを公開、開発者向け商用API(ベータ版)の提供も開始された。
なお、日本など他の地域は今後数ヵ月のうちに利用できるよう取組中とのことだ。
数学、推論能力が向上
本モデルは従来のモデルと比較して、数学、推論の能力が向上している。
たとえば、アメリカの司法試験の多肢選択問題(Multistate Bar Exam)では「Claude 1.3(5月に発表された前バージョン)」の73.0%から76.5%に向上。これはGPT-4と同等のスコアとなる。
大学院入学希望者向けのテスト(GRE General Test)では、リーディングとライティングで90パーセンタイル(テストを受けた全体の受験者の上位10%)を上回り、数学的な概念や問題解決能力を測る量的推論(Quantitative Reasoning)試験では志願者の中央値と同様のスコアだった。
数百ページの文章をプロンプトとして読み込み可能
Claude 2 will now power our chat experience, and is generally available in the US and UK at https://t.co/uLbS2JNczH. We look forward to seeing how people use Claude and our 100K token context feature, where you can upload hundreds of pages in the prompt window. pic.twitter.com/9fVyjEBGsT
— Anthropic (@AnthropicAI) July 11, 2023
Claude 2の大きな特徴として、プロンプトに10万トークン(およそ7万5000語)もの巨大なテキストを入力できる点がある。これは数百ページの文章を処理できることを意味している。
デモ動画ではプロンプト欄に複数のテキストファイルをドラッグアンドドロップすることで、およそ8万語のテキストを入力し、その内容を要約する様子を見ることができる。
出力できる文章量も増加し、数千トークンまでのより長い文書を一度に書くことができるようになったという。
コーディング能力や安全性も向上
Claude 2 has improved from our previous models on evaluations including Codex HumanEval, GSM8K, and MMLU. You can see the full suite of evaluations in our model card: https://t.co/fJ210d9utdpic.twitter.com/LLOuUNfOFV
— Anthropic (@AnthropicAI) July 11, 2023
さらに、コーディング能力も大幅に向上。デモ動画では、JavaScriptファイルを読み込ませ、その内容を解析・説明させたうえで機能を追加するという一連の作業をすべて自然言語で行っている様子を見ることができる。
また、Pythonのコーディングテストである「Codex HumanEval」において71.2%のスコアを、GSM8kという小学生向け算数問題では88.0%のスコアを記録したという。
開発チームはClaude 2の安全性を向上させるため、攻撃的または危険な出力を生成することが難しくなるよう定期的に自動・手動でテストを実行しており、その結果前バージョンと比較して有害な回答を生成しない能力が2倍優れているという。
とは言え、ハルシネーション(AIが想像上の情報を生成すること)の可能性は残っているため「身体的・精神的な健康や幸福に関わる場面では使うべきではない」としている。
Anthropicの使命は信頼できる安全なAI製品の開発
Anthropicは、元OpenAIの研究幹部Dario Amodei 氏等によって2021年に設立されたベンチャー企業であり、OpenaAIの直接の競合と目されている。
同社はこれまで、Google、Salesforce Venturesなどから15億米ドルの資金を調達しており、人々が信頼できる安全なAI製品を作ることを使命としている。