ホリエモンAI学校、Claude for Legal、ChatGPT、Gemini、弁護士によるブラインド採点で、主要生成AIのリーガルレビュー性能を検証

2026.05.15 16:20

PR TIMES

ホリエモンAI学校株式会社
Claude for Legal、ChatGPT 5.5 Thinking、Gemini 3 思考モードを契約書レビューで比較

ホリエモンAI学校株式会社（本社：東京都新宿区、代表取締役社長：荒木賢二郎、以下「ホリエモンAI学校」）は、先日Anthropic社より発表されたClaude Cowork法務プラグイン「Claude for Legal」の大幅アップデートに伴い、Claude for Legal、ChatGPT、Gemini、による契約書レビュー結果を、弁護士によるブラインド採点で評価しましたので、結果を発表いたします。

背景
　海外の法務AIを評価するベンチマーク期間によると、Claude Opus およびその追加機能であるClaude for Legalは高いスコアを記録しているとの報道もありますが、我々実務家にとって大切なのは、日本企業で日常の法務レビューに使えるのか？活用の部分です。
　そこで、Claude for Legal プラグインを入れたClaude Coworkと、日常でよく使用されているChatGPT、Gemini、この３つのAIを用いて、同じ契約書をレビューした結果を、ワードファイルABCとして保存。弁護にによる、ブラインド評価を行いました。

実験方法
　評価用に用意した架空の契約書（実際に当社で使用していた過去の契約書）を用いて、
「契約書をレビュして、word形式でダウンロードさせて」
とだけ、指示（プロンプト）
結果として出力されたワードファイルABCを、弁護士へ渡して、ブラインド評価
・自社でチェックして、わからないところを弁護士になげる場合の、レビュー成果物点数（100点満点）

実験結果
（１）３つのAIに依頼したレビュー成果物（word）
・Geminiが最速で成果物を出しましたが、ダウンロードボタンを押してもワードファイルがダウンロードできず、数分google検索しながら格闘、追加のプロンプトを入れることでwordファイルを確保

・ChatGPTも、Geminiに遅れること数分、wordファイルをダウンロード完了

・Claude for Legal はGeminiからさらに遅れること数分、wordファイルをダウンロード完了

（２）弁護士のブラインド評価結果
・第３位：Gemini：0点～30点
相手会社視点でのチェックになってます（甲が当社で乙が相手先だが、プロンプトで指示していない）。そのため内容自体は30点ですが、実務的には0点。
ただし、当社の利用規約や他の契約書など事前情報を入れることができれば今後点数を伸ばすことは可能。甲乙を取り違える不運もあった様で実力を発揮できなかった模様。

・第２位：ChatGPT：50点
点数が低い理由は、プロンプト、前提条件の設定が不十分だから。
※実際に今回のプロンプトは「契約書をレビュして、word形式でダウンロードさせて」のみ

・第１位：Claude for Legal：60点
一番詳しい９頁の資料が出力されている。点数が低い理由は、ChatGPT同様、プロンプト、前提条件の設定が不十分だから。

現時点におけるAI契約書レビュー導入のポイント
1. プロンプト設計が難しい
AIによる契約書レビューでは、前提情報をどこまで正確に入力できるかが非常に重要です。

今回であれば、たとえば「ホリエモンAIサービスの利用規約に同意してもらうこと」を前提条件として設定する必要があります。典型的な契約であれば比較的対応しやすい一方で、契約内容に特殊性があるほど、会社固有の事情や取引の背景を丁寧に入力しなければ、適切なレビュー結果を得ることは難しくなります。

今後は、AIに前提情報を正確に把握させるため、会社が保有する情報を包括的に読み込ませたうえで、契約書の作成・レビューを行う流れになると考えられます。

具体的には、社内ファイル、Googleドライブ上の資料、社内外の打ち合わせ音声、メール、Slack等の情報をAIに読み込ませ、それらを前提に契約書を作成・レビューする形です。

2. 誰がレビュー結果を判断するのか
AIが出したレビュー結果を適切に判断し、実務に落とし込むには、結局のところ、弁護士や一定の経験を有する法務担当者の関与が必要になります。

今回のように、最も詳細な9頁のレビュー資料を正確に理解するだけでも、相応のリーガルスキルがある人でなければかなり時間がかかります。

つまり、AIはレビューの補助にはなりますが、その内容をどう評価し、どのように契約交渉や社内判断に反映させるかは、人間側の専門性に依存する部分が大きいです。

3. 交渉上の落としどころをどう判断するか
上記と関連して、AIが指摘した修正希望に対して相手方が応じない場合、どこを落としどころにするかの判断も難しいポイントです。

AIは「この条項は大きなリスクがあるため修正すべき」と強く指摘することがあります。しかし実務上は、相手方がそのような修正に応じないケースも多くあります。GoogleやAmazon等の利用規約を見れば分かるとおり、利用者側が修正を求めても受け入れられない契約は少なくありません。

そのため、最終的には、リスクが発生する頻度と、発生した場合に想定される損害を具体的にイメージしたうえで判断する必要があります。

契約上の弱点やリスクを認識したうえで、それが顕在化しないようにビジネスを進めていく、という対応をせざるを得ない場面も多くあります。

したがって、AIレビューの結果をそのまま受け取るのではなく、社内で咀嚼し、実務上どのリスクを受け入れ、どのリスクについて交渉すべきかを把握しておくことが重要です。

【結論】Claude for Legalは日本でも実務レベルで使用できる可能性が高い
　今回、他のAIと公平な審査となるように使用しませんでしたが、Claude for Legalには、自社の事前情報、他契約書情報、規約やリスク許容度の基準（プレイブック）を読み込ませることで最大化される用に設計されています。
　そのため、弁護士レビュー時にいただいたコメント「AIに前提情報を正確に把握させるため、会社が保有する情報を包括的に読み込ませたうえで、契約書の作成・レビューを行う流れになる」を、満たすことが可能であり、実務に耐えうるレベルにまで伸ばすことができると考えています。

ホリエモンAI学校でも、Claude Cowork&Code を未経験からまる1日で使えるようになる１日Camp（9:00-18:00）の開催や、オンラインスクール、Claude Code&Coworkのインストール、初期設定代行、などご用意しておりますので、Claude for Legalを使用してみたい企業様・法務関係者さまは、お気軽にお問い合わせください。

ホリエモンAI学校
https://horiemon.ai/

■本リリースに関するお問い合わせ
電話取材、追加コメント、その他情報提供可能です。お気軽にご連絡ください。
ホリエモンAI学校株式会社
東京都新宿区新宿4-3-15 レイフラット新宿B棟3F
03-4400-3424
E-Mail：ux@telewor.com

本記事はアフィリエイトプログラムによる収益を得ている場合があります