DeepSeekが開発したLLM「DeepSeek」が大きな騒ぎになってきました。その背景には、DeepSeekが開発の際に使ったより性能の高いLLMを利用して、問題と回答をその推論過程まで含めた出力結果を学習データとして使うことでより効率よくAIに学習させる「蒸留(ディスティレーション)」という手法があります。1月20日に公開された「DeepSeek R1」はOpenAI「o1」に匹敵する性能とされ、さらに圧倒的な低コストで開発されたとアピールされたこともあり、アメリカのAI分野での優位性が揺らいだとの危惧が広がりました。そういうなか、6日に、スタンフォード大学とワシントン大学は「s1-32B」という軽量かつ安価に学習させた蒸留を使って開発した高性能LLMモデルを発表しました。わずか、1000問の学習データと約6ドル(約910円)の計算コストで、2024年9月リリースのOpenAI「o1-Preview」を超える性能を生み出したと主張しています。
DeepSeekで注目された「蒸留」とは
1月28日の米FOXニュースで、トランプ政権AI担当のデビッド・サックス氏は、DeepSeekが「OpenAIのAIモデルから知識を“抽出”したという“実質的な証拠”がある」と述べました。その具体的な内容について説明はなかったものの、DeepSeekの学習手法が急激に注目を集めました。DeepSeekはAPIを通じてChatGPTに多数の質問をぶつけ、出力結果をデータ学習の素材に使用したとされており、この工程を「蒸留」と呼びます。OpenAIはそのような蒸留行為を利用規約で禁じています。1月29日のフィナンシャルタイムズの報道では、DeepSeekがOpenAIのAPIを通じて大量のデータを収集し、AIモデルのトレーニングに利用した可能性があるとして、OpenAIとマイクロソフトが共同で調査を進めているとしています。
しかし、OpenAIが著作権侵害としてDeepSeekのサービスを差し止めたりできるかというと難しい可能性があります。
AIと著作権法の専門家でもある柿沼太一弁護士はXへの投稿 を通じて、DeepSeekが利用規約違反に該当するとしても「著作権侵害責任を追及するのは非常に難しい」と述べています。
「著作権侵害が成立するためには「類似性」と「依拠性」が必要ですが、まず、そもそも教師モデルの中身(パラメータ)が著作権によっては保護されない可能性が高いです。次に「教師モデル」と蒸留によって作成された「生徒モデル」の中身(パラメータ)は全く異なるものですので、「類似性」を満たしません。さらに、「蒸留」というのは、教師モデルの中身に直接アクセスする手法ではないため、「依拠性」も満たさない可能性が高いと思われます」(柿沼氏)。柿沼氏は、日本の著作権法を前提としているが、アメリカ法でもあまり変わらないと考えられています。
AIモデルの「蒸留」行為が著作権侵害に該当するかについては、法的な明確性がまだ確立されておらず、今後の司法判断に委ねられるとは思われますが、OpenAIとマイクロソフトにとっては、利用規約違反や知的財産権の侵害を立証する必要があるため、そのハードルも高いと考えられます。ただ、AI開発において蒸留は一般的な行為でもあります。

この連載の記事
-
第135回
AI
実在感が恐ろしいレベル 画像生成AIの常識をひっくり返した「Nano Banana Pro」 -
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 - この連載の一覧へ













