2023年12月、スタンフォード大学の研究グループは、画像生成AI「Stable Diffusion」が学習のために使ったオープンデータセット「LAION-5B」の中に、1008件の「CSAM(児童性的虐待画像)」(日本では児童ポルノと訳されることが多い)が含まれていると発表し、大きなニュースとなりました。日本ではその違法性を問うことができるのでしょうか? 問題のある画像を含んだデータの排除した学習済みデータへの移行が進む一方で、日本では生成AIの問題をきっかけに表現規制にまで広げようという動きも出ているようです。
「Stable Diffusion v1.5」学習データに“児童ポルノ”?
LAION-5Bはドイツの非営利団体LAIONが公開している、インターネット上から機械的に収集された画像に対し、その画像が何を意味しているのかを分析したテキストのペア(「Clip」と呼ばれる)によって構成された、約58億5000万個のデータです。2022年8月にリリースされたStable Diffusionの学習データは、その膨大な量のデータを利用して作られました。
LAION-5Bは、機械的に集められていたこともあり、そのデータの全貌もよくわかっていない部分がありましたが、Stable Diffusionのリリース後に、その中身が何で構成されているのかに注目が集まるようになりました。スタンフォード大学の研究では、既存のマイクロソフトなどが提供しているCSAM画像を検出する手法や、独自のアルゴリズムで類似画像を検出する方法を使い、計3226件の疑わしい画像が特定されました。さらに、それを人力で確認したところ1008件のCSAM画像に該当するデータが存在するとしました。LAIONはそれに対して、大学や研究者、NGOと協力して、法律違反が疑われるコンテンツを特定して削除して再公開したと表明しています。
そして2024年3月に読売新聞が、LAION-5Bに「1993年に(日本で)出版された裸の少女を写した写真集の画像データが見つかった」と報じました。記事では「(日本で)児童買春・児童ポルノ禁止法が施行された99年以降、こうした写真集の公開は違法になった」としています。その画像がスタンフォード大学の指摘するCSAM画像に該当するのかどうかは、記事では明確ではありませんが、日本でも学習データに関心が高まりました。
Stablity AIが開発したStable Diffusionには、LAION-5Bを学習データとして使用していると考えられる2022年8月にリリースされたバージョン「v1.0」系統のものがあります。v1.0はLAION-5Bを構成する3つのサブセットの一つ23億個で構成される「LAION 2B-en」を中心に開発され、トレーニングのためにLAION-5Bを使ったとされています。そのなかで、動画生成AIで知られるRunwayが2022年10月にリリースしたバージョンが「Stable Diffusion v1.5」です。
Stable Diffusion v1.5は、Stablity AIは「自社で開発したものでない」と主張している一方、Runwayは「Stablity AIと共同でリリースしたものだ」と主張しており、責任の所在は曖昧です。学習済みデータから特定の画像のデータだけを削除するという方法はまだ存在していないということもあり、違法性があるデータが残った状態で学習済みデータが流通しているのではないかと、大きな騒ぎになりました。
ただ、Stablity AIは、2022年11月リリースの「Stable Diffusion v2.0」以降では、オプトアウトとフィルタリングによって問題のある画像を学習データから除いていると主張しています。これが事実だとすれば、問題があるのはStable Diffusion v1.5以前ということになります。ただ、今のところ、各国当局によりStablity AIとRunwayに対して、法的な責任を問う動きは出ていません。
では、日本では学習段階で、違法性のある画像が含まれていた学習モデルの法的な評価はどうなるのでしょうか。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ







