このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第61回

画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも

2024年04月15日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 2023年12月、スタンフォード大学の研究グループは、画像生成AI「Stable Diffusion」が学習のために使ったオープンデータセット「LAION-5B」の中に、1008件の「CSAM(児童性的虐待画像)」(日本では児童ポルノと訳されることが多い)が含まれていると発表し、大きなニュースとなりました。日本ではその違法性を問うことができるのでしょうか? 問題のある画像を含んだデータの排除した学習済みデータへの移行が進む一方で、日本では生成AIの問題をきっかけに表現規制にまで広げようという動きも出ているようです。

「Stable Diffusion v1.5」学習データに“児童ポルノ”?

 LAION-5Bはドイツの非営利団体LAIONが公開している、インターネット上から機械的に収集された画像に対し、その画像が何を意味しているのかを分析したテキストのペア(「Clip」と呼ばれる)によって構成された、約58億5000万個のデータです。2022年8月にリリースされたStable Diffusionの学習データは、その膨大な量のデータを利用して作られました。

 LAION-5Bは、機械的に集められていたこともあり、そのデータの全貌もよくわかっていない部分がありましたが、Stable Diffusionのリリース後に、その中身が何で構成されているのかに注目が集まるようになりました。スタンフォード大学の研究では、既存のマイクロソフトなどが提供しているCSAM画像を検出する手法や、独自のアルゴリズムで類似画像を検出する方法を使い、計3226件の疑わしい画像が特定されました。さらに、それを人力で確認したところ1008件のCSAM画像に該当するデータが存在するとしました。LAIONはそれに対して、大学や研究者、NGOと協力して、法律違反が疑われるコンテンツを特定して削除して再公開したと表明しています。

 そして2024年3月に読売新聞が、LAION-5Bに「1993年に(日本で)出版された裸の少女を写した写真集の画像データが見つかった」と報じました。記事では「(日本で)児童買春・児童ポルノ禁止法が施行された99年以降、こうした写真集の公開は違法になった」としています。その画像がスタンフォード大学の指摘するCSAM画像に該当するのかどうかは、記事では明確ではありませんが、日本でも学習データに関心が高まりました。

 Stablity AIが開発したStable Diffusionには、LAION-5Bを学習データとして使用していると考えられる2022年8月にリリースされたバージョン「v1.0」系統のものがあります。v1.0はLAION-5Bを構成する3つのサブセットの一つ23億個で構成される「LAION 2B-en」を中心に開発され、トレーニングのためにLAION-5Bを使ったとされています。そのなかで、動画生成AIで知られるRunwayが2022年10月にリリースしたバージョンが「Stable Diffusion v1.5」です。

 Stable Diffusion v1.5は、Stablity AIは「自社で開発したものでない」と主張している一方、Runwayは「Stablity AIと共同でリリースしたものだ」と主張しており、責任の所在は曖昧です。学習済みデータから特定の画像のデータだけを削除するという方法はまだ存在していないということもあり、違法性があるデータが残った状態で学習済みデータが流通しているのではないかと、大きな騒ぎになりました。

 ただ、Stablity AIは、2022年11月リリースの「Stable Diffusion v2.0」以降では、オプトアウトとフィルタリングによって問題のある画像を学習データから除いていると主張しています。これが事実だとすれば、問題があるのはStable Diffusion v1.5以前ということになります。ただ、今のところ、各国当局によりStablity AIとRunwayに対して、法的な責任を問う動きは出ていません。

 では、日本では学習段階で、違法性のある画像が含まれていた学習モデルの法的な評価はどうなるのでしょうか。

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ