イラストに強すぎる画像生成AIモデル　SDXL系「NoobAI-XL」の衝撃

2024年12月02日 07時00分更新

文● 新清士

画像生成AIの学習に使われる「Danbooru」をどう理解すべきか

多数の画像がユーザーにより転載されているDanbooru（ぼかしを掛けてあります）

　これらのモデルが強力になったのは、Danbooruやe621のようなキュレーションサイトのデータを学習データにしたからというのは間違いないでしょう。悩ましいのは、これらのサイトの存在をどう理解すべきかということです。

　欧米圏に存在するキュレーションサイトは、PixivやX（旧Twitter）などから、ユーザーが画像を転載して独自にタグ付けをしています。Danbooruは特に日本のアニメやイラストに強いことで知られており、たびたび無断転載の問題が指摘されています。一方で、アメリカの著作権法上では、転載元が明記されているのでフェアユースという合法の概念に当たるのではないかという説もあります。他のキュレーションサイトも含め、批判を受けながらサービスの継続ができているのは、それが理由ではないかとも考えられています。

　また、Danbooru自身がAI用の学習データとして利用しているのではなく、中国、韓国、台湾といった地域の個人や事業者がデータセットを作成して利用しています。各国の法律上で、キュレーションサイトのデータを学習に使った場合の位置づけは明確ではありませんが、現実として学習に使われている事実があります。さらに作成されたモデルは、米国のHugging FaceやCivitAIにアップロードされ、世界各地のユーザーがダウンロードできるという状態にあります。今のところ、これらが明確な著作権侵害に当たるという根拠は世界的に出ていません。

　今は技術力をアピールするためか、IlustriousやNoobAI-XLも何を学習データにしたのかを明らかにしていますが、その状況も変わってくるでしょう。Stablity AIなどのハイエンドモデルの基盤モデルを開発している企業は、公開するメリットがなくなっているので、詳しい情報を明らかにしなくなっています。遠からずアニメ系モデルの開発企業も、その段階へと移り、何を学習したのかを明らかにしなくなると考えられます。

　その一方で、画像生成AI利用者にとっては、こうしたモデルには著作権侵害のリスクがあるということを強く意識する必要があります。日本の著作権法の場合には、「類似性」と「依拠性」の両方を満たすことで、著作権侵害が成立します。「1girl」というシンプルなプロンプトであっても、データの偏りによって、何か似てしまう可能性がありうることが、Illustriousの技術レポートには書かれています。出力した結果が、何らかの画像にそっくりで意図しない著作権侵害を引き起こしてないかを、Googleレンズ等を使って確認する必要があるでしょう。もちろん、アニメ等のキャラクターを生成し、SNSに公開する場合には、二次創作イラストと同じ扱いになり、侵害リスクが大いにあることには注意が必要です。