Stable DiffusionとCLIPを使っている
── 生成プロセスについて伺います。「Stable Diffusion」のデータセット構成はどうしているんでしょう。また、Stable Diffusionはどう使われているんでしょうか?
ジェームズ まず、一般人はStable Diffusionに対して、テキストや画像を入れるとウェブトゥーンができるようなイメージを持っています。次に、Hugging FaceやCivit AIにアップロードされているカスタムLoRAを使ってどんな画像でも生成できるといったイメージを持っています。一般人はそれ(カスタムLoRAを使って生成された画像)を見て「すごい」と驚きますが、知らないうちに著作権を侵害してしまっているというのが現状だと思います。我々はこの問題を解決すべく、Stable Diffusionをベースにしつつ、出力される絵柄は契約した作家のものにすることを考えました。特許出願中なので、詳しい説明ができないことはご了承ください。
── いわゆるカスタムLoRAを使っていないのはわかりました。ただ、Stable Diffusion v1.5については、LAIONモデルを使っていることを批判されることが多いです。基盤モデルにしているのはStable Diffusion v1.5なんでしょうか、Stable Diffusion XLなんでしょうか。
ジェームズ 特許もかかわってくるところでもあるので詳しい説明が難しいところですが、「Stable DiffusionとCLIP(画像をテキストとして認識したり、テキストから生成画像に影響を与えるエンコーダー機能)等を使っている」ということだけは言えます。
── 基盤モデルに作家さんのデータを追加して作られるのはわかります。何枚くらい必要なんですか?
ジェームズ 最初は500枚程度をいただいていましたが、いまは最小50枚です。ファインチューニング(微調整)が必要なときに別途複数枚をもらっています。
コストメリットは薄いが、納品速度が上げられる可能性
── ウェブトゥーンの展開について聞かせてください。すでにAIを使ったタイトルはあるんでしょうか?
チャン 韓国ではある会社で出したことがありましたが、ものすごく叩かれました。猛反発でした。ただ、それはいま我々がやっている取り組みのように(著作権に配慮した)プロセスを守ったものではなく、技術的にも(著作権への配慮に)こたえることがむずかしい状況でした。なので、いまはすべてやめて、人の手で制作していると聞いています。
── そうした背景からも、ユーザーに納得されるように適切に出していきたいと?
チャン そう思っています。ウェブトゥーンは漫画と違って、着彩や加工といったプロセスがあり、時間もコストもかかります。AIでアレンジするとその段階がぐっと簡単になるため、ウェブトゥーンは親和性が高い。そのため、制作会社や作家さんとしてもチャレンジしたいという感覚があるようです。
── 作業効率はどれくらい上がるんですか?
チャン ウェブトゥーンは制作開始段階から分業制でやっていくので、週1連載も難しいんです。そこにAIを使えば週2話くらいは出せるのではないかと考えていました。ただ、最初は作家さんのPure Model AIを制作・高度化するプリプロダクション工程が入るため、今のところはコストもスピードも作家さんがやるときとほぼほぼ変わりません。「作家さんの許可なく進めたりはしない」ということでやりとりが増えて、時間がかかっているところがあります。ただ、我々としてはそれでも今後これをやっていかなければいけないと考えています。プリプロダクションをしたりしてデータが蓄積されていくと、スピードが上がっていく可能性があるからです。また一度作ったPure Model AIのデータがあれば、次の作品でもそれを活用できると思いますから。
── コストとは何の話ですか?
チャン 学習コストです。著作権を守るやり方で進めると、どうしても作家さんの気に入らない“ダメ”なデータが出てくるので、先生方と話して、ふたたび追加で描いていただいた画を学習させて……を繰り返すわけです。しかし、長い目で見て、これはやるべきだという判断をしています。
── 里中満智子先生などが参加することになったのはなぜなんでしょう?
ジェームズ 先程もお話しましたが、アートディレクターの親がキム・ドンファ(Kim Dong-hwa)先生という漫画家なんです。韓国漫画家協会の会長でもあった方で、ウェブトゥーン技術で最初に技術検証したのがキム・ドンファ先生でした。そこでキム・ドンファ先生が古い知り合いである里中満智子先生たちを紹介してくれたのが経緯です。
チャン 世界的には日本が漫画の中心国なので、こういう展開をした方がいいんじゃないかと紹介いただいたというのがひとつ。そして、長い目で見るとこういうやり方が正しいんじゃないかと先生方が我々の趣旨に賛同してくださり、理解を示してくださったんです。作品活動をたくさんしてきた方々だったので、学習サンプルが豊富だったというのも、今回チャレンジをするきっかけでした。お年を召してからだと、アイデアも豊富だし描きたいものも多いけど、体力がない。そこでAIが問題を解決してくれるのではないか、という考えもありました。
この連載の記事
-
第66回
AI
有名人そっくり、増え続けるAI音声 “声の権利”どう守る -
第65回
AI
画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 -
第64回
AI
自分好みのAIチャット相手を簡単に作れる「Dify」が面白い -
第63回
AI
まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 -
第62回
AI
動画生成AI、映像制作の“民主化”目指して研究進む -
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 -
第58回
AI
画像生成AIで同じキャラクターが簡単に作れるようになってきた -
第57回
AI
日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に -
第56回
AI
画像生成AIの著作権問題、文化庁議論で争点はっきり - この連載の一覧へ