Stable DiffusionとCLIPを使っている
── 生成プロセスについて伺います。「Stable Diffusion」のデータセット構成はどうしているんでしょう。また、Stable Diffusionはどう使われているんでしょうか?
ジェームズ まず、一般人はStable Diffusionに対して、テキストや画像を入れるとウェブトゥーンができるようなイメージを持っています。次に、Hugging FaceやCivit AIにアップロードされているカスタムLoRAを使ってどんな画像でも生成できるといったイメージを持っています。一般人はそれ(カスタムLoRAを使って生成された画像)を見て「すごい」と驚きますが、知らないうちに著作権を侵害してしまっているというのが現状だと思います。我々はこの問題を解決すべく、Stable Diffusionをベースにしつつ、出力される絵柄は契約した作家のものにすることを考えました。特許出願中なので、詳しい説明ができないことはご了承ください。
── いわゆるカスタムLoRAを使っていないのはわかりました。ただ、Stable Diffusion v1.5については、LAIONモデルを使っていることを批判されることが多いです。基盤モデルにしているのはStable Diffusion v1.5なんでしょうか、Stable Diffusion XLなんでしょうか。
ジェームズ 特許もかかわってくるところでもあるので詳しい説明が難しいところですが、「Stable DiffusionとCLIP(画像をテキストとして認識したり、テキストから生成画像に影響を与えるエンコーダー機能)等を使っている」ということだけは言えます。
── 基盤モデルに作家さんのデータを追加して作られるのはわかります。何枚くらい必要なんですか?
ジェームズ 最初は500枚程度をいただいていましたが、いまは最小50枚です。ファインチューニング(微調整)が必要なときに別途複数枚をもらっています。
コストメリットは薄いが、納品速度が上げられる可能性
── ウェブトゥーンの展開について聞かせてください。すでにAIを使ったタイトルはあるんでしょうか?
チャン 韓国ではある会社で出したことがありましたが、ものすごく叩かれました。猛反発でした。ただ、それはいま我々がやっている取り組みのように(著作権に配慮した)プロセスを守ったものではなく、技術的にも(著作権への配慮に)こたえることがむずかしい状況でした。なので、いまはすべてやめて、人の手で制作していると聞いています。
── そうした背景からも、ユーザーに納得されるように適切に出していきたいと?
チャン そう思っています。ウェブトゥーンは漫画と違って、着彩や加工といったプロセスがあり、時間もコストもかかります。AIでアレンジするとその段階がぐっと簡単になるため、ウェブトゥーンは親和性が高い。そのため、制作会社や作家さんとしてもチャレンジしたいという感覚があるようです。
── 作業効率はどれくらい上がるんですか?
チャン ウェブトゥーンは制作開始段階から分業制でやっていくので、週1連載も難しいんです。そこにAIを使えば週2話くらいは出せるのではないかと考えていました。ただ、最初は作家さんのPure Model AIを制作・高度化するプリプロダクション工程が入るため、今のところはコストもスピードも作家さんがやるときとほぼほぼ変わりません。「作家さんの許可なく進めたりはしない」ということでやりとりが増えて、時間がかかっているところがあります。ただ、我々としてはそれでも今後これをやっていかなければいけないと考えています。プリプロダクションをしたりしてデータが蓄積されていくと、スピードが上がっていく可能性があるからです。また一度作ったPure Model AIのデータがあれば、次の作品でもそれを活用できると思いますから。
── コストとは何の話ですか?
チャン 学習コストです。著作権を守るやり方で進めると、どうしても作家さんの気に入らない“ダメ”なデータが出てくるので、先生方と話して、ふたたび追加で描いていただいた画を学習させて……を繰り返すわけです。しかし、長い目で見て、これはやるべきだという判断をしています。
── 里中満智子先生などが参加することになったのはなぜなんでしょう?
ジェームズ 先程もお話しましたが、アートディレクターの親がキム・ドンファ(Kim Dong-hwa)先生という漫画家なんです。韓国漫画家協会の会長でもあった方で、ウェブトゥーン技術で最初に技術検証したのがキム・ドンファ先生でした。そこでキム・ドンファ先生が古い知り合いである里中満智子先生たちを紹介してくれたのが経緯です。
チャン 世界的には日本が漫画の中心国なので、こういう展開をした方がいいんじゃないかと紹介いただいたというのがひとつ。そして、長い目で見るとこういうやり方が正しいんじゃないかと先生方が我々の趣旨に賛同してくださり、理解を示してくださったんです。作品活動をたくさんしてきた方々だったので、学習サンプルが豊富だったというのも、今回チャレンジをするきっかけでした。お年を召してからだと、アイデアも豊富だし描きたいものも多いけど、体力がない。そこでAIが問題を解決してくれるのではないか、という考えもありました。
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ