画像を分析する「タグ生成」のステップが入っていると考えられる
copainterがやっていることは、画像生成AI「Stable Diffusion」を使ったimage2image(i2i)だと考えられます。i2iで画像を線画にする方法は、LoRA(追加学習機能)が本格的に普及してきた2023年の早い時期から存在していました。
ただ、完全な線画にしたり、画風を元画像に近いものにすることが難しかったりと、コントロール面に課題を抱えていました。また、下絵のようなものをキレイに整えるといったことは簡単ではなかったんです。顔が変わってしまったり、よけいなものが色々と入ってきてしまったり。それがcopainterではかなり調整されていて、できるだけ元画像を活かすようにクセがない出力結果になるように調整されていて感心します。
なお、copainterは「犬の画像を入れると破綻する」という噂がありました。なぜそのようなことが起こるのかは、技術情報が公開されていないので若干の推測が入りますが、生成手順を理解するとわかります。
まず、画像を生成する前に、その画像を分析して何が描かれているかを判断する「タグ生成」のステップが入っていると考えられます。このタグ解析の方法はデータがオープン化されていて、画像生成用のアプリ「Stable Diffusion WebUI A1111」でも拡張機能として利用可能です。このタグ情報をプロンプトとして利用することで、生成画像時の精度が高まります。生成された画像から予期していなかった版権物が生成されたという報告は出ていないことから、版権物のタグは生成されないように調整されていると考えられます。
破綻するケースですが、元となる画像にタグ付けを付けるタイミングで、「犬」と認識しつつ、「女性」と認識できず、プロンプトに人間が入らなかったような場合に起こります。ただ、筆者も同じような画像を作成して試してみましたが、タグ解析を突破するのはなかなか難しく、元画像のキャラの不透明度を30%にして初めて成功しました。同じ画像をA1111に入れてタグを解析させてみると、女性のキャラが存在することを認識できないことが確認できます。
つまり、背景の色を意図的に薄くするなどして“犬”の要素を極端に強調するといった、まれなケースでないと難しいのだろうと考えられました。元画像が何を意図しているのかわかりにくい画像を読み込ませれば、適切なタグがつかなかったり、謎のカエルのケースのように、意図しているものとは違う画像になります。これは画像生成AIの特性でもあり、破綻を目指した利用を想定した設計になっていないので起きることです。
ちなみに料金プランは月額680円のライトプランではで50回分チケットですが、全然足りません。
画像生成AIを利用すると、1回でベストな画像が出ることは少なく、ちょっとずつパラメーター変えての試行錯誤をして、最も良い結果を探るのが普通です。さらに、着彩も同じように試すことになるので、1枚の優れた結果を出すために6枚ぐらいを使うことになります。ページ数のある漫画を描くといった目的で、本格的に使うには月額1980円の300回分チケットはすぐに必要になってくるでしょう。
この連載の記事
-
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に - この連載の一覧へ