このページの本文へ

新清士の「メタバース・プレゼンス」 第70回

イラストのペン入れと色塗り、AI使えばわずか1分

2024年07月08日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

画像を分析する「タグ生成」のステップが入っていると考えられる

 copainterがやっていることは、画像生成AI「Stable Diffusion」を使ったimage2image(i2i)だと考えられます。i2iで画像を線画にする方法は、LoRA(追加学習機能)が本格的に普及してきた2023年の早い時期から存在していました。

 ただ、完全な線画にしたり、画風を元画像に近いものにすることが難しかったりと、コントロール面に課題を抱えていました。また、下絵のようなものをキレイに整えるといったことは簡単ではなかったんです。顔が変わってしまったり、よけいなものが色々と入ってきてしまったり。それがcopainterではかなり調整されていて、できるだけ元画像を活かすようにクセがない出力結果になるように調整されていて感心します。

 なお、copainterは「犬の画像を入れると破綻する」という噂がありました。なぜそのようなことが起こるのかは、技術情報が公開されていないので若干の推測が入りますが、生成手順を理解するとわかります。

 まず、画像を生成する前に、その画像を分析して何が描かれているかを判断する「タグ生成」のステップが入っていると考えられます。このタグ解析の方法はデータがオープン化されていて、画像生成用のアプリ「Stable Diffusion WebUI A1111」でも拡張機能として利用可能です。このタグ情報をプロンプトとして利用することで、生成画像時の精度が高まります。生成された画像から予期していなかった版権物が生成されたという報告は出ていないことから、版権物のタグは生成されないように調整されていると考えられます。

A1111の拡張機能で筆者の模写をタグ解析した例。「1少女, グレースケール, モノクローム, ソロ, イヤリング, 笑顔, 宝石, スケッチ, 見る人を見る, シンプルな背景, 長い髪, 白い背景, ジャケット, 閉じた口, 上半身」(解析後のプロンプトを翻訳)

 破綻するケースですが、元となる画像にタグ付けを付けるタイミングで、「犬」と認識しつつ、「女性」と認識できず、プロンプトに人間が入らなかったような場合に起こります。ただ、筆者も同じような画像を作成して試してみましたが、タグ解析を突破するのはなかなか難しく、元画像のキャラの不透明度を30%にして初めて成功しました。同じ画像をA1111に入れてタグを解析させてみると、女性のキャラが存在することを認識できないことが確認できます。

犬の画像を追加して、ペン入れをしてみたもの。上は通常のまま、下はキャラクターを不透明度30%に設定してみたもの。左下は線が薄いために人物が認識できておらず、犬が生成されている。A1111でタグ解析をすると「犬, 人間なし, ソロ, シンプルな背景, 白背景, 舌, 首輪, ジュエリー, 動物, 見る人を見る, モノクローム」(翻訳)となった

 つまり、背景の色を意図的に薄くするなどして“犬”の要素を極端に強調するといった、まれなケースでないと難しいのだろうと考えられました。元画像が何を意図しているのかわかりにくい画像を読み込ませれば、適切なタグがつかなかったり、謎のカエルのケースのように、意図しているものとは違う画像になります。これは画像生成AIの特性でもあり、破綻を目指した利用を想定した設計になっていないので起きることです。

 ちなみに料金プランは月額680円のライトプランではで50回分チケットですが、全然足りません。

 画像生成AIを利用すると、1回でベストな画像が出ることは少なく、ちょっとずつパラメーター変えての試行錯誤をして、最も良い結果を探るのが普通です。さらに、着彩も同じように試すことになるので、1枚の優れた結果を出すために6枚ぐらいを使うことになります。ページ数のある漫画を描くといった目的で、本格的に使うには月額1980円の300回分チケットはすぐに必要になってくるでしょう。

カテゴリートップへ

この連載の記事
ピックアップ