このページの本文へ

新清士の「メタバース・プレゼンス」 第58回

画像生成AIで同じキャラクターが簡単に作れるようになってきた

2024年03月25日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Stable Diffusion「ControlNet」IP-Adapterがベースか

IP-Adapterは、元の画像を参考の要素を抽出して、類似の画像を生み出す。元の画像は一番上で、二段目以降は、それぞれのモデルによる生成結果の違い。
(「IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models」より)

 Creative Referenceのベースは、ControlNetの新技術。昨年10月にテンセントが開発・公開した「IP-Adapter」の機能を独自拡張したものではないかと推測されます。

 もともとControlNetは画像をプロンプトとして利用可能にする技術ですが、IP-Adapterは、さらにタグ解析もして、その画像と解析後のテキストの両方をセットにして画像生成をするLatent(潜在)空間に送り込み、出力する画像の結果に影響を与えるという方法です。元画像全体の全体的な雰囲気に影響を与えられる点が画期的でした。

 「Stable Diffusion WebUI」や「ComfyUI」といったStable Diffusionのユーザーインターフェースには、発表から早い段階でControlNetの機能の1つとして実装されました。

Stable Diffusion WebUI ForgeのControlNetで、IP-Adapterの設定をしているところ

 その後、顔のみに影響を与えるモデル、SDXL用のバージョンも登場して、広く使われています。WebUIでは使用しているチェックポイントのモデルの影響を大きく受けるため期待するほどそっくりはなってくれない傾向がありますが、かなり雰囲気は似てくれます。

Stable Diffusion 1.5のモデルを使って生成した画像。顔や町並みの雰囲気に類似性は出ている(筆者作成)

 一方で、ComfyUIでは、AnimateDiffで動画を作るときに、顔や服装に一貫性を保つためのテクニックとして使わることも多いですね。

 画像生成AIサービスの「NovelAI」も、IP-Adapterとほぼ同様の機能を追加しています。

 2月に新機能として実装された「バイブストランスファー」と呼ばれる機能で、ベースの画像に合わせて似た雰囲気の画像を生み出してくれるというものです。いい加減な画像を入れても、プロンプトとセットで何かの絵を生み出してくれるのは便利です。

元絵をバイブストランスファーで設定して出力した画像。NovelAIはどうしてもアニメ・イラスト風の画像にはなってしまうが、雰囲気は出ている

 現状、キャラだけに似せるといったことはできませんが、NovelAIにはi2iの機能があるため、特定のポーズをしたキャラクターを他の画風にするといったことが簡単にできます。

i2iとバイブストランスファーとを組み合わせた画像。i2iにリアルのベース画像を設定し、バイブストランスファーにキャラ三面図を指定した

 さらにNovelAIはマスクも使えるので、顔だけ囲って生成することもできます。画像が持っているニュアンスを適当に読み込んでくれるので便利です。プロンプト解析は入っていないので同じ系統のパターンを出しづらいという弱点はありますが、違った種類の画像が出せます。

バイブストランスファーでキャラ三面図を指定しつつ、キャラクターの顔をマスクし、プロンプトで眼鏡を指定した。その結果、アニメ風キャラになりつつ、眼鏡を掛けたキャラになった

カテゴリートップへ

この連載の記事
ピックアップ