このページの本文へ

新清士の「メタバース・プレゼンス」 第23回

画像生成AIに2度目の革命を起こした「ControlNet」

2023年05月22日 09時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

たった1枚の画像からタッチを再現する「reference-only(リファレンスオンリー)」の衝撃

 そして5月13日に追加されたのが「reference-only(リファレンスオンリー)」という、さらに驚くべき機能でした。これは1枚の入力画像を指定するだけで、その画像が持っている特徴量を抽出し、生成する画像に反映させるという機能です。

 漫画家の井上純一さんが機能を試しています。自分で描かれた絵を入力して、画像を生成してみたところ、自分のタッチをそのまま反映した画像が出てきたことを報告しています。

 画像生成AIが今なお抱えている技術的課題は、キャラクターにしても何にしても、首尾一貫したデザインが苦手という点です。これは特徴量空間から乱数で画像を生成するというシステムの特性上、画像生成AIに一貫性という概念が存在しないためです。

 30枚程度の画像から特定概念を追加学習する「LoRa(Low-Rank Adaptation of Large Language Models)」という方法などを使おうという試みもありましたが、LoRaでもバラつきが生まれてしまい、完全な再現はできないことが多かったんですね。

 しかしreference-onlyはたった1枚の入力画像から同じような雰囲気の再現に成功してしまいました。表現にはまだブレがあるものの、他のControlNetの機能を組み合わせることでかなり再現性の高い画像を作り出せるようになってきたという報告もあります。

 さらにReference機能にも2種類の方式が追加され、「元画像を参照しながらもちょっと違う画風にする」という機能も登場してきています。

筆者が「reference-only」を使って、葛飾北斎の神奈川沖浪裏を読み込ませたもの。プロンプトは画像から生成できる「Interrogate Clip」という機能を使い作成後、Surfer(サーファー)という単語を追加したり若干修正している

新規に追加された「reference-adain」という機能を使い、同じく葛飾北斎の神奈川沖浪裏から生成した画像。似ているが、ちょっと違った雰囲気の画風に変わっている

カテゴリートップへ

この連載の記事
ピックアップ