ControlNetのすごさはまだまだ伝わっていない
ControlNetは最新の研究成果を次々に迅速に組み込むことで強力に発展しています。reference-onlyはコーネル大学の研究を組み込んだもののようです。
日本人にもControlNetの貢献者がいます。動画をControlNetに読み込ませることで新しい表現を作ろうという動きが流行り始めていますが、動画変換するためのベース機能「m2m(Movie-to-Movie)」は抹茶もなかさんによって実装されたものです。
最近では中国の大手IT企業のテンセントが独自のControlNetの研究を発表して、A1111 Web UIに組み込んでくるという動きも出てきています。
研究者、開発者、ユーザーなど、世界中の人たちの貢献により、画像生成AIが苦手としていた部分を乗り越える様々な方法が発見され、新しい表現が登場しているわけです。
Reference only(画像を参照できる新技術)を使うと、右上の絵を右下の動きに変換できます
— TDS (@TDS_95514874) May 14, 2023
いろんなパーツが一貫性を保って移動していてかなり可能性を感じますね
髪留めがぴこぴこしてるのかわいい#aiart#初音ミクpic.twitter.com/HvU4zMirlW
そんな革新的なControlNetですが、結局は自分がイメージする画像をより作りやすいので、画家やイラストレーターの方々が支援ツールとして使うというのが最も効果的ではないかと感じています。ただStable Diffusion自体もControlNetの新機能も高いマシンパワーを要求するため、おいそれとは手を出しにくいという側面はあるんですよね。
特にreference-onlyの要求する計算量はとても高いです。今回の作例のような512x768ドットをアップスケールして2倍の1024x1536ドットで出力する場合、1枚当たりの生成時間は、以前「画像生成AI 速いマシンは世界が違う」で紹介したDAIVのNVIDIA GeForce RTX4090(VRAM 24GB)搭載機で1分22秒。VRAMの使用率は約65%に達します。同じくDAIVのNVIDIA A6000搭載機(VRAM 48GB)では1分47秒かかり、VRAMの使用量は約49%となりました。reference-onlyを使わない場合、計算時間は3分の1程度のため、この新機能が計算パワーを必要とすることがわかります。さらに大きな画像サイズで生成するとなると、時間も要求されるVRAMも高くなるのが十分に予想できます。
サンプルイメージを入力して、reference-onlyを使って生成した3枚。ある程度特性が維持できているのがわかる。服はばらけているが、プロンプトなどで情報をカバーすると、かなり共通する雰囲気まで持っていくことができる
動画から動画を生成するm2mはさらに大変です。
数秒の画像データでも1コマ1コマにこの計算量が必要となるため、1秒24フレームの動画を生成するためには4090機であっても32分はかかってしまう計算になります。
もちろん生成サイズを縮小するなど工夫をすることで計算量を減らすことができますが、筆者が768x768ドットで80秒ほどの動画をreference-onlyを使って変換するテスト作業を4090機で試したところ、約9時間もかかりました。CGのプリレンダリングに非常に長い時間がかかっていた20年くらい前に戻ったような気分です。
ControlNetを通じて同じキャラクターを生成できる可能性が出てきたことで、アニメーションなどへの応用も試行されはじめているものの、画像生成AIにとって、コンピュータ性能の成長余地があることがますます明らかになったと言えそうです。
ControlNetの登場とその短期間の進化は、昨年8月にStable Diffusionが出てきたのと同じぐらいのインパクトがありました。ただ、社会全体で見るとStable Diffusion自体を触ったことのある人の数も限られているため、そのすごさがまだまだ伝わってないようにも感じています。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ






