ControlNetのすごさはまだまだ伝わっていない
ControlNetは最新の研究成果を次々に迅速に組み込むことで強力に発展しています。reference-onlyはコーネル大学の研究を組み込んだもののようです。
日本人にもControlNetの貢献者がいます。動画をControlNetに読み込ませることで新しい表現を作ろうという動きが流行り始めていますが、動画変換するためのベース機能「m2m(Movie-to-Movie)」は抹茶もなかさんによって実装されたものです。
最近では中国の大手IT企業のテンセントが独自のControlNetの研究を発表して、A1111 Web UIに組み込んでくるという動きも出てきています。
研究者、開発者、ユーザーなど、世界中の人たちの貢献により、画像生成AIが苦手としていた部分を乗り越える様々な方法が発見され、新しい表現が登場しているわけです。
Reference only(画像を参照できる新技術)を使うと、右上の絵を右下の動きに変換できます
— TDS (@TDS_95514874) May 14, 2023
いろんなパーツが一貫性を保って移動していてかなり可能性を感じますね
髪留めがぴこぴこしてるのかわいい#aiart#初音ミクpic.twitter.com/HvU4zMirlW
そんな革新的なControlNetですが、結局は自分がイメージする画像をより作りやすいので、画家やイラストレーターの方々が支援ツールとして使うというのが最も効果的ではないかと感じています。ただStable Diffusion自体もControlNetの新機能も高いマシンパワーを要求するため、おいそれとは手を出しにくいという側面はあるんですよね。
特にreference-onlyの要求する計算量はとても高いです。今回の作例のような512x768ドットをアップスケールして2倍の1024x1536ドットで出力する場合、1枚当たりの生成時間は、以前「画像生成AI 速いマシンは世界が違う」で紹介したDAIVのNVIDIA GeForce RTX4090(VRAM 24GB)搭載機で1分22秒。VRAMの使用率は約65%に達します。同じくDAIVのNVIDIA A6000搭載機(VRAM 48GB)では1分47秒かかり、VRAMの使用量は約49%となりました。reference-onlyを使わない場合、計算時間は3分の1程度のため、この新機能が計算パワーを必要とすることがわかります。さらに大きな画像サイズで生成するとなると、時間も要求されるVRAMも高くなるのが十分に予想できます。
動画から動画を生成するm2mはさらに大変です。
数秒の画像データでも1コマ1コマにこの計算量が必要となるため、1秒24フレームの動画を生成するためには4090機であっても32分はかかってしまう計算になります。
もちろん生成サイズを縮小するなど工夫をすることで計算量を減らすことができますが、筆者が768x768ドットで80秒ほどの動画をreference-onlyを使って変換するテスト作業を4090機で試したところ、約9時間もかかりました。CGのプリレンダリングに非常に長い時間がかかっていた20年くらい前に戻ったような気分です。
ControlNetを通じて同じキャラクターを生成できる可能性が出てきたことで、アニメーションなどへの応用も試行されはじめているものの、画像生成AIにとって、コンピュータ性能の成長余地があることがますます明らかになったと言えそうです。
ControlNetの登場とその短期間の進化は、昨年8月にStable Diffusionが出てきたのと同じぐらいのインパクトがありました。ただ、社会全体で見るとStable Diffusion自体を触ったことのある人の数も限られているため、そのすごさがまだまだ伝わってないようにも感じています。
この連載の記事
-
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に -
第76回
AI
「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」 -
第75回
AI
商業漫画にAIが使われるようになってきた - この連載の一覧へ