ウェブカメラからのリアルタイム生成が可能に
LCMの活用として、非常に面白いのがimage2imageです。爆速で処理ができるため、映像を使った「リアルタイム生成」ができるんですね。無料でウェブカメラの画像を専用のControlNetを使って変換できるデモが公開されているので、実際に試してみました。
Real-Time Latent Consistency Model
画面左上に映っているのが筆者です。プロンプトに「boy」と入れると顔が少年になり、「man」にすると老人になる。seaと入れると背景が海になり、「window」と入れると本棚が窓枠に変わり、「ship」と入れると船があらわれ……といった具合に、映像が変化していきます。ほかにもビールを飲ませたり、猫を出したり、筆者と筆者の部屋の情報をソースにどんどん映像を変えていけるんですね。ただ、自分を美少女にすることはできても、美少女をそばに出し続けるのは難しかったんですが……(笑)。
Stable Diffusionでもリアルタイム生成はできなくはないですが、生成速度的にここまでのことはできません。デモ環境はサーバーサイドでNVIDIA A100を使っていますが、Linux環境を構築できれば、Windows上にも作成可能なようです。モデルが軽量化することで将来的にはリアルタイムが可能な環境になるということですね。現在は画像のシード値を固定しているだけなので、動画にしたとき完全な一貫性を維持できないところは今までと同様ですが、将来的な可能性を感じさせるには十分です(※シード値は画像生成時に割り振られる疑似乱数のこと。値を固定することで似た画像を生成可能)。
今後、リアルタイム動画生成が進んでいけば、画像からアニメーションを作るAnimateDiffにも応用が利くのではないかと期待されています。AnimateDiffも様々なアプローチが出ていますが、現状は動画をもとにVideo2Videoで生成した方がきれいに出る傾向があります。
Using a latent consistency model for video2video is fast, but it needs control mechanisms.
— fofr (@fofrAI) October 28, 2023
The speed means you can do high frame rate video conversions. But the lack of control makes it a mess.
180 frames in 55 seconds:https://t.co/Y13KKTdAtppic.twitter.com/CMaWM62C9A
▲Video 2 Videoを試した例。高速に処理できるが、ControlNetなど制御の仕組みがないので、生成画像に混乱が起きている

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ





