ウェブカメラからのリアルタイム生成が可能に
LCMの活用として、非常に面白いのがimage2imageです。爆速で処理ができるため、映像を使った「リアルタイム生成」ができるんですね。無料でウェブカメラの画像を専用のControlNetを使って変換できるデモが公開されているので、実際に試してみました。
Real-Time Latent Consistency Model
画面左上に映っているのが筆者です。プロンプトに「boy」と入れると顔が少年になり、「man」にすると老人になる。seaと入れると背景が海になり、「window」と入れると本棚が窓枠に変わり、「ship」と入れると船があらわれ……といった具合に、映像が変化していきます。ほかにもビールを飲ませたり、猫を出したり、筆者と筆者の部屋の情報をソースにどんどん映像を変えていけるんですね。ただ、自分を美少女にすることはできても、美少女をそばに出し続けるのは難しかったんですが……(笑)。
Stable Diffusionでもリアルタイム生成はできなくはないですが、生成速度的にここまでのことはできません。デモ環境はサーバーサイドでNVIDIA A100を使っていますが、Linux環境を構築できれば、Windows上にも作成可能なようです。モデルが軽量化することで将来的にはリアルタイムが可能な環境になるということですね。現在は画像のシード値を固定しているだけなので、動画にしたとき完全な一貫性を維持できないところは今までと同様ですが、将来的な可能性を感じさせるには十分です(※シード値は画像生成時に割り振られる疑似乱数のこと。値を固定することで似た画像を生成可能)。
今後、リアルタイム動画生成が進んでいけば、画像からアニメーションを作るAnimateDiffにも応用が利くのではないかと期待されています。AnimateDiffも様々なアプローチが出ていますが、現状は動画をもとにVideo2Videoで生成した方がきれいに出る傾向があります。
Using a latent consistency model for video2video is fast, but it needs control mechanisms.
— fofr (@fofrAI) October 28, 2023
The speed means you can do high frame rate video conversions. But the lack of control makes it a mess.
180 frames in 55 seconds:https://t.co/Y13KKTdAtppic.twitter.com/CMaWM62C9A
▲Video 2 Videoを試した例。高速に処理できるが、ControlNetなど制御の仕組みがないので、生成画像に混乱が起きている
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ