爆速化する画像生成AI。0.5秒で4枚出力、リアルタイム生成できるレベルに

2023年11月13日 08時00分更新

文● 新清士　編集●ASCII

ウェブカメラからのリアルタイム生成が可能に

　LCMの活用として、非常に面白いのがimage2imageです。爆速で処理ができるため、映像を使った「リアルタイム生成」ができるんですね。無料でウェブカメラの画像を専用のControlNetを使って変換できるデモが公開されているので、実際に試してみました。

Real-Time Latent Consistency Model

　画面左上に映っているのが筆者です。プロンプトに「boy」と入れると顔が少年になり、「man」にすると老人になる。seaと入れると背景が海になり、「window」と入れると本棚が窓枠に変わり、「ship」と入れると船があらわれ……といった具合に、映像が変化していきます。ほかにもビールを飲ませたり、猫を出したり、筆者と筆者の部屋の情報をソースにどんどん映像を変えていけるんですね。ただ、自分を美少女にすることはできても、美少女をそばに出し続けるのは難しかったんですが……（笑）。

　Stable Diffusionでもリアルタイム生成はできなくはないですが、生成速度的にここまでのことはできません。デモ環境はサーバーサイドでNVIDIA A100を使っていますが、Linux環境を構築できれば、Windows上にも作成可能なようです。モデルが軽量化することで将来的にはリアルタイムが可能な環境になるということですね。現在は画像のシード値を固定しているだけなので、動画にしたとき完全な一貫性を維持できないところは今までと同様ですが、将来的な可能性を感じさせるには十分です（※シード値は画像生成時に割り振られる疑似乱数のこと。値を固定することで似た画像を生成可能）。

　今後、リアルタイム動画生成が進んでいけば、画像からアニメーションを作るAnimateDiffにも応用が利くのではないかと期待されています。AnimateDiffも様々なアプローチが出ていますが、現状は動画をもとにVideo2Videoで生成した方がきれいに出る傾向があります。

Using a latent consistency model for video2video is fast, but it needs control mechanisms.

The speed means you can do high frame rate video conversions. But the lack of control makes it a mess.

180 frames in 55 seconds:https://t.co/Y13KKTdAtp pic.twitter.com/CMaWM62C9A
— fofr (@fofrAI) October 28, 2023

^{▲Video 2 Videoを試した例。高速に処理できるが、ControlNetなど制御の仕組みがないので、生成画像に混乱が起きている}

前へ 1 2 3 4 5 次へ

ツイートする

カテゴリートップへ

爆速化する画像生成AI。0.5秒で4枚出力、リアルタイム生成できるレベルに

ウェブカメラからのリアルタイム生成が可能に

この連載の記事

この記事の編集者は以下の記事をオススメしています

AI 画像生成AI「Stable Diffusion」の始め方 まずはインストールだ！（環境構築から）

AI 伊藤園「おーいお茶」CMに生成したAIタレントを起用

AI 画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている

AI スマホの次？ アップル出身者が開発する、AI時代のウェアラブル「Humane Ai Pin」とは

AI Googleフォトが進化！「類似写真をスマートグループ化」「イベントをカレンダーに自動追加」

AI 日本語が使える画像生成AI「Japanese Stable Diffusion XL」商用利用もOK

AI 世界トップ級の画像生成AI「Midjourney」更に強力に。ライバル「Stable Diffusion」との違いもはっきり

AI 動画生成AIの時代が来てしまいました。テキストから動画が作れる「Stable Video Diffusion」公開

AI ChatGPTよりすごい!? 15万語に対応 Claude 2.1登場

AI Stability AI Japan、AIを活用するスタートアップを支援するプログラムを開始

AI プーチン大統領、ロシア独自AI開発に言及 西側の独占に懸念

AI アマゾン、ついにチャットAI参入。マイクロソフトより安い「Amazon Q」

AI サム・アルトマンCEO正式復帰 マイクロソフトがOpenAIオブザーバーに

AI 俺のChatGPTこと「GPTs」で最高の英語教師を作り込んだ。題して「冴子先生強化計画」

AI 動画生成AIの進化早すぎ! 画像1枚から高品質な動画が作れる、アリババ製の「Animate Anyone」

AI グーグルが会話型AI「Bard」活用方法ランキングを発表 日本語では「調べ物」がトップ

AI 超進化！ Windowsの定番ソフト「ペイント」が画像生成AI「DALL-E」を搭載

AI 速報！ChatGPTに「引用して質問」機能が実装されていた！

AI これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした

AI 動画生成AI、中国勢強すぎでは? TikTokのバイトダンス等がまたすごいの出してきた

AI IBMとメタがAIアライアンスを発足 AMDやインテル、東京大学など50以上の組織やメンバーが参加

AI ウェブ検索Bing、GPT-4を活用し検索意図を理解する「Deep Search」発表

AI AIに職人技を教えるデータセット、メタが公開 料理、ダンス、バイク修理など

AI グーグルが完全に本気！ 究極のマルチモーダルAIモデル「Gemini」登場！

AI 画像生成AIが爆速で進化した2023年をまとめて振り返る

AI グーグル新AI搭載、ユーザー支援型ノートアプリ「NotebookLM」

AIオススメ記事

ピックアップ

AI
画像生成AI「Stable Diffusion」の始め方　まずはインストールだ！（環境構築から）

AI
伊藤園「おーいお茶」CMに生成したAIタレントを起用

AI
画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている

AI
スマホの次？アップル出身者が開発する、AI時代のウェアラブル「Humane Ai Pin」とは

AI
Googleフォトが進化！「類似写真をスマートグループ化」「イベントをカレンダーに自動追加」

AI
日本語が使える画像生成AI「Japanese Stable Diffusion XL」商用利用もOK

AI
世界トップ級の画像生成AI「Midjourney」更に強力に。ライバル「Stable Diffusion」との違いもはっきり

AI
動画生成AIの時代が来てしまいました。テキストから動画が作れる「Stable Video Diffusion」公開

AI
ChatGPTよりすごい!? 15万語に対応　Claude 2.1登場

AI
Stability AI Japan、AIを活用するスタートアップを支援するプログラムを開始

AI
プーチン大統領、ロシア独自AI開発に言及西側の独占に懸念

AI
アマゾン、ついにチャットAI参入。マイクロソフトより安い「Amazon Q」

AI
サム・アルトマンCEO正式復帰マイクロソフトがOpenAIオブザーバーに

AI
俺のChatGPTこと「GPTs」で最高の英語教師を作り込んだ。題して「冴子先生強化計画」

AI
動画生成AIの進化早すぎ! 画像1枚から高品質な動画が作れる、アリババ製の「Animate Anyone」

AI
グーグルが会話型AI「Bard」活用方法ランキングを発表日本語では「調べ物」がトップ

AI
超進化！ Windowsの定番ソフト「ペイント」が画像生成AI「DALL-E」を搭載

AI
速報！ChatGPTに「引用して質問」機能が実装されていた！

AI
これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした

AI
動画生成AI、中国勢強すぎでは? TikTokのバイトダンス等がまたすごいの出してきた

AI
IBMとメタがAIアライアンスを発足 AMDやインテル、東京大学など50以上の組織やメンバーが参加

AI
ウェブ検索Bing、GPT-4を活用し検索意図を理解する「Deep Search」発表

AI
AIに職人技を教えるデータセット、メタが公開　料理、ダンス、バイク修理など

AI
グーグルが完全に本気！究極のマルチモーダルAIモデル「Gemini」登場！

AI
画像生成AIが爆速で進化した2023年をまとめて振り返る

AI
グーグル新AI搭載、ユーザー支援型ノートアプリ「NotebookLM」