AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。
ノイズ除去をバッチ処理で高速化
「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。
StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス(CFG)に代わり、残差分類器フリーガイダンス(RCFG)アルゴリズムも採用している。
FPS3桁を達成!!
上記の表はNVIDIA GeForce RTX 4090、Core i9-13900K環境で画像を生成した結果だ。SD1.5系モデルの「KohakuV2」に「LCM-LoRA」を適用する設定でtxt2img(テキストから画像生成)が38fps。高速生成が売りの「Stable Diffusion Turbo」だと106fpsとまさかの100超えだ。
さらにNVIDIA GeForce RTX 3060で2.39倍、NVIDIA GeForce RTX 4090で1.99倍のエネルギー消費の削減をそれぞれ実現しているという。
テキストから画像生成はおろか、動画まで生成できる時代が来てしまったようだ。