14Bモデルも軽量化・高速化で扱いやすく
とはいえ、14Bは元のサイズが非常に大きく、HighモデルとLowモデルがそれぞれ約57GBもあり、合計すると約114GBにも達します。そのため、筆者のNVIDIA RTX 4090(VRAM24GB)のローカルPC環境であっても、ロードするデータ量がVRAMからあふれかえり、メモリがスワップしてしまいます。当初の公式ワークフローの環境では、4秒の動画を生成するために80分もかかってしまいました。そのため、リリース直後はとても使い物にならないという印象でした。
ただ、ユーザーにより、14Bのデータを量子化してファイルサイズの圧縮が図られたGGUFファイルがすぐ登場しました。筆者が利用している14B Q4は(Qは量子化の圧縮率を示す)モデルは、それぞれが約9GBとなるため、合計で約16GBとなり、他のファイルも含めて480pのサイズの生成であれば、RTX 4090のVRAMサイズにギリギリ収まります。
さらに、高速化技術「Lightx2v」のWan2.2対応版LoRAも登場しました。この技術は、北京航空航天大学といった中国の研究者や、中国の主要AI研究機関の一つ商湯科技研究院(SenseTime Research)開発者を中心に開発されている高速化のオープンソースフレームワーク「ModelTC」の1つです。効率的な生成を可能にする蒸留技術を組み合わせ、劇的な高速化を実現します。
Light2XVは、Wan2.2の動画生成には40~50回(ステップ)の生成プロセスを必要としますが、それをわずか4~6ステップまで短縮します。ステップの多さは、そのまま生成にかかる時間に直結します。GGUFファイルを導入し、LoRAとしてLight2XVを導入し、生成サイズを832x480にすることで、RTX 4090のローカルPCで4秒の生成にかかる時間は3分を切るまで短くなります。ステップ数を減らすことは、動画の大きな動きの抑制が起こりがちになるという弱点もあるのですが、圧倒的な扱いやすさは、それらを補うに余りあるものです。

この連載の記事
-
第144回
AI
わずか4秒の音声からクローン完成 音声生成AIの実力が想像以上だった -
第143回
AI
AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに -
第142回
AI
数枚の画像とAI動画で“VTuber”ができる!? 「MotionPNG Tuber」という新発想 -
第141回
AI
AIエージェントにお金を払えば、誰でもゲームを作れてしまうという衝撃の事実 開発者の仕事はどうなる? -
第140回
AI
3Dモデル生成AIのレベルが上がった 画像→3Dキャラ→動画化が現実的に -
第139回
AI
AIフェイクはここまで来た 自分の顔で試して分かった“違和感”と恐怖 -
第138回
AI
数百万人が使う“AI彼女”アプリ「SillyTavern」が面白い -
第137回
AI
画像生成AI「Nano Banana Pro」で判明した“ストーリーボード革命” -
第136回
AI
画像生成AIの歴史を変えたNano Banana “一貫性の壁”が突破された2025年を振り返る -
第135回
AI
実在感が恐ろしいレベル 画像生成AIの常識をひっくり返した「Nano Banana Pro」 -
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 - この連載の一覧へ





