動画生成AIモデル「Hunyuan(フンユエン)Video」が盛り上がっています。2024年12月に中国のIT大手テンセントが発表したもので、130億パラメータを持ち、動画品質の高さや動きの安定性で高い水準を維持できるという点で話題になりました。しかも、その学習済みデータがオープンモデルとして公開されたということもあり、ローカルPC環境で高品質な動画生成が可能になるのではと、期待が集まったのです。実際、動画生成をVRAM 8GB環境でも生成できるようになったことで、使いやすいものになりました。ただ、まだ品質は成長途上です。LoRAが作れるようになったことで広がりが出てきていますが、課題も出ています。また、オープンモデルとして自動で動画に効果音をつけてくれる「MMAudio」といった研究も登場し、ローカルPC上でのAI動画生成環境も広がりを見せはじめています。
※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください
VRAM 8GBでも動作可能に
Hunyuan Videoは、リリース直後は手軽に手が届かないスペックでした。要求されるハードは最小構成でVRAM 45GB、推奨構成では60GBものサイズで、ローカル環境では動作が不可能というものでした。ところが、リリース後にユーザーたちによって量子化(軽量化)が進められました。12月21日には、ComfyUIがネイティブサポートを発表、使用環境のVRAMに合わせてメモリ使用量を管理する仕組みが入り、手軽に扱えるようになりました。12月29日にはさらに軽量化が進み、ComfyUIではVRAM 8GBでも動作可能になったと発表されました。
どれくらいの実力なのか。ComfyUIのサンプルのワークフローを使って、設定に合わせてデータを用意しました。使ったチェックポイントは「hunyuan video t2v 720p bf16」で、ファイルサイズは23.8GBです。テキストを解釈するクリップなども利用するため、RTX 4090(VRM24GB)のVRAMのメモリ領域をフルに使用します。クラウドサービスでの動画生成でも生成に3分程度かかりますが、RTX 4090の環境でもやはり時間がかかります。848x480のデフォルト設定の2.5秒の動画を生成するのに4分半程度かかりました。
「試しに犬と猫とがケンカしている」という動画を生成してみたのですが、出来はすごくいいというほどではありませんでした。犬と猫との形状が、混ざり合ったり、前後があいまいになったりしました。量子化されているデータなので、その分、品質低下は起きているのかもしれないとも思います。
▲4本の動画を作成して結合。効果音は、後述のMMAudioでつけている(以下同様)
「日本の街中をロボットが歩いている」とすると、コスプレのようなキャラクターが動いたり、ガンダム風のロボットが動いているような動画が出てきましたが、完成度は期待ほどではない印象です。全体の情報量が多すぎるものはあまり得意ではないのかもしれません。
では、水着の女性のような、人体を対象にしたようなものはどうかというと、まあまあ、見られなくはないという印象の動画になりました。破綻したりすることもあるのですが、まあまあ動くという感じです。生成が完全にランダムであるため、どのような人物が登場するのかはコントロールできません。
開発中であることは明らかにされていますが、現在はt2v(Text-to-Video)しか公開されておらず、参照画像から動画を生成するi2v(Image-to-Video)の機能がないため、制御はなかなか簡単ではありません。

この連載の記事
-
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 - この連載の一覧へ