このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第92回

動画生成AI、ついにアダルトの扉が開く

2025年01月27日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

 動画生成AIモデル「Hunyuan(フンユエン)Video」が盛り上がっています。2024年12月に中国のIT大手テンセントが発表したもので、130億パラメータを持ち、動画品質の高さや動きの安定性で高い水準を維持できるという点で話題になりました。しかも、その学習済みデータがオープンモデルとして公開されたということもあり、ローカルPC環境で高品質な動画生成が可能になるのではと、期待が集まったのです。実際、動画生成をVRAM 8GB環境でも生成できるようになったことで、使いやすいものになりました。ただ、まだ品質は成長途上です。LoRAが作れるようになったことで広がりが出てきていますが、課題も出ています。また、オープンモデルとして自動で動画に効果音をつけてくれる「MMAudio」といった研究も登場し、ローカルPC上でのAI動画生成環境も広がりを見せはじめています。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

VRAM 8GBでも動作可能に

 Hunyuan Videoは、リリース直後は手軽に手が届かないスペックでした。要求されるハードは最小構成でVRAM 45GB、推奨構成では60GBものサイズで、ローカル環境では動作が不可能というものでした。ところが、リリース後にユーザーたちによって量子化(軽量化)が進められました。12月21日には、ComfyUIがネイティブサポートを発表、使用環境のVRAMに合わせてメモリ使用量を管理する仕組みが入り、手軽に扱えるようになりました。12月29日にはさらに軽量化が進み、ComfyUIではVRAM 8GBでも動作可能になったと発表されました。

 どれくらいの実力なのか。ComfyUIのサンプルのワークフローを使って、設定に合わせてデータを用意しました。使ったチェックポイントは「hunyuan video t2v 720p bf16」で、ファイルサイズは23.8GBです。テキストを解釈するクリップなども利用するため、RTX 4090(VRM24GB)のVRAMのメモリ領域をフルに使用します。クラウドサービスでの動画生成でも生成に3分程度かかりますが、RTX 4090の環境でもやはり時間がかかります。848x480のデフォルト設定の2.5秒の動画を生成するのに4分半程度かかりました。

 「試しに犬と猫とがケンカしている」という動画を生成してみたのですが、出来はすごくいいというほどではありませんでした。犬と猫との形状が、混ざり合ったり、前後があいまいになったりしました。量子化されているデータなので、その分、品質低下は起きているのかもしれないとも思います。

▲4本の動画を作成して結合。効果音は、後述のMMAudioでつけている(以下同様)

 「日本の街中をロボットが歩いている」とすると、コスプレのようなキャラクターが動いたり、ガンダム風のロボットが動いているような動画が出てきましたが、完成度は期待ほどではない印象です。全体の情報量が多すぎるものはあまり得意ではないのかもしれません。

 では、水着の女性のような、人体を対象にしたようなものはどうかというと、まあまあ、見られなくはないという印象の動画になりました。破綻したりすることもあるのですが、まあまあ動くという感じです。生成が完全にランダムであるため、どのような人物が登場するのかはコントロールできません。

 開発中であることは明らかにされていますが、現在はt2v(Text-to-Video)しか公開されておらず、参照画像から動画を生成するi2v(Image-to-Video)の機能がないため、制御はなかなか簡単ではありません。

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ