シーンごとにプロンプトを書ける新バージョンも
一方で、本家の開発が止まっている間に、別の系統からもAnimateGiffの移植が出てきています。
「Github(ギットハブ)」は、公開されているコードを誰もが改造して再公開できる仕組み。腕がある人なら、オリジナルのソースを解析し、機能追加版を派生バージョンとして公開できます。そうして公開されたのがnegglesさんの「AnimateDiff-cli」と、それをさらに拡張したs9roll7さんの「Animatediff-cli-prompt-travel」でした。
AnimateDiff-cliは、動作に必要なビデオメモリー消費量を16GBから8GBまで圧縮したバージョン。Animatediff-cli-prompt-travelは、生成する画像に対し、フレームごとに細かなプロンプトを設定して、各シーンの内容を指定できるというものでした。
実際に、この方法論を試されたAsakiさんは、0〜19フレームを「悲しい」、20〜39フレームを「目を閉じる」といった形で、統一したキャラクターを6秒間の動画を生成することに成功しています。
AIアニメーション Text2Video(文章のみから生成)
— Asaki (@Morning_wood17) August 23, 2023
AnimateDiff prompt travel で適用するプロンプトをフレームの途中で変更して動画の内容をコントロール
なんかローカルで環境構築したら生成速度が3倍くらいになって比較的長めの動画も一回で生成できるようになった #AnimateDiff#aianimationpic.twitter.com/54THG1GP2i
ただし現状はJSONフォーマットのコードを書かなければならず、使用時のハードルがあります。今後は使いやすいUIの登場を期待したいところです。
AnimateDiffのユーザーグループで議論が活性化
そんななか、AnimateDiffの技術に高い可能性を見出しているユーザーグループが登場しつつあります。そのひとつである「Banodoco」グループでは、AnimateDiffの特徴なるポイントを6つ上げています。
- ベースモデル/アプローチにより、美しいが範囲を理解できる限定的な結果をもたらす
- 非常にコントロールしやすく、拡張可能であることの強力な証拠が作られている
- 微調整で問題を解決できる証拠が作られている
- Stable Diffusionのエコシステムの上に構築されるため、ビルドが非常に容易である
- ベースモデルを使ったアプローチがスケールできるという証拠がいくつもある
- コミュニティの信念による成長
課題としては、ソースを非公開で開発する商用で動画生成サービスとの競争で不利になるのではという懸念や、まだまだ要求するスペックが高いこと、そもそものムービーモジュールの完成度に限界があることなどが挙げられています。それでも非常に高い可能性があるという議論を展開したうえ、結論では「Stable Diffusion初期はおもちゃのように見えていたけれども、AnimateDiffのようなすごいものができるような兆しが出てきているんじゃないか」と高らかにうたいあげています。
この連載の記事
-
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? - この連載の一覧へ