PCローカル環境で実行する画像生成AIや動画生成AIにおいて、日本人コミュニティから新しい手法の開発が進んでいます。特に、4月に発表されたローカルPC環境向けの動画生成AI「Framepack」の技術を応用した方法論が次々に登場してきているのです。キャラクターの一貫性を維持しながらポーズを変更させる手法や、着せ替えを実現する「kisekaeichi(きせかえいち)」の登場は画期的な方法論です。世界的に見ても先端的な技術ですが、その開発を日本の“野良コミュニティ”が引っ張っています。
※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください
動画生成AI技術で“着せ替え”画像を生成
動画生成AIツール「Framepack」は、伝説のAIツール開発者であるIllyasviel氏が開発した革新的な動画生成技術です。参考となる最終フレームの画像を与えて、そこからの差分を逆算して割り出すことで、動画生成AIの弱点の一つでもあるキャラクターの一貫性を維持したままの動画生成を実現しました(参考:“イリヤ神”がまたやった 動画生成AI「FramePack」が革命的なワケ)。
FramePackは、専用の動画モデルを使うわけではなく、オープンモデルとして公開されているテンセントの「Hunyuan Video」をカスタム化して使用しています。新しい処理方法を使い、動画の生成過程で影響を与えることで、動画AIをコントロールできることがわかった点が重要な発見でした。
そして、さらに「FramePack自体を改造していけば、別の表現方法を実現することが可能なのではないか」という点が関心を集めることになりました。入力画像から任意の動画を生み出す技術を応用し、生成過程の画像を1枚だけ出力する「1フレーム推論」という方法論が登場してきました。
そして、「動画の生成過程で生じる途中段階の画像をうまく抽出することで、服装やポーズなどを指定した画像を生成できるのではない」かという考え方が出てきたのです。
特に大きかったのは、追加学習環境のLoRAの学習・推論環境「Musubi Tuner」を開発していることで世界的に知られるKohya Techさん(以下、Kohyaさん)が公開した「kisekaeichi(着せ替ええいち)」。Framepack用にトレーニングした専用LoRAを使うことで、特定のキャラクターやポーズの画像に、指定の服装をさせることができるという画期的な技術です。もとは開発者のfurusuさんがXへの書き込みでヒントを示して命名したものですが、そこからKohyaさんが実装し、誰でも扱える技術となりました。

Kohya Techさんのkisekaeichi用LoRA作例。さらに改善された「Post-Hoc EMA」も発表されている。1番左側のキャラクター画像に対して、左から2番目の参照する服装画像を指定すると、右のような効果があらわれる。キャラクター画像は服を白色にしたほうが成功確率は上がるようだ。筆者のキャラクター画像も生成前に加工している

この連載の記事
-
第121回
AI
愛していたAIが消えた日 ChatGPTだけと“付き合う”危うさ -
第120回
AI
ラフさえ描けばイラスト作品ほぼ完成 画像生成AI「FLUX.1 Kontext」LoRAが示す制作の未来 -
第119回
AI
無料の動画生成AI「Wan2.2」が凄すぎる PCローカルでこの品質が出せるとは -
第118回
AI
AIの「ASMRボイス」に脳ゾワゾワ 合成音声の進化と、収益化への課題 -
第117回
AI
“18禁”美少女AI「Ani」は孤独を癒すか、深めるか? -
第116回
AI
AIが書いた怪談小説が面白い 2分に1本のペースで出力されるのは驚異的 -
第115回
AI
“一貫性”がすごい画像生成AI 冬服→夏服も一発変換 話題の「FLUX.1 Kontext[dev]」 -
第114回
AI
Midjourneyの動画生成AIが強い 驚きの高性能で価格破壊 -
第113回
AI
AI丸投げのゲーム開発が超楽しい 誰もがプログラムを作る時代は確実に来る -
第112回
AI
楽曲生成AIの進化が凄い 鼻歌からプロ級の曲がポンポンできる - この連載の一覧へ