このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第111回

画像生成AI、日本の開発者コミュニティが熱い 世界最先端の “新手法”続々

2025年06月16日 11時30分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

 PCローカル環境で実行する画像生成AIや動画生成AIにおいて、日本人コミュニティから新しい手法の開発が進んでいます。特に、4月に発表されたローカルPC環境向けの動画生成AI「Framepack」の技術を応用した方法論が次々に登場してきているのです。キャラクターの一貫性を維持しながらポーズを変更させる手法や、着せ替えを実現する「kisekaeichi(きせかえいち)」の登場は画期的な方法論です。世界的に見ても先端的な技術ですが、その開発を日本の“野良コミュニティ”が引っ張っています。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

動画生成AI技術で“着せ替え”画像を生成

 動画生成AIツール「Framepack」は、伝説のAIツール開発者であるIllyasviel氏が開発した革新的な動画生成技術です。参考となる最終フレームの画像を与えて、そこからの差分を逆算して割り出すことで、動画生成AIの弱点の一つでもあるキャラクターの一貫性を維持したままの動画生成を実現しました(参考:“イリヤ神”がまたやった 動画生成AI「FramePack」が革命的なワケ)。

 FramePackは、専用の動画モデルを使うわけではなく、オープンモデルとして公開されているテンセントの「Hunyuan Video」をカスタム化して使用しています。新しい処理方法を使い、動画の生成過程で影響を与えることで、動画AIをコントロールできることがわかった点が重要な発見でした。

 そして、さらに「FramePack自体を改造していけば、別の表現方法を実現することが可能なのではないか」という点が関心を集めることになりました。入力画像から任意の動画を生み出す技術を応用し、生成過程の画像を1枚だけ出力する「1フレーム推論」という方法論が登場してきました。

 そして、「動画の生成過程で生じる途中段階の画像をうまく抽出することで、服装やポーズなどを指定した画像を生成できるのではない」かという考え方が出てきたのです。

 特に大きかったのは、追加学習環境のLoRAの学習・推論環境「Musubi Tuner」を開発していることで世界的に知られるKohya Techさん(以下、Kohyaさん)が公開した「kisekaeichi(着せ替ええいち)」。Framepack用にトレーニングした専用LoRAを使うことで、特定のキャラクターやポーズの画像に、指定の服装をさせることができるという画期的な技術です。もとは開発者のfurusuさんがXへの書き込みでヒントを示して命名したものですが、そこからKohyaさんが実装し、誰でも扱える技術となりました。

kisekaeichiの作例。下が服の参照元とした画像で、様々な服を指定すると、それがキャラクターに反映されている。複雑な服装は完全に再現はできていないが、かなり近い画像が生み出している

Kohya Techさんのkisekaeichi用LoRA作例。さらに改善された「Post-Hoc EMA」も発表されている。1番左側のキャラクター画像に対して、左から2番目の参照する服装画像を指定すると、右のような効果があらわれる。キャラクター画像は服を白色にしたほうが成功確率は上がるようだ。筆者のキャラクター画像も生成前に加工している

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ