このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第142回

数枚の画像とAI動画で“VTuber”ができる!? 「MotionPNG Tuber」という新発想

2026年02月02日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

MotionPNG Tuberを使った口の位置推定(右)、MouthSpriteExtractor-SAM3による口の候補(左)(筆者作成)

 バーチャルYouTuber(VTuber)などに見られるアバターを使って、自由に自分を表現したいという技術は、VRMフォーマットを使った3Dアバターであったり、Live2Dを使った2Dデータの組み合わせで表現されるのが一般的です。しかし、それぞれの技術はデータ作成が複雑でした。いま、そこにAI技術を組み合わせることで、もっと簡単に実現できないかという新しい方法が、Xを中心とした日本人のコミュニティから、登場してきています。

ループ動画に合わせて目と口を動かす

 ろてじんさん(@rotejin)が制作している「MotionPNG Tuber」は、AI動画に合わせて目と口を動かすようにすることで、VTuberのような仕組みにしようという画期的な方法論です。AI動画向けに音声のリップシンクを実現する動画環境はクラウドサービスやローカル環境など複数登場していますが、まだリアルタイムに動かすことができません。VTuberのようにリアルタイムに話したことを、そのまま応答することはできないのです。

 しかし、動画に音声に合わせた口パクをリアルタイムに重ね合わせることが実現できれば、簡易的なVTuberのような仕組みが作れるのでは、というのが着目点です。

 実際に、作り方に従って筆者が作成したのが、以下の動画です。話している音声に合わせて口が動いています。

△MotionPNG Tuberの筆者の作例

 ろてじんさんは当初、PNG形式の画像データ4枚だけを使って実現するPNG Tuberを試されていました。「開いた目と開いた口」、「閉じている目と閉じている口」などの組み合わせ4枚を使い、音声に合わせて口パクをさせる仕組みです。

△ろてじんさんのX投稿より

 音声に合わせて用意した画像を切り替えるだけでいいので、手軽に作れることもあり、様々な人が挑戦してきています。筆者も、Google AI StudioのBuildで簡易的な環境「PNG TUBE Studio」というアプリを作ってみました。4枚の差分画像があれば、音声に合わせて口パク、適宜の目パチをしてくれるというものです。

△PNG TUBE Studioで動かしている状態

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ