誰でもVTuber時代へ　フェイシャルAI技術、続々登場

2024年11月18日 07時00分更新

文● 新清士

3D環境がなくてもVTuberになれる時代へ

　これらの技術は、2021年にNVIDIAが発表した1枚の画像から表情を生み出す研究をきっかけに様々な研究が進んでいるようです。期待されていたのは、ビデオ会議などでアバターを動かすために開発された技術です。いかに高速に処理して、美しく表現するかを競い合いながら、様々な技術開発が進んできました。

　2024年10月には、中国・上海のフクタン（復旦）大学や百度が開発した「Hallo2」という技術が発表されました。

　Hallo2は、1枚の画像からリップシンクの動画を生成できる技術です。これまでと大きく違うのは、4K画質かつ、数十分から数時間の長時間の生成を、一貫性を保ちつつ可能にした点です。デモの動画では、TEDカンファレンスの講演の1つを、アインシュタインの画像が発言する動画になっているのですが、18分もの長さの動画になっています。これまでのフェイシャル系AI技術の、短い時間しか生成できないという限界を打ち破りました。

　この技術によって、長時間の講演などをアバターが話すといったことを実現可能になります。こちらも動作環境が公開されており、若干の専門知識があれば動かすことができます。

Hallo2のGitHubページで紹介されているデモ。長いものでは1時間の動画が作れることが紹介されている

　これまで、表情の動きやその動画は、モーションキャプチャーと3Dでなければ映像を作ることが難しい分野でした。しかし、ウェブカメラさえあれば、1枚の画像、もしくは、動画に対して後から表情付けできるといった、簡易な環境でも同種のフェイシャル動画が作れるような変化が起こりつつあります。もちろん、Act OneもLivePortraitも、まだまだ限界がある技術ではあるのですが、今後も着実に関連技術の品質が向上していくだろうことは容易に予想できます。極端な話、映画を作るにしても、VTuberになるにしても、3D環境がなくても作れるような時代に入ってきています。

筆者紹介：新清士（しんきよし）

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。

■関連サイト

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ