アリババの研究グループは2月27日、1枚の写真と歌声や話し声の音声データを入力すると、表情豊かな音声アバタービデオを生成できるAIフレームワーク「EMO」を発表した。
オードリーが歌い出す!
動画デモではオードリー・ヘップバーンが歌を歌ったりスピーチをしている動画を見ることができる。表情や口の動きが歌声やセリフと驚くほど自然にフィットしているのがわかる。
歌唱デモでは、英語だけではなく日本語や中国語といった多言語にも対応しており、音声の変化から自然な口の動きを生成するという。
写真だけではなく肖像画や絵画、3Dモデル、AI生成コンテンツなど、どんな画像でもリアルな動きでアニメーション化できるという。
類似技術と比較しても、「EMO(表記はOurs)」の動きがいちばん自然に見える。
2種類のエンコーダーを組み合わせて使用
技術的には、参照動画から顔の特徴や動きのデータを抽出(フレームエンコーディング)し、別のエンコーダーで音声を分析、2つを組み合わせて動く顔の動画を生成している。
この過程で、顔のどの部分が動くか制御する「領域マスク」や「バックボーンネットワーク」といった操作で動画の品質をアップしている。
さらに「Reference-Attention」「Audio-Attention」という2種類のAttentionメカニズムと呼ばれる技術で、動画内の人物が自然に見えるようにし、最後に「Temporal」モジュールで動きの速さやリズムを調整。これで音声にぴったり合った動きを作り出すことができるという。
ソース公開に期待
なお、アリババは2023年11月にも画像1枚から高品質な動画が作れる「Animate Anyone」を発表している。
現状「Animate Anyone」「EMO」両方がデモのみの公開となっているが、どちらもGitHub上にレポジトリーは作成されており、準備ができしだい公開されるのではないかと期待されている。