このページの本文へ

前へ 1 2 3 次へ

新清士の「メタバース・プレゼンス」 第85回

誰でもVTuber時代へ フェイシャルAI技術、続々登場

2024年11月18日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

フェイシャルを変換して動かしている表情の例。左がRunway Act-Oneで、右がLivePortrait(筆者作成)

 画像や動画の顔の表情の動き(フェイシャル)をコントロールしようという、非常に品質の高いAI技術が、この夏以降、次々にリリースされてきています。10月27日にリリースされた動画AI「Runway」の新機能「Act-One」を使うと、画像に対し、動画を使ってフェイシャルを付けられます。また、ローカルPCの環境で動かせるポートレート動画生成AI「LivePortrait」もその品質の高さから評価を集めています。実際、どの程度の描写が実現できるのかを試してみました。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

一人二役で演技ができる「Act-One」

 Act-Oneの発表で特にインパクトがあったのは、1分ほどの独り芝居の動画です。

 2人の男性がレストランで話しているという構成ですが、動画の最後のメイキングで、一人の人物が二役をやっている様子が紹介されます。撮影された人物の微妙な首の動きや、口の動きが、「Act One」を使って画像に反映されています。参照する画像は最大30秒までで、カメラワークは正面を向いた固定された画像である必要があるという制限があるものの、生成された人物は非常に自然に見えます。

 筆者も試してみました。元の画像は、Midjouneryで作成した老人の画像としました。元となる実写動画が必要なため、ウェブカメラで撮影しました。通常の動画生成は3分程度で生成できるのですが、この動画の生成には順番待ちを含めて10分程度と少し長めの時間がかかります。作成された動画は、イラスト風の画像であっても、頭の動きが反映されます。

△生成した動画

Runway Act-Oneの設定画面。参照動画と反映させたい画像を指定している

 今度は、この連載でおなじみの生成AIキャラクター「明日来子さん」の作例画像に当てはめてみました。「吾輩は猫である」の冒頭を、筆者が読み上げる様子をウェブカメラで録画したものです。音声は声音変換サービス「Replica」を使い、筆者の声を女性声に変換しています。それを後から動画編集ソフトで合わせています。Replicaの音声データは、英語圏の人の声のようで、かなり英語なまりのある日本語になっていますが、一応は成り立っています。ただ、録画時にどうしてもモニターのセリフを読んでしまうので、目線がモニターの方を向いているのがわかってしまいます。ちゃんとカメラを向いて演技しないとだめなのだなと感じたりもしました。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事
ピックアップ