このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第144回

わずか4秒の音声からクローン完成 音声生成AIの実力が想像以上だった

2026年02月16日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

AI動画向けの音声も(ただし棒読み気味)

 最後に、もう少し演技をさせようと、ミニドラマのようなものが作れないか試してみます。

 前回紹介したAntigravityの環境で、1分程度のミニシナリオを作成しました(参考:「AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに」 )。「高校生の田中さんが、彼が付き合っている男性に学校帰りに駅から電話している」というシチュエーションとします。その上で、Qwen-TTSで音声を出力し、また画像をNano Banana Proでシナリオに応じたマルチカットシーンをいくつか作成します。それぞれのシーンに合わせて映像編集ソフトで音声を編集します(筆者はPremiere Proを使用)。

Nano Banana Proを使って作成したイメージボード

 その画像を使って、「InfiniteTalk」を使って口パクシーンを作成します。Infinite Talkは、中国の研究チームが開発した技術で、2025年8月に公開されました。「Wan2.2」を拡張したもので、一枚の画像から口パクの動作を美しく作成してくれるものです。安定的に動かすには16GBのVRAMが必要ですが、ローカルPC上でも動くのが強みです。

 それらのシーンを生成後に結合して、一連のアニメーションにします。音楽はSunoで作成したものです。演技については、かなり棒読み感があるのは事実ですが、それでも、ドラマとして成立してはいるように思います。こうした形での簡単なアニメーションを、数時間程度の作業で作成することができます。それなりに高品質な音声を自由に作れることで、表現の幅を探りやすくなると感じます。

田中さんの放課後 ~駅の自販機」

革命的だが、リスクも

 Qwen3-TTSで、ここまで手軽に、品質高く、似たような声を出せるようになったことは、革命的とも言えます。

 一方で、参考音声は4秒だけで似た音声が出せるということは、ディープフェイク音声もますます手軽に作れるとも言えます。一般的な利用は広がると予想がつきますが、同時に課題も生まれてくると考えられます。例えば、FALでは、アダルトボイスの生成には制限がかかっています。

 まだ演技力に課題があるとはいえ、技術革新がここで止まるとは考えにくいです。手軽に、精度高く、より人間らしく演じられるように発展が続くのは確実です。社会にどのような影響がもたらされるのかは、予見が難しい状況が続くと思われます。

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ