わずか4秒の音声からクローン完成　音声生成AIの実力が想像以上だった

2026年02月16日 07時00分更新

文● 新清士

AI動画向けの音声も（ただし棒読み気味）

　最後に、もう少し演技をさせようと、ミニドラマのようなものが作れないか試してみます。

　前回紹介したAntigravityの環境で、1分程度のミニシナリオを作成しました（参考：「AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに」）。「高校生の田中さんが、彼が付き合っている男性に学校帰りに駅から電話している」というシチュエーションとします。その上で、Qwen-TTSで音声を出力し、また画像をNano Banana Proでシナリオに応じたマルチカットシーンをいくつか作成します。それぞれのシーンに合わせて映像編集ソフトで音声を編集します（筆者はPremiere Proを使用）。

Nano Banana Proを使って作成したイメージボード

　その画像を使って、「InfiniteTalk」を使って口パクシーンを作成します。Infinite Talkは、中国の研究チームが開発した技術で、2025年8月に公開されました。「Wan2.2」を拡張したもので、一枚の画像から口パクの動作を美しく作成してくれるものです。安定的に動かすには16GBのVRAMが必要ですが、ローカルPC上でも動くのが強みです。

　それらのシーンを生成後に結合して、一連のアニメーションにします。音楽はSunoで作成したものです。演技については、かなり棒読み感があるのは事実ですが、それでも、ドラマとして成立してはいるように思います。こうした形での簡単なアニメーションを、数時間程度の作業で作成することができます。それなりに高品質な音声を自由に作れることで、表現の幅を探りやすくなると感じます。

田中さんの放課後～駅の自販機」

革命的だが、リスクも

　Qwen3-TTSで、ここまで手軽に、品質高く、似たような声を出せるようになったことは、革命的とも言えます。

　一方で、参考音声は4秒だけで似た音声が出せるということは、ディープフェイク音声もますます手軽に作れるとも言えます。一般的な利用は広がると予想がつきますが、同時に課題も生まれてくると考えられます。例えば、FALでは、アダルトボイスの生成には制限がかかっています。

　まだ演技力に課題があるとはいえ、技術革新がここで止まるとは考えにくいです。手軽に、精度高く、より人間らしく演じられるように発展が続くのは確実です。社会にどのような影響がもたらされるのかは、予見が難しい状況が続くと思われます。

■関連サイト

筆者紹介：新清士（しんきよし）

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。

前へ 1 2 3 4 5 次へ

ツイートする

カテゴリートップへ