AI動画向けの音声も(ただし棒読み気味)
最後に、もう少し演技をさせようと、ミニドラマのようなものが作れないか試してみます。
前回紹介したAntigravityの環境で、1分程度のミニシナリオを作成しました(参考:「AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに」 )。「高校生の田中さんが、彼が付き合っている男性に学校帰りに駅から電話している」というシチュエーションとします。その上で、Qwen-TTSで音声を出力し、また画像をNano Banana Proでシナリオに応じたマルチカットシーンをいくつか作成します。それぞれのシーンに合わせて映像編集ソフトで音声を編集します(筆者はPremiere Proを使用)。
その画像を使って、「InfiniteTalk」を使って口パクシーンを作成します。Infinite Talkは、中国の研究チームが開発した技術で、2025年8月に公開されました。「Wan2.2」を拡張したもので、一枚の画像から口パクの動作を美しく作成してくれるものです。安定的に動かすには16GBのVRAMが必要ですが、ローカルPC上でも動くのが強みです。
それらのシーンを生成後に結合して、一連のアニメーションにします。音楽はSunoで作成したものです。演技については、かなり棒読み感があるのは事実ですが、それでも、ドラマとして成立してはいるように思います。こうした形での簡単なアニメーションを、数時間程度の作業で作成することができます。それなりに高品質な音声を自由に作れることで、表現の幅を探りやすくなると感じます。
田中さんの放課後 ~駅の自販機」
革命的だが、リスクも
Qwen3-TTSで、ここまで手軽に、品質高く、似たような声を出せるようになったことは、革命的とも言えます。
一方で、参考音声は4秒だけで似た音声が出せるということは、ディープフェイク音声もますます手軽に作れるとも言えます。一般的な利用は広がると予想がつきますが、同時に課題も生まれてくると考えられます。例えば、FALでは、アダルトボイスの生成には制限がかかっています。
まだ演技力に課題があるとはいえ、技術革新がここで止まるとは考えにくいです。手軽に、精度高く、より人間らしく演じられるように発展が続くのは確実です。社会にどのような影響がもたらされるのかは、予見が難しい状況が続くと思われます。

この連載の記事
-
第143回
AI
AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに -
第142回
AI
数枚の画像とAI動画で“VTuber”ができる!? 「MotionPNG Tuber」という新発想 -
第141回
AI
AIエージェントにお金を払えば、誰でもゲームを作れてしまうという衝撃の事実 開発者の仕事はどうなる? -
第140回
AI
3Dモデル生成AIのレベルが上がった 画像→3Dキャラ→動画化が現実的に -
第139回
AI
AIフェイクはここまで来た 自分の顔で試して分かった“違和感”と恐怖 -
第138回
AI
数百万人が使う“AI彼女”アプリ「SillyTavern」が面白い -
第137回
AI
画像生成AI「Nano Banana Pro」で判明した“ストーリーボード革命” -
第136回
AI
画像生成AIの歴史を変えたNano Banana “一貫性の壁”が突破された2025年を振り返る -
第135回
AI
実在感が恐ろしいレベル 画像生成AIの常識をひっくり返した「Nano Banana Pro」 -
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 - この連載の一覧へ







