わずか4秒の音声からクローン完成　音声生成AIの実力が想像以上だった

2026年02月16日 07時00分更新

文● 新清士

生成時間は4090搭載機で約50秒

　Qwen3-TTSは、2種類の違うサイズのモデルとその派生モデルが公開されています。0.6B（6億パラメータ）はストリーミング用途などを想定した軽量モデルで、1.7B（17億パラメータ）は品質を追求したモデルです。ただし、ファイルサイズは0.6Bで1.7GB、1.7Bが4.4GB程度で、比較的小さなサイズです。対応言語は10言語。日本語も含まれており、プロンプト指定も日本語で可能です。NVIDIA RTX 4090搭載のPCで1.7Bを使用した場合、30秒の音声を生成するために必要な時間は約50秒でした。

　ローカルPC用の生成AIアプリ「ComfyUI」で動作するのですが、ファイルの依存環境のバージョンが最新のComfyUI環境では動作しないという問題があります。そのため、普段使っている環境とは別に新しくComfyUIをインストールした上、DarioFTさんが公開している動作環境を構築して、ワークフローを起動したところ、簡単に動作しました。以下の作例はいずれも1.7Bで生成したものです。

　AIクラウドサービス等も利用できます。「FAL」では1.7Bで1分あたり0.0008ドル（約0.12円）と、非常に格安な設定で提供されています。

　実在の人物やアニメの音声などを使って生成した音声を公開すると様々な問題が生まれる可能性があるため、良い参照音声がないかと考えるなか、動画AIが生成した音声を使うことを思いつきました。以前、AIキャラクターの“田中さん”を使って新年の挨拶動画を作成していたのですが、その音声を切り出して使ってみることにします。Bytedanceの動画生成AI「Seedance 2」で生成した動画です。この音声は気に入っていたのですが、動画AIは新しく生成するたびに声質が変わるため、固定する方法がないかと模索していました。

　以下の動画は、前半が「あけましておめでとうございます」という元の音声です。後半がやはりこの連載の原稿を読み上げる32秒の音声です。イントネーションの不自然さは少しあるものの、元々の音声をかなりうまく再現しており、普通に読み上げている音声になっていることがわかります。全体的に美しくやわらかい音声で、人間の実際の声が話しているような臨場感も感じられます。

　テキストプロンプトでも生成される音声の方向を若干調整できるのですが、リファレンスの音の影響力が強く、たとえばハキハキと話す田中さんを、ささやき声にするほどに極端に変えることはできません。