生成時間は4090搭載機で約50秒
Qwen3-TTSは、2種類の違うサイズのモデルとその派生モデルが公開されています。0.6B(6億パラメータ)はストリーミング用途などを想定した軽量モデルで、1.7B(17億パラメータ)は品質を追求したモデルです。ただし、ファイルサイズは0.6Bで1.7GB、1.7Bが4.4GB程度で、比較的小さなサイズです。対応言語は10言語。日本語も含まれており、プロンプト指定も日本語で可能です。NVIDIA RTX 4090搭載のPCで1.7Bを使用した場合、30秒の音声を生成するために必要な時間は約50秒でした。
ローカルPC用の生成AIアプリ「ComfyUI」で動作するのですが、ファイルの依存環境のバージョンが最新のComfyUI環境では動作しないという問題があります。そのため、普段使っている環境とは別に新しくComfyUIをインストールした上、DarioFTさんが公開している動作環境を構築して、ワークフローを起動したところ、簡単に動作しました。以下の作例はいずれも1.7Bで生成したものです。
AIクラウドサービス等も利用できます。「FAL」では1.7Bで1分あたり0.0008ドル(約0.12円)と、非常に格安な設定で提供されています。
実在の人物やアニメの音声などを使って生成した音声を公開すると様々な問題が生まれる可能性があるため、良い参照音声がないかと考えるなか、動画AIが生成した音声を使うことを思いつきました。以前、AIキャラクターの“田中さん”を使って新年の挨拶動画を作成していたのですが、その音声を切り出して使ってみることにします。Bytedanceの動画生成AI「Seedance 2」で生成した動画です。この音声は気に入っていたのですが、動画AIは新しく生成するたびに声質が変わるため、固定する方法がないかと模索していました。
以下の動画は、前半が「あけましておめでとうございます」という元の音声です。後半がやはりこの連載の原稿を読み上げる32秒の音声です。イントネーションの不自然さは少しあるものの、元々の音声をかなりうまく再現しており、普通に読み上げている音声になっていることがわかります。全体的に美しくやわらかい音声で、人間の実際の声が話しているような臨場感も感じられます。
テキストプロンプトでも生成される音声の方向を若干調整できるのですが、リファレンスの音の影響力が強く、たとえばハキハキと話す田中さんを、ささやき声にするほどに極端に変えることはできません。
▲田中さんを使った読み上げの作例

この連載の記事
-
第143回
AI
AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに -
第142回
AI
数枚の画像とAI動画で“VTuber”ができる!? 「MotionPNG Tuber」という新発想 -
第141回
AI
AIエージェントにお金を払えば、誰でもゲームを作れてしまうという衝撃の事実 開発者の仕事はどうなる? -
第140回
AI
3Dモデル生成AIのレベルが上がった 画像→3Dキャラ→動画化が現実的に -
第139回
AI
AIフェイクはここまで来た 自分の顔で試して分かった“違和感”と恐怖 -
第138回
AI
数百万人が使う“AI彼女”アプリ「SillyTavern」が面白い -
第137回
AI
画像生成AI「Nano Banana Pro」で判明した“ストーリーボード革命” -
第136回
AI
画像生成AIの歴史を変えたNano Banana “一貫性の壁”が突破された2025年を振り返る -
第135回
AI
実在感が恐ろしいレベル 画像生成AIの常識をひっくり返した「Nano Banana Pro」 -
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 - この連載の一覧へ





