わずか4秒から再現できる仕組みとは
従来の音声合成モデル「Style-Bert-VITS2」のモデルは、比較的決められた声を学習しやすいと言われてきました。様々な音声を学習した基盤モデルを使って、10~20分の特定の声の音声データセットを用意して追加学習をさせることで、似た声を出力できるようになります。その結果、安定的に元の音声に似た声を作れるようになるのです。ただし課題があり、優れたデータを作るには、クリアで多様な音声データを用意する必要がありました。
一方、Qwen3-TTSは、より動画生成AIに近いアプローチを取っています。500万時間を超えるデータを、音声を1つずつトークン化して訓練しているとされています。その結果、LLMが文章を意味単位でトークン化するのと同様に、音声を音韻のような単位に分解し、プロンプトに対して「次にこの音が来るだろう」と予測して出力する仕組みになっています。
イメージとしては、画像生成AIのi2i(Image-to-image)を使っているような感覚です。参考音声を入れることで、その音声が解析されることで、ベースモデルから「近い音」に引きずられて、近い音声が生成されてくるというわけです。
弱点は、Style-Bert-VITS2のように毎回安定的に同じ音声が出るわけでない点です。シード値によって、毎回、微妙に声質が変わりますし、読み上げの感じがおかしくなったり、下手をすると女性の声をリファレンスにしているのに、男性の声になることもあります。ただし処理は高速で、リファレンス音声が4秒程度でも、実用的な音声が出力されます。
参照音声は長ければいいというものではないようです。別途、学習用の環境も用意されており、音声データがあれば、それを使って、安定的に固定する音声にファインチューニングできるワークフローも公開されています。

この連載の記事
-
第143回
AI
AIエージェントが書いた“異世界転生”、人間が書いた小説と見分けるのが難しいレベルに -
第142回
AI
数枚の画像とAI動画で“VTuber”ができる!? 「MotionPNG Tuber」という新発想 -
第141回
AI
AIエージェントにお金を払えば、誰でもゲームを作れてしまうという衝撃の事実 開発者の仕事はどうなる? -
第140回
AI
3Dモデル生成AIのレベルが上がった 画像→3Dキャラ→動画化が現実的に -
第139回
AI
AIフェイクはここまで来た 自分の顔で試して分かった“違和感”と恐怖 -
第138回
AI
数百万人が使う“AI彼女”アプリ「SillyTavern」が面白い -
第137回
AI
画像生成AI「Nano Banana Pro」で判明した“ストーリーボード革命” -
第136回
AI
画像生成AIの歴史を変えたNano Banana “一貫性の壁”が突破された2025年を振り返る -
第135回
AI
実在感が恐ろしいレベル 画像生成AIの常識をひっくり返した「Nano Banana Pro」 -
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 - この連載の一覧へ





