このページの本文へ

新清士の「メタバース・プレゼンス」 第144回

わずか4秒の音声からクローン完成 音声生成AIの実力が想像以上だった

2026年02月16日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

わずか4秒から再現できる仕組みとは

 従来の音声合成モデル「Style-Bert-VITS2」のモデルは、比較的決められた声を学習しやすいと言われてきました。様々な音声を学習した基盤モデルを使って、10~20分の特定の声の音声データセットを用意して追加学習をさせることで、似た声を出力できるようになります。その結果、安定的に元の音声に似た声を作れるようになるのです。ただし課題があり、優れたデータを作るには、クリアで多様な音声データを用意する必要がありました。

 一方、Qwen3-TTSは、より動画生成AIに近いアプローチを取っています。500万時間を超えるデータを、音声を1つずつトークン化して訓練しているとされています。その結果、LLMが文章を意味単位でトークン化するのと同様に、音声を音韻のような単位に分解し、プロンプトに対して「次にこの音が来るだろう」と予測して出力する仕組みになっています。

 イメージとしては、画像生成AIのi2i(Image-to-image)を使っているような感覚です。参考音声を入れることで、その音声が解析されることで、ベースモデルから「近い音」に引きずられて、近い音声が生成されてくるというわけです。

 弱点は、Style-Bert-VITS2のように毎回安定的に同じ音声が出るわけでない点です。シード値によって、毎回、微妙に声質が変わりますし、読み上げの感じがおかしくなったり、下手をすると女性の声をリファレンスにしているのに、男性の声になることもあります。ただし処理は高速で、リファレンス音声が4秒程度でも、実用的な音声が出力されます。

 参照音声は長ければいいというものではないようです。別途、学習用の環境も用意されており、音声データがあれば、それを使って、安定的に固定する音声にファインチューニングできるワークフローも公開されています。

カテゴリートップへ

この連載の記事
ピックアップ