メタ傘下のメタAIは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。
同モデルは英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語のパブリックドメインオーディオブックに収録された5万時間以上の録音音声とその文字起こしテキストを使用してトレーニングされており、たんなるTTS(Text-to-Speech:テキストを音声に変換する技術)にとどまらず、音声の編集、サンプリング、スタイライズなどの高度な音声生成タスクを実行することができる最先端のAIモデルとして開発された。
たった2秒間のサンプルでOK
Voiceboxは2秒程度の短い音声サンプルがあれば、それを使ってスタイル(特定の人の音声や特定の感情の表現方法)を学習して音声合成に使用することができる。
将来的にはこの機能を利用して、話すことができない人に音声を届けたり、NPCやバーチャルアシスタントが使用する音声をカスタマイズすることも可能だという。
音声データの編集やノイズ除去も
Voiceboxはインコンテクスト(文脈内)学習と呼ばれる手法により、音声を生成するだけではなく、音声のセグメントをシームレスに編集することを得意としている。
たとえば、スピーチ内に犬の鳴き声が入ってしまってその部分の音声が聞こえなくなってしまったとしても、その部分を特定して犬の声を削除し、さらに消えてしまった音声を再現することも可能だという。
将来的には画像編集ツールで写真をレタッチするのと同じように、音声のクリーンアップや編集が簡単にできるようになる可能性もあるとする。
誰でも英語が話せるようになる?
Voiceboxは上述のように英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の6ヵ国語を学習しているが、音声サンプルと文章を入力すると、音声と文章が異なる言語であっても、それらの言語で文章を読み上げることが可能だ。
将来的には、同じ言語を話せない二人でも自然で本物のコミュニケーションができるようになるだろう。例えば日本人とアメリカ人がお互い母国語(日本人は日本語、アメリカ人は英語)で話しているにも関わらず、日本人側から見ると相手のアメリカ人が日本語を、アメリカ人側から見ると相手の日本人が英語を流暢に話しているように見えるようになるかもしれない。
「VALL-E」より20倍早い
Voicebox以前の音声生成AIは、自己回帰モデルという手法が採用されており、入念に準備された学習データを使い、タスクごとに特定の学習を行う必要があった。
だが本モデルは、生の音声とそれに付随する書き起こしからだけ学習する「Flow Matching(フローマッチング)」と呼ばれる柔軟性と多様性が特徴の新しいアプローチを採用しており、より多様かつ大規模なデータで学習することができたという。
これにより、マイクロソフトの最新モデル「VALL-E」を、明瞭度と音声類似度の両方で上回り、さらに20倍も高速化したという。
生成AIの研究を責任を持って共有する
メタは他の強力なAIツールと同様に、この技術が誤用や意図しない害をもたらす可能性があることを認識しているため、現時点ではモデルやコードを一般に公開しておらず、論文とサンプル集のみが公開されている。
論文では、本物の音声とVoiceboxで生成された音声を区別できる分類器についても詳しく説明している。