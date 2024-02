Metaが音声や効果音などを生成するAI「Audiobox」をリリースした。

Audioboxは一般ユーザーでもデモ版の使用が可能だ。いままでこうしたAIのデモ版はAIコミュニティーなどにアップロードされた不安定なものが多かったが、Audioboxでは自前のサーバーを使用しているのか、動作がが安定しており、使用方法の案内も整備されているのが特徴だ。ただし、現状は対応言語も説明もすべて英語のみ。

効果音やナレーションの作成などを想定した研究中の生成AI

Audioboxを使用すると自然言語のプロンプトを使用して、生成したい効果音や音声の種類を記述できる。Metaは昨年初めに編集機能など音声生成タスクを実行できる最先端のAIモデル「Voicebox」を開発している。これは特別にトレーニングされていない音声を生成AIで扱えるというものであった。Audioboxはその後継版として音声だけではなく、犬の吠え声、車のクラクション、雷のひび割れなどの効果音や環境音を生成できる。

Audioboxの特徴は、特定の応用分野が考えられていることだ。単に基礎研究の成果発表的なものではない。その分野とは、例えば映画、ポッドキャスト、オーディオブック、ビデオゲームなどだ。また、ASMR的な応用もできるだろう。

Metaによると、上記の分野でコンテンツを制作する際、サウンドライブラリへのアクセスやサウンドエンジニアリング、声優といった最適な結果を得るための専門家が必要であった。その困難な作業の障壁を下げ、誰もがオーディオコンテンツクリエイターになることを容易にするのがAudioboxを開発した動機だという。Audioboxは従来の技術に比べて、FAD(音声忠実度の指標)が5割近く改善されていて高品質だという。

読み上げについての演技指導も

Audioboxを試してみた。Sound Effects(効果音)のページでは、自然言語の文章に従って効果音を生成できる。ここで「the flow of the river can be heard faintly in the distance, and the chirping of birds can be heard loudly nearby」(川の流れがかすかに聞こえ、近くでは鳥の声が大きく聞こえる)と入力した。確かに、川の音は小さく生成され、鳥の声では大きく生成されている。川の音や鳥の声もなかなかリアルに聞こえる。波形図を見ても川の音のパートでは小さく、鳥の声が入るところでは大きく音量が生成されている。

Audioboxは入力した文章を、特定の人物の声あるいは録音した自分の声で、読み上げられる。しかも、指示された文章に応じてその音声を変化させられる。

「Audiobox is a new foundational research model.」(Audioboxは新しい基礎研究モデル)という文章は、あらかじめ入力した自分の声で読み上げられるのはもちろん、「ビーチの水しぶきをバックにしたニュートラルな声」や「教会の中で響き渡る中年男性の声」といった自然言語で指定できる。また、自分の音声の入力は困難な場合は、プリセット音声を使用して試せる。ただし、試した範囲ではメロディーをつけて歌わせるということはできなかった。

音声に関しては最近の生成AIの水準からするとやや人工的な感じもするが、生成データのサンプルレートもかなり低いと思われるので、理由は明確に判断できない。

デモ機能の一環として、作成した音声を組み合わせてストーリーを作る機能もある。これは先に述べたAudioboxの適用分野である映像や音声コンテンツの作成をシミュレートしている。また画面設計の作りからすると、子供の教育的ツールな要素もあるのかもしれない。