Metaが音声や効果音などを生成するAI「Audiobox」をリリースした。
Audioboxは一般ユーザーでもデモ版の使用が可能だ。いままでこうしたAIのデモ版はAIコミュニティーなどにアップロードされた不安定なものが多かったが、Audioboxでは自前のサーバーを使用しているのか、動作がが安定しており、使用方法の案内も整備されているのが特徴だ。ただし、現状は対応言語も説明もすべて英語のみ。
効果音やナレーションの作成などを想定した研究中の生成AI
Audioboxを使用すると自然言語のプロンプトを使用して、生成したい効果音や音声の種類を記述できる。Metaは昨年初めに編集機能など音声生成タスクを実行できる最先端のAIモデル「Voicebox」を開発している。これは特別にトレーニングされていない音声を生成AIで扱えるというものであった。Audioboxはその後継版として音声だけではなく、犬の吠え声、車のクラクション、雷のひび割れなどの効果音や環境音を生成できる。
Audioboxの特徴は、特定の応用分野が考えられていることだ。単に基礎研究の成果発表的なものではない。その分野とは、例えば映画、ポッドキャスト、オーディオブック、ビデオゲームなどだ。また、ASMR的な応用もできるだろう。
Metaによると、上記の分野でコンテンツを制作する際、サウンドライブラリへのアクセスやサウンドエンジニアリング、声優といった最適な結果を得るための専門家が必要であった。その困難な作業の障壁を下げ、誰もがオーディオコンテンツクリエイターになることを容易にするのがAudioboxを開発した動機だという。Audioboxは従来の技術に比べて、FAD(音声忠実度の指標)が5割近く改善されていて高品質だという。
読み上げについての演技指導も
Audioboxを試してみた。Sound Effects(効果音)のページでは、自然言語の文章に従って効果音を生成できる。ここで「the flow of the river can be heard faintly in the distance, and the chirping of birds can be heard loudly nearby」(川の流れがかすかに聞こえ、近くでは鳥の声が大きく聞こえる)と入力した。確かに、川の音は小さく生成され、鳥の声では大きく生成されている。川の音や鳥の声もなかなかリアルに聞こえる。波形図を見ても川の音のパートでは小さく、鳥の声が入るところでは大きく音量が生成されている。
Audioboxは入力した文章を、特定の人物の声あるいは録音した自分の声で、読み上げられる。しかも、指示された文章に応じてその音声を変化させられる。
「Audiobox is a new foundational research model.」(Audioboxは新しい基礎研究モデル)という文章は、あらかじめ入力した自分の声で読み上げられるのはもちろん、「ビーチの水しぶきをバックにしたニュートラルな声」や「教会の中で響き渡る中年男性の声」といった自然言語で指定できる。また、自分の音声の入力は困難な場合は、プリセット音声を使用して試せる。ただし、試した範囲ではメロディーをつけて歌わせるということはできなかった。
音声に関しては最近の生成AIの水準からするとやや人工的な感じもするが、生成データのサンプルレートもかなり低いと思われるので、理由は明確に判断できない。
デモ機能の一環として、作成した音声を組み合わせてストーリーを作る機能もある。これは先に述べたAudioboxの適用分野である映像や音声コンテンツの作成をシミュレートしている。また画面設計の作りからすると、子供の教育的ツールな要素もあるのかもしれない。
この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ