音楽の世界でも広がる生成AI
生成AIが注目される流れは、画像や文章だけではなく音楽にも波及している。例えば、5月にSpotifyがAIで生成された数万曲を削除したというニュースがあった。これは著作権のほかにも、ビジネスモデル的な課題があるということを示している。
実際探してみると、AIが音楽を作成するというサービスは意外に多い。しかし先日紹介したグーグルの「MusicLM」のように長いプロンプト(指示文)を使用して曲の生成を指示できる音楽生成AIは探してみてもあまり見つからない。MusicLMはベータ版の運用を拡大しているが日本は対象外だ。
そうした中で、先日メタ(旧フェイスブック)が、MusicLMに似た音楽の生成AIプラットフォーム「Meta MusicGen」を発表した。メタも、(アップルを除く)ほかのテックジャイアント同様、AIに焦点を合わせてきている。その一環でもあるのだろう。
MusicGenの特徴
GitHubやHugging Face(AIコミュニティ)でのメタの解説によると、MusicGenは自己回帰トランスフォーマーモデルを使用しているとある。これはChatGPTと同じトランスフォーマー型AI、つまり生成AIのことであり、自己回帰型というのは生成AIにおいて出力を次のステップの入力とすることで長い出力を生成できるタイプのことを言う。ChatGPTで小説のような長い出力が可能な理由は自己回帰型だからである。MusicGenも同様に長い音楽を生成可能と思われるが、現在は12秒に制限されている。
学習に関しては、32kHz EnCodecトークナイザーを使用して訓練したとある。ChatGPTがテキストを用いて学習するのと同様に、MusicGenでは32kHzのトークン(最小単位)にエンコードされた音楽データを学習したということになる。よくAIでは「学習データがそのまま出てくる」と言われることもあるが、普通はデータ量を削減するために、元データをそのまま使うことはない。例えば画像生成AIなどでは元画像の中央の矩形領域のみを学習に使用するのが一般的だ。これは画像生成AIが4隅の生成に弱いとされる理由でもある。
MusicGenにおいても元データはおそらく44kHzか48kHzだと思われるが、データ量の関係で32kHzにエンコードしているのかもしれない。あるいはダウンサンプルするのは著作権対策のためとも考えられる。
どういうデータを用いて学習したかということが注目ポイントの一つであるが、「MusicGen」では2万時間に及ぶライセンスされた音楽を使用したとある。このライセンスされた音楽というのは、具体的にいうと「ShutterStock」や「Pond5」のようなストック音楽を提供するサービスのようだ。
テキストでの指示に加え、音楽サンプルの添付もできる
MusicGenのユニークな点は、文章でのプロンプト指示のほかに音楽自体をプロンプトとして使用できるという点だ。例えば「重厚なドラムとシンセパッドをバックにした、80年代のドライビングポップソング」を“バッハのメロディ”で作成するということができる。この場合、バッハの音楽はMP3ファイルなどをアップロードする。
MusicGenのコードなどの詳細はGitHubで公開されているが、デモとしてHugging Faceのウェブページで簡単に使用することができる。これは日本からも使用ができる。先にも書いたように現在「MusicGen」は12秒の音楽を生成することができ、出力はMP4形式となる。

この連載の記事
-
第238回
AV
Inter BEEで見つけた注目製品、通信とオーディオの融合に可能性 -
第237回
AV
CreativeのMEMSスピーカー採用イヤホンがついに国内販売、最先端技術に取り組む -
第236回
AV
発売直後、finalの新完全ワイヤレス「ZE8000 MK2」ファーストインプレション -
第235回
AV
Qobuzがようやく国内オープン、単月払いで1480円から -
第234回
AV
元ゼンハイザーのアクセル・グレル氏による新ブランド、実質的なHD 800の後継か? -
第233回
AV
イヤホン選びで最も重視するのは音じゃなかった──クアルコムが全世界で調査 -
第232回
AV
FitEarの本社を訪問、若手開発者の起用は音作りに変化を生むか? -
第231回
AV
秋のヘッドフォン祭 2023開催、各社の新製品をレポート -
第230回
AV
Bluetoothに加え、低電力Wi-Fiにも対応するクアルコムの“S7 Pro” Sound Platform -
第229回
AV
LE Audioの始まりは補聴器に向けた低消費電力通信、Bluetooth SIGのキーマンに聞く -
第228回
AV
Bluetoothの新技術Auracastを体験、空港や講演会場での活用を提案 - この連載の一覧へ