音楽の世界でも広がる生成AI
生成AIが注目される流れは、画像や文章だけではなく音楽にも波及している。例えば、5月にSpotifyがAIで生成された数万曲を削除したというニュースがあった。これは著作権のほかにも、ビジネスモデル的な課題があるということを示している。
実際探してみると、AIが音楽を作成するというサービスは意外に多い。しかし先日紹介したグーグルの「MusicLM」のように長いプロンプト(指示文)を使用して曲の生成を指示できる音楽生成AIは探してみてもあまり見つからない。MusicLMはベータ版の運用を拡大しているが日本は対象外だ。
そうした中で、先日メタ(旧フェイスブック)が、MusicLMに似た音楽の生成AIプラットフォーム「Meta MusicGen」を発表した。メタも、(アップルを除く)ほかのテックジャイアント同様、AIに焦点を合わせてきている。その一環でもあるのだろう。
MusicGenの特徴
GitHubやHugging Face(AIコミュニティ)でのメタの解説によると、MusicGenは自己回帰トランスフォーマーモデルを使用しているとある。これはChatGPTと同じトランスフォーマー型AI、つまり生成AIのことであり、自己回帰型というのは生成AIにおいて出力を次のステップの入力とすることで長い出力を生成できるタイプのことを言う。ChatGPTで小説のような長い出力が可能な理由は自己回帰型だからである。MusicGenも同様に長い音楽を生成可能と思われるが、現在は12秒に制限されている。
学習に関しては、32kHz EnCodecトークナイザーを使用して訓練したとある。ChatGPTがテキストを用いて学習するのと同様に、MusicGenでは32kHzのトークン(最小単位)にエンコードされた音楽データを学習したということになる。よくAIでは「学習データがそのまま出てくる」と言われることもあるが、普通はデータ量を削減するために、元データをそのまま使うことはない。例えば画像生成AIなどでは元画像の中央の矩形領域のみを学習に使用するのが一般的だ。これは画像生成AIが4隅の生成に弱いとされる理由でもある。
MusicGenにおいても元データはおそらく44kHzか48kHzだと思われるが、データ量の関係で32kHzにエンコードしているのかもしれない。あるいはダウンサンプルするのは著作権対策のためとも考えられる。
どういうデータを用いて学習したかということが注目ポイントの一つであるが、「MusicGen」では2万時間に及ぶライセンスされた音楽を使用したとある。このライセンスされた音楽というのは、具体的にいうと「ShutterStock」や「Pond5」のようなストック音楽を提供するサービスのようだ。
テキストでの指示に加え、音楽サンプルの添付もできる
MusicGenのユニークな点は、文章でのプロンプト指示のほかに音楽自体をプロンプトとして使用できるという点だ。例えば「重厚なドラムとシンセパッドをバックにした、80年代のドライビングポップソング」を“バッハのメロディ”で作成するということができる。この場合、バッハの音楽はMP3ファイルなどをアップロードする。
MusicGenのコードなどの詳細はGitHubで公開されているが、デモとしてHugging Faceのウェブページで簡単に使用することができる。これは日本からも使用ができる。先にも書いたように現在「MusicGen」は12秒の音楽を生成することができ、出力はMP4形式となる。
この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ