佐々木喜洋のポータブルオーディオトレンド 第227回
画像生成AIブームの火付け役、Stability AIが開発!
音楽生成AI「Stable Audio」を試すが、道はまだまだ長そうだ
2023年10月22日 09時00分更新
現在のAIブームのきっかけは、画像生成AIがブレークしたことだ。
あまりにもリアルで人間が描いたものを凌駕するような絵画をAIが描いたことで話題を呼んだ。今では様々な画像生成AIが登場しているが、その中心は「Stable Diffusion」という画像生成AIだ。複数の研究者によって開発され、Stability AIという会社が提供したものだが、そのStability AIが今度は「Stable Audio」という音楽生成AIを発表した。つまり話題の画像生成AIの大手が手がけた音楽生成AIということになる。
1万9500時間以上の音楽データから学習した音楽生成AI
Stable Audioは、グーグルの「MusicLM」やメタの「MusicGen」のように、プロンプト(指示文)に基づいて音楽を作り出す本格的な生成AIだ。Diffusionは拡散モデルを意味し、浮き上がるようなステップを経て、徐々に画像を生成するのが特徴だ。ただし、音楽は時間の要素があるので、そう簡単ではないらしい。
何かと問題となる学習元の音楽はサイトに明記されている。データセットはAudioSparxと契約し、「音楽、効果音、単一楽器のステム、および対応するテキストメタデータ」など80万以上のオーディオファイル、1万9500時間以上のオーディオデータを使用したそうだ。
MusicLMやMusicGenが、ベータ版や研究成果として開放されているのに対して、Stable Audioは有料課金モデルを採用しているのも面白い。Freeプランでは非商用で45秒までの曲を1ヵ月に20曲生成できる。月額11.99ドルのProfessionalプランでは商用ライセンス付きで90秒までの曲を1ヵ月に500曲生成できる。
Freeプランの20回はすぐに消費してしまう
さっそくFreeプランを試用してみた。
比較のため、MusicGenの記事で生成に使ったのと同じプロンプト「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」を打ち込んでみた(作例1)。
MusicGenでは一発でクリムゾンを思わせるプログレ曲ができたが、Stable Audioの生成結果にはちょっと首を捻ってしまった。プログレというジャンルはシンフォニックのようなロックだと思うが、結果はシンフォニック風の曲とロックのドラムが混在しているだけに思える。「AIがどう解釈したのか」という点では面白い結果だと思うが、さすがに音楽としてはおかしい。サイト上のサンプル曲はなかなか悪くないように思えるので、少し調べてプロンプトを改良してみることにした。
Stable AudioのプロンプトではMusicGenのように自然言語で打ち込むよりも、ジャンルや楽器、ムード、テンポ、コード進行など単語を列挙して特徴を示していくほうが良さそうだ。具体的にはJazz、Drum、Bass、Up-Lifting、BPMなどである。ここも画像生成AIのプロンプトと似ているのが面白い。グーグルやメタのように自然言語処理に優れた会社よりはStable Diffusionの会社らしいという意味だ。
サンプルを手本にしながらシンプルな曲にするアプローチを考えて、次のようなプロンプトを作った。「Minimal Piano solo, Chord progression minor key, uplifting, 90BPM(ミニマルのピアノソロ、コード進行マイナーキー、高揚感、テンポ90BPM)」。これは現代音楽のミニマル風ピアノ曲を意識している(作例2)。
結果は期待に近いものとなった。
繰り返すミニマル風のパターンをもとにして曲が作られ、きちんと45秒で終わるように製作している。上手にいくよう、キーワードをいろいろと探すといいのかもしれない。この過程も、良い絵が描けるように様々なキーワードを探す画像生成AIに似ている。
生成AIでは「ガチャ」とも言われるランダム要因があるので、何回も繰り返し生成させて良いものを選ぶ作業が必要だ。ランダム要因が入るのは、AIが同じ指示に対して同じ結果を出すのを避ける工夫でもあるが、繰り返していると、Freeプランの20曲分をあっという間に消費してしまう。
この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ