このページの本文へ

前へ 1 2 3 4 5 6 次へ

Stable Diffusion入門 from Thailand 第40回

Suno級がローカルで? 音楽生成AI「ACE-Step 1.5」を本気で検証

2026年02月20日 09時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 2026年2月、オープンソースの音楽生成AI「ACE-Step 1.5」が公開された。SunoやUdioのようなクラウド型とは違い、モデルそのものを手元に置いてローカルで生成できる。公式READMEには品質が「Suno v4.5とv5の間」と記載されており、開発元自身がクラウド型の商用サービスを比較対象に据えている。今回はComfyUIの公式ワークフローを使って実力を検証してみよう。

ACE-Step 1.5とは何か

 ACE-Step 1.5は、StepFunとACE Studio(ACE Music AI)が共同開発したオープンソースの音楽生成モデルだ。曲のスタイルを指示するテキストと歌詞を入力すると、ボーカルと伴奏を含む完成形の楽曲が生成される。対応言語は50以上。最長10分まで対応し、フルサイズの制作も想定した設計になっている。

 内部はLM(言語モデル)とDiT(Diffusion Transformer)を組み合わせた構造をとる。LMが入力テキストからBPMや調性などの情報を推論し、楽曲構成を設計。その設計をもとにDiTがオーディオを生成する。圧縮技術と軽量化されたTransformerにより高速化を実現しており、NVIDIA A100では4分の曲を2秒未満、RTX 3090では10秒以内で生成できるとされる。筆者のRTX 4070(12GB)環境では、2分の楽曲が約30秒で生成された。

 動作にはNVIDIA製GPUが推奨され、VRAM 8GB以上が目安だが、公式情報では4GB未満でも動作可能とされる。ライセンスはMITで、モデルおよび生成物は商用利用できる。LoRAによる追加学習にも対応し、特定の作風を反映させることも可能だ。ローカルで扱える生成基盤としての位置づけが見えてくる。

前へ 1 2 3 4 5 6 次へ

カテゴリートップへ

この連載の記事
ピックアップ