2026年2月、オープンソースの音楽生成AI「ACE-Step 1.5」が公開された。SunoやUdioのようなクラウド型とは違い、モデルそのものを手元に置いてローカルで生成できる。公式READMEには品質が「Suno v4.5とv5の間」と記載されており、開発元自身がクラウド型の商用サービスを比較対象に据えている。今回はComfyUIの公式ワークフローを使って実力を検証してみよう。
ACE-Step 1.5とは何か
ACE-Step 1.5は、StepFunとACE Studio(ACE Music AI)が共同開発したオープンソースの音楽生成モデルだ。曲のスタイルを指示するテキストと歌詞を入力すると、ボーカルと伴奏を含む完成形の楽曲が生成される。対応言語は50以上。最長10分まで対応し、フルサイズの制作も想定した設計になっている。
内部はLM(言語モデル)とDiT(Diffusion Transformer)を組み合わせた構造をとる。LMが入力テキストからBPMや調性などの情報を推論し、楽曲構成を設計。その設計をもとにDiTがオーディオを生成する。圧縮技術と軽量化されたTransformerにより高速化を実現しており、NVIDIA A100では4分の曲を2秒未満、RTX 3090では10秒以内で生成できるとされる。筆者のRTX 4070(12GB)環境では、2分の楽曲が約30秒で生成された。
動作にはNVIDIA製GPUが推奨され、VRAM 8GB以上が目安だが、公式情報では4GB未満でも動作可能とされる。ライセンスはMITで、モデルおよび生成物は商用利用できる。LoRAによる追加学習にも対応し、特定の作風を反映させることも可能だ。ローカルで扱える生成基盤としての位置づけが見えてくる。

この連載の記事
-
第39回
AI
欲しい映像素材が簡単に作れる! グーグル動画生成AI「Veo 3.1」の使い方 -
第38回
AI
最新の画像生成AIは“編集”がすごい! Nano Banana、Adobe、Canva、ローカルAIの違いを比べた -
第37回
AI
画像生成AIで比較!ChatGPT、Gemini、Grokどれを選ぶ?得意分野と使い分け【作例大量・2025年最新版】 -
第36回
AI
【無料で軽くて高品質】画像生成AI「Z-Image Turbo」が話題。SDXLとの違いは? -
第35回
AI
ここがヤバい!「Nano Banana Pro」画像編集AIのステージを引き上げた6つの進化点 -
第34回
AI
無料で始める画像生成AI 人気モデルとツールまとめ【2025年11月最新版】 -
第33回
AI
初心者でも簡単!「Sora 2」で“プロ級動画”を作るコツ -
第32回
AI
【無料】動画生成AI「Wan2.2」の使い方 ComfyUI設定、簡単インストール方法まとめ -
第31回
AI
“残念じゃない美少女イラスト”ができた! お絵描きAIツール4選【アニメ絵にも対応】 -
第30回
AI
画像生成AI「Midjourney」動画生成のやり方は超簡単! - この連載の一覧へ






