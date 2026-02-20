Stable Diffusion入門 from Thailand 第40回
Suno級がローカルで？ 音楽生成AI「ACE-Step 1.5」を本気で検証
2026年02月20日 09時00分更新
2026年2月、オープンソースの音楽生成AI「ACE-Step 1.5」が公開された。SunoやUdioのようなクラウド型とは違い、モデルそのものを手元に置いてローカルで生成できる。公式READMEには品質が「Suno v4.5とv5の間」と記載されており、開発元自身がクラウド型の商用サービスを比較対象に据えている。今回はComfyUIの公式ワークフローを使って実力を検証してみよう。
ACE-Step 1.5とは何か
ACE-Step 1.5は、StepFunとACE Studio（ACE Music AI）が共同開発したオープンソースの音楽生成モデルだ。曲のスタイルを指示するテキストと歌詞を入力すると、ボーカルと伴奏を含む完成形の楽曲が生成される。対応言語は50以上。最長10分まで対応し、フルサイズの制作も想定した設計になっている。
内部はLM（言語モデル）とDiT（Diffusion Transformer）を組み合わせた構造をとる。LMが入力テキストからBPMや調性などの情報を推論し、楽曲構成を設計。その設計をもとにDiTがオーディオを生成する。圧縮技術と軽量化されたTransformerにより高速化を実現しており、NVIDIA A100では4分の曲を2秒未満、RTX 3090では10秒以内で生成できるとされる。筆者のRTX 4070（12GB）環境では、2分の楽曲が約30秒で生成された。
動作にはNVIDIA製GPUが推奨され、VRAM 8GB以上が目安だが、公式情報では4GB未満でも動作可能とされる。ライセンスはMITで、モデルおよび生成物は商用利用できる。LoRAによる追加学習にも対応し、特定の作風を反映させることも可能だ。ローカルで扱える生成基盤としての位置づけが見えてくる。
