Stability AI 发布 Stable Audio 3.0:六分钟音轨,开放模型权重
realtime news May 21, 2026 19:30
Stability AI 的 Stable Audio 3.0 提供六分钟音频生成、开放权重模型以及完全授权的训练数据,为生成式音乐 AI 设立了新的标杆。
Stability AI 推出了 Stable Audio 3.0,这是一个突破 AI 音频创作界限的生成式音乐模型家族。该发布于 2026 年 5 月 20 日宣布,包括四种模型——Small SFX、Small、Medium 和 Large——能够生成最长达六分钟的音轨。这标志着从早期版本如 Stable Audio Open(仅限 47 秒音频片段)取得了重大飞跃。
是什么让 Stable Audio 3.0 脱颖而出?首先,所有模型均基于完全授权的和 Creative Commons 数据进行训练,消除了困扰竞争平台的版权问题。其次,Stability AI 发布了 Small 和 Medium 模型的开放权重,使开发者和艺术家能够在消费级硬件上运行这些模型。而 Large 模型则可通过 API 或企业托管来访问。
从技术上讲,这些模型基于一种全新的语义-声学自动编码器架构,称为 SAME(语义对齐音乐自动编码器)。这一创新支持具有每秒精度的可变长度生成,使用户能够精确定制音频输出。例如,3.0 Small 模型可以直接在设备上生成最长两分钟的完整音乐作品,这是离线音乐生成的首次突破。而 Medium 和 Large 模型将这一能力扩展到六分钟以上。
另一个引人注目的功能是引入了音频修补功能,允许用户在不从头开始的情况下编辑、延展或改进音轨的特定片段。此外,对 LoRa(低秩适应)训练的支持使模型能够在自定义数据集上进行微调,从而进一步增强创作控制。
“Stable Audio 3.0 代表了艺术家为中心的 AI 的重要进步,”Stability AI 在其公告中说道。该公司强调,其对授权数据和用户输出所有权的关注——在 Stability AI 社区许可协议下得到保证——为负责任的生成式 AI 开发设立了新标准。年收入超过 100 万美元的艺术家和组织可以选择企业许可,其中包括法律赔偿和定制的白手套支持。
Stable Audio 3.0 的发布距 2024 年推出的 Stable Audio 2.0 刚好两年,当时该版本的音轨生成限制在三分钟以内。新模型不仅将生成长度增加了一倍,还提供了改进的旋律连贯性和结构完整性,从而解决了早期生成式音乐系统的常见批评。
对于开发者和音频专业人士而言,3.0 Small 和 Medium 的开放权重现在可以在 Hugging Face 上获取,而 Large 模型可通过 Stability AI API 访问。这些模型也正在集成到诸如 ComfyUI 等平台中,以扩大其可访问性。
Stability AI 暗示了未来的开发计划,包括为音乐家设计的新产品以及与环球音乐集团和华纳音乐集团等行业巨头的扩展合作。感兴趣的用户可以加入候补名单,以抢先体验这些工具。
通过 Stable Audio 3.0,Stability AI 正在明确地争取主导生成式音频领域,提供更长的音轨、开放权重的灵活性以及对伦理 AI 实践的承诺。随着创造性 AI 市场的持续增长,这类工具有望重塑音乐的创作、编辑和消费方式。
Image source: Shutterstock