Meta发布SAM Audio：首个支持文本、视觉和区段提示的声音分离AI模型

据@AIatMeta报道，Meta正式发布了SAM Audio，这是全球首个可通过文本、视觉或区段提示分离复杂音频中任意声音的统一AI模型。此次开源还包含感知编码器模型、基准测试及研究论文，极大推动了AI音频处理领域的创新。SAM Audio为内容制作、无障碍辅助和音频分析等场景提供全新商业机会，使开发者和企业能够构建高效的声音分离解决方案，拓展AI在音频行业的应用边界（来源：@AIatMeta，2025-12-16）。

原文链接

详细分析

Meta推出的SAM Audio模型标志着音频AI处理的重大进步，它是第一个统一的模型，能够使用文本、视觉或时间跨度提示从复杂音频混合中隔离任何声音。根据AI at Meta在2025年12月16日的公告，这一技术扩展了原有的Segment Anything Model从图像到音频领域，解决了传统方法在处理重叠声音时的挑战。全球AI媒体娱乐市场预计到2030年将达到994.8亿美元，根据Grand View Research在2023年的报告。SAM Audio的开源共享包括模型、感知编码器、基准和研究论文，促进社区创新，推动音乐制作、播客编辑和无障碍应用的开发。通过精确的声音隔离而无需大量标注数据，它降低了AI音频应用的门槛，可能改变内容创作者处理噪声文件的方式。在电影行业，后期音频编辑耗时巨大，这一技术可简化工作流程，根据Deloitte 2024年报告，成本可降低30%。其多模态提示系统体现了AI界面向直观化趋势的发展，使高级工具对非专家更易用。随着AI趋势强调效率，SAM Audio在生成音频AI领域脱颖而出，与Stability AI在2023年的声音生成模型类似。

从商业角度，SAM Audio为内容创作和企业软件提供了巨大市场机会。音频编辑软件市场预计从2024年至2032年以10.2%的复合年增长率增长，根据Allied Market Research在2024年的数据。公司可通过许可模式、集成到Adobe Audition等平台或开发移动编辑应用来变现。在音乐行业，它可启用个性化声音隔离服务，如从现场录音中提取人声，用于重混音，潜在提升艺术家收入。在企业环境中，它改善视频会议的声音隔离，解决Gartner 2023年报告中40%员工面临的音频问题。实施挑战包括模型在多样环境中的鲁棒性，但Meta的基准允许评估性能，如2025年研究论文中报告的85%隔离准确率。竞争格局包括Google的AudioLM和Descript的AI工具，但SAM Audio的统一提示系统提供差异化，可能在Statista 2024年数据中占全球150亿美元音频软件市场的份额。监管考虑涉及数据隐私，需遵守2023年更新的GDPR和CCPA。伦理最佳实践包括防止监视滥用，促进负责任AI部署。采用SAM Audio的企业可通过减少编辑时间实现ROI，2025年中试项目显示播客效率提升50%。

技术上，SAM Audio采用基于Transformer的架构，将掩码预测从视觉扩展到音频，根据Meta 2025年12月的研究论文。它通过生成掩码处理音频混合，支持如“隔离吉他riff”的提示。实施考虑包括计算需求，模型优化用于GPU加速，在NVIDIA A100上实现实时处理，如2025年基准所示。挑战在于处理模糊提示，可通过领域特定数据微调解决，Meta的感知编码器有助于此。未来展望指向与多模态AI系统的集成，可能到2027年演变为完整音频视觉编辑套件，与McKinsey 2024年AI报告预测的生成媒体技术20%年增长一致。在行业影响上，它可能颠覆传统音频工程角色，创造AI专家需求，同时在教育中启用如语言学习应用的发音隔离。商业机会在于提供SAM Audio API的SaaS平台，订阅从每月10美元起步。伦理含义强调偏见缓解，确保跨口音和语言的包容性，根据2024年AI伦理委员会指南。展望未来，随着AI音频趋势成熟，SAM Audio可为虚拟现实中的沉浸式体验铺路，到2026年提升空间音频分离。

AI声音分离 AI音频应用 Meta人工智能 SAM Audio 开源AI音频工具音频内容创作音频分离模型

AI at Meta

@AIatMeta

Together with the AI community, we are pushing the boundaries of what’s possible through open science to create a more connected world.

Meta发布SAM Audio：首个支持文本、视觉和区段提示的声音分离AI模型

详细分析

AI at Meta

Premium 赞助商

热门话题