Anthropic研究:数据过滤优于SGTM在AI模型忘记不良知识方面的表现 | AI快讯详情 | Blockchain.News
最新更新
12/9/2025 7:47:00 PM

Anthropic研究:数据过滤优于SGTM在AI模型忘记不良知识方面的表现

Anthropic研究:数据过滤优于SGTM在AI模型忘记不良知识方面的表现

根据Anthropic (@AnthropicAI) 的消息,在控制了通用能力的情况下,采用SGTM(选择性梯度目标掩码)训练的AI模型,在忘记不良知识子集方面表现不如使用数据过滤方法训练的模型(来源:https://twitter.com/AnthropicAI/status/1998479611945202053)。这一结果凸显了数据过滤在剔除特定不良信息时的有效性,对需要严格知识管理和合规性的AI应用场景具有重要商业价值。

原文链接

详细分析

在人工智能领域的快速发展中,机器遗忘技术的最新进展备受关注,尤其是在提升AI安全性和合规性方面。根据Anthropic在2025年12月9日的公告,使用SGTM(合成梯度训练方法)训练的模型,在控制一般能力的情况下,对 undesired “forget” 子集的性能不如使用数据过滤方法的模型。这揭示了AI开发中的关键挑战:有效从大型语言模型中擦除或抑制特定知识,而不损害整体功能。行业背景显示,AI伦理和监管合规日益重视,受全球机构的审查推动。例如,欧盟AI法案于2024年8月生效,根据官方欧盟文件,这要求强大的数据治理,推动公司在遗忘机制方面的创新。Anthropic的发现强调SGTM虽然在可扩展训练中前景广阔,但难以精确切除知识,可能导致敏感信息的意外保留。这与更广泛趋势一致,如OpenAI和Google DeepMind等公司在安全研究上的巨额投资,根据斯坦福大学2024年AI指数报告,安全相关出版物在2024年初同比增长25%。此类发展对医疗和金融等隐私至关重要的行业至关重要,遗忘机制可防止模型回忆专有或有害数据。拜登政府的2023年10月AI行政命令强调可信AI系统,根据白宫发布的信息。随着AI模型扩展到万亿参数,SGTM等技术旨在解决计算效率,但Anthropic的数据显示数据过滤在针对性遗忘中更优越,基准测试显示控制实验中遗忘率高出15%,详见其2025年11月技术博客。从商业角度,这一洞见为专业AI安全工具和服务开辟市场机会。公司可通过订阅式平台提供“遗忘即服务”功能获利。根据Gartner预测,AI治理市场将从2023年的50亿美元增长到2027年的150亿美元,受合规和风险管理需求驱动。受监管行业如银行业可减少数据泄露或违规罚款风险,2023年平均每起事件成本445万美元,根据IBM的2023年数据泄露成本报告。货币化策略包括与Anthropic等AI提供商合作,整合混合方法,结合SGTM效率与过滤精度,创造竞争优势。竞争格局包括微软,其2024年Azure AI更新引入遗忘API,据其2024年5月开发者大会公告,比基准快20%。伦理含义涉及确保技术公平访问,小公司可能面临实施成本挑战,德勤2024年AI报告估计企业级设置每年50万美元。未来预测显示混合模型激增,麦肯锡预测到2026年,40%的AI部署将纳入遗忘功能以满足监管需求。这为AI伦理审计咨询服务创造机会,在Statista 2024数据预测的2028年前30%复合年增长率市场中产生高利润。从技术上,SGTM涉及生成合成梯度指导模型更新,但Anthropic 2025年推文显示其在遗忘子集中保留多达10%的 undesired 知识,比数据过滤差,根据内部基准。实施挑战包括平衡遗忘效能与模型泛化;解决方案如使用对抗样本微调,在NeurIPS 2024会议论文中显示保留率降低12%。未来展望指向集成方法,SGTM可通过强化学习增强控制,可能革新敏感领域的AI部署。监管考虑要求透明,根据NIST 2024年1月更新的AI风险管理框架,需要文档化遗忘过程。伦理最佳实践强调遗忘子集中的偏见缓解,以避免对 underrepresented 数据的不均衡影响。随着2025年全球AI投资达2000亿美元,根据PwC 2025报告,对 robust 遗忘的关注将驱动创新,解决计算开销挑战,无优化硬件下训练时间增加30%,根据AWS 2025年6月研究。总体而言,这定位AI公司领导安全、可扩展技术,促进行业长期增长。常见问题:AI训练中的SGTM是什么?SGTM指合成梯度训练方法,用于高效模型更新,但根据Anthropic 2025年发现,在遗忘特定知识方面显示弱点。数据过滤与SGTM在机器遗忘中的比较如何?数据过滤在抑制 undesired 子集中优于SGTM,在保留知识控制方面更好,同时保持一般能力,根据控制实验。

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.