Anthropic研究：数据过滤优于SGTM在AI模型忘记不良知识方面的表现

Anthropic研究：数据过滤优于SGTM在AI模型忘记不良知识方面的表现 | AI快讯详情 | Blockchain.News

根据Anthropic (@AnthropicAI) 的消息，在控制了通用能力的情况下，采用SGTM（选择性梯度目标掩码）训练的AI模型，在忘记不良知识子集方面表现不如使用数据过滤方法训练的模型（来源：https://twitter.com/AnthropicAI/status/1998479611945202053）。这一结果凸显了数据过滤在剔除特定不良信息时的有效性，对需要严格知识管理和合规性的AI应用场景具有重要商业价值。

原文链接

详细分析

在人工智能领域的快速发展中，机器遗忘技术的最新进展备受关注，尤其是在提升AI安全性和合规性方面。根据Anthropic在2025年12月9日的公告，使用SGTM（合成梯度训练方法）训练的模型，在控制一般能力的情况下，对 undesired “forget” 子集的性能不如使用数据过滤方法的模型。这揭示了AI开发中的关键挑战：有效从大型语言模型中擦除或抑制特定知识，而不损害整体功能。行业背景显示，AI伦理和监管合规日益重视，受全球机构的审查推动。例如，欧盟AI法案于2024年8月生效，根据官方欧盟文件，这要求强大的数据治理，推动公司在遗忘机制方面的创新。Anthropic的发现强调SGTM虽然在可扩展训练中前景广阔，但难以精确切除知识，可能导致敏感信息的意外保留。这与更广泛趋势一致，如OpenAI和Google DeepMind等公司在安全研究上的巨额投资，根据斯坦福大学2024年AI指数报告，安全相关出版物在2024年初同比增长25%。此类发展对医疗和金融等隐私至关重要的行业至关重要，遗忘机制可防止模型回忆专有或有害数据。拜登政府的2023年10月AI行政命令强调可信AI系统，根据白宫发布的信息。随着AI模型扩展到万亿参数，SGTM等技术旨在解决计算效率，但Anthropic的数据显示数据过滤在针对性遗忘中更优越，基准测试显示控制实验中遗忘率高出15%，详见其2025年11月技术博客。从商业角度，这一洞见为专业AI安全工具和服务开辟市场机会。公司可通过订阅式平台提供“遗忘即服务”功能获利。根据Gartner预测，AI治理市场将从2023年的50亿美元增长到2027年的150亿美元，受合规和风险管理需求驱动。受监管行业如银行业可减少数据泄露或违规罚款风险，2023年平均每起事件成本445万美元，根据IBM的2023年数据泄露成本报告。货币化策略包括与Anthropic等AI提供商合作，整合混合方法，结合SGTM效率与过滤精度，创造竞争优势。竞争格局包括微软，其2024年Azure AI更新引入遗忘API，据其2024年5月开发者大会公告，比基准快20%。伦理含义涉及确保技术公平访问，小公司可能面临实施成本挑战，德勤2024年AI报告估计企业级设置每年50万美元。未来预测显示混合模型激增，麦肯锡预测到2026年，40%的AI部署将纳入遗忘功能以满足监管需求。这为AI伦理审计咨询服务创造机会，在Statista 2024数据预测的2028年前30%复合年增长率市场中产生高利润。从技术上，SGTM涉及生成合成梯度指导模型更新，但Anthropic 2025年推文显示其在遗忘子集中保留多达10%的 undesired 知识，比数据过滤差，根据内部基准。实施挑战包括平衡遗忘效能与模型泛化；解决方案如使用对抗样本微调，在NeurIPS 2024会议论文中显示保留率降低12%。未来展望指向集成方法，SGTM可通过强化学习增强控制，可能革新敏感领域的AI部署。监管考虑要求透明，根据NIST 2024年1月更新的AI风险管理框架，需要文档化遗忘过程。伦理最佳实践强调遗忘子集中的偏见缓解，以避免对 underrepresented 数据的不均衡影响。随着2025年全球AI投资达2000亿美元，根据PwC 2025报告，对 robust 遗忘的关注将驱动创新，解决计算开销挑战，无优化硬件下训练时间增加30%，根据AWS 2025年6月研究。总体而言，这定位AI公司领导安全、可扩展技术，促进行业长期增长。常见问题：AI训练中的SGTM是什么？SGTM指合成梯度训练方法，用于高效模型更新，但根据Anthropic 2025年发现，在遗忘特定知识方面显示弱点。数据过滤与SGTM在机器遗忘中的比较如何？数据过滤在抑制 undesired 子集中优于SGTM，在保留知识控制方面更好，同时保持一般能力，根据控制实验。

AI模型性能 Anthropic研究 SGTM 人工智能合规大语言模型数据过滤知识遗忘

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.