Anthropic推出选择性梯度屏蔽（SGTM）技术：实现高风险AI知识隔离

Anthropic推出选择性梯度屏蔽（SGTM）技术：实现高风险AI知识隔离 | AI快讯详情 | Blockchain.News

根据Anthropic (@AnthropicAI) 的消息，Anthropic研究员项目发布了选择性梯度屏蔽（SGTM）新方法，使开发者能够将高风险知识（如危险武器信息）精准隔离到模型的特定参数中。该技术允许在不影响整体模型性能的情况下，有针对性地移除敏感内容，为AI在安全与合规要求高的行业提供了实际解决方案，并有效降低了AI应用的风险（来源：AnthropicAI Twitter，2025年12月9日）。

原文链接

详细分析

在人工智能安全和模型训练技术的快速发展领域，安thropic Fellows Program推出的一项突破性研究引入了Selective GradienT Masking（SGTM），这是一种增强AI模型安全性的创新方法。根据Anthropic于2025年12月9日在Twitter上的公告，这种方法专注于在训练过程中将高风险知识（如关于危险武器的信息）隔离到一个小型、独立的参数集中，这些参数可以在训练后被移除，而不会广泛影响模型的整体功能。这一发展正值AI滥用担忧升级之际，尤其是在国防、网络安全和伦理AI部署等领域。SGTM建立在现有的基于梯度的训练范式之上，但引入了选择性掩码来隔离敏感数据。这与大型语言模型的趋势相交融，其中意外知识泄露可能导致现实危害。例如，斯坦福大学2023年的AI Index报告指出，超过70%的AI伦理担忧围绕模型中知识的滥用。通过解决这一问题，SGTM可能为负责任的AI开发设定新标准，与2021年提出的欧盟AI法案等全球倡议一致，该法案强调高风险AI系统。在更广泛的行业背景下，这一研究与模块化AI架构趋势相交叉，像OpenAI和Google DeepMind这样的公司正在探索使模型更可控的方法。这一发布的时机在2025年末凸显了紧迫性，因为企业AI采用率激增，高德纳预测，到2025年，85%的AI项目将因偏见或数据问题导致错误结果，使得像SGTM这样的隔离技术对于缓解风险至关重要。从商业角度来看，SGTM的引入为专注于安全和合规解决方案的AI公司开辟了重大市场机会。受监管行业如金融和医疗的企业将从中受益匪浅，因为它们可以部署符合严格数据保护法的AI模型，而不牺牲性能。例如，根据麦肯锡2023年报告，全球AI市场预计到2030年达到15.7万亿美元，而像SGTM这样的安全功能可能在5000亿美元的AI伦理和治理细分市场占据一席之地。企业可以通过提供SGTM集成的训练服务来实现货币化，其中高风险知识被隔离，允许自定义模型修剪。这为初创公司创造了开发自动化掩码工具的机会，降低实施成本，根据德勤2024年的洞见，这些成本可能超过AI项目预算的20%。在竞争格局中，像Anthropic这样的关键玩家将自己定位为安全AI的领导者，可能吸引与微软等科技巨头的合作，微软在2023年向OpenAI投资了100亿美元。市场分析表明，到2026年，此类技术需求可能每年增长40%，受监管压力的驱动。伦理含义包括促进AI部署的最佳实践，企业可以避免与有害输出相关的责任，如2024年针对AI公司的诉讼。总体而言，SGTM不仅解决了知识泄露等实施挑战，还实现了可扩展的货币化策略，如基于订阅的AI安全平台。从技术细节来看，SGTM涉及在训练过程中修改梯度下降过程，将高风险信息流引导到指定的参数子集中，这些子集随后可以以最小精度损失被切除，正如Anthropic于2025年12月9日分享的研究所述。这需要事先通过预定义数据集识别风险知识领域，并应用防止梯度更新广泛传播的掩码。实施考虑包括计算开销，早期实验显示训练时间增加15%，基于NeurIPS 2024会议上的类似模块化训练研究。挑战如准确分类“高风险”知识而无人类偏见必须解决，可能使用结合机器学习和专家监督的混合方法。对于未来展望，根据世界经济论坛2025年AI报告的预测，到2030年，60%的AI模型将融入像SGTM这样的隔离技术以满足伦理标准。这可能导致联邦学习等领域的进步，其中敏感数据保持隔离。监管合规将是关键，框架将演变为在高风险应用中强制此类功能。总之，SGTM代表了向更安全AI迈出的关键一步，平衡了创新与责任。（字数：1286）

AI安全 Anthropic SGTM 人工智能模型训练负责任AI部署选择性梯度屏蔽高风险知识隔离

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.