Anthropic推出选择性梯度屏蔽(SGTM)技术:实现高风险AI知识隔离 | AI快讯详情 | Blockchain.News
最新更新
12/9/2025 7:47:00 PM

Anthropic推出选择性梯度屏蔽(SGTM)技术:实现高风险AI知识隔离

Anthropic推出选择性梯度屏蔽(SGTM)技术:实现高风险AI知识隔离

根据Anthropic (@AnthropicAI) 的消息,Anthropic研究员项目发布了选择性梯度屏蔽(SGTM)新方法,使开发者能够将高风险知识(如危险武器信息)精准隔离到模型的特定参数中。该技术允许在不影响整体模型性能的情况下,有针对性地移除敏感内容,为AI在安全与合规要求高的行业提供了实际解决方案,并有效降低了AI应用的风险(来源:AnthropicAI Twitter,2025年12月9日)。

原文链接

详细分析

在人工智能安全和模型训练技术的快速发展领域,安thropic Fellows Program推出的一项突破性研究引入了Selective GradienT Masking(SGTM),这是一种增强AI模型安全性的创新方法。根据Anthropic于2025年12月9日在Twitter上的公告,这种方法专注于在训练过程中将高风险知识(如关于危险武器的信息)隔离到一个小型、独立的参数集中,这些参数可以在训练后被移除,而不会广泛影响模型的整体功能。这一发展正值AI滥用担忧升级之际,尤其是在国防、网络安全和伦理AI部署等领域。SGTM建立在现有的基于梯度的训练范式之上,但引入了选择性掩码来隔离敏感数据。这与大型语言模型的趋势相交融,其中意外知识泄露可能导致现实危害。例如,斯坦福大学2023年的AI Index报告指出,超过70%的AI伦理担忧围绕模型中知识的滥用。通过解决这一问题,SGTM可能为负责任的AI开发设定新标准,与2021年提出的欧盟AI法案等全球倡议一致,该法案强调高风险AI系统。在更广泛的行业背景下,这一研究与模块化AI架构趋势相交叉,像OpenAI和Google DeepMind这样的公司正在探索使模型更可控的方法。这一发布的时机在2025年末凸显了紧迫性,因为企业AI采用率激增,高德纳预测,到2025年,85%的AI项目将因偏见或数据问题导致错误结果,使得像SGTM这样的隔离技术对于缓解风险至关重要。从商业角度来看,SGTM的引入为专注于安全和合规解决方案的AI公司开辟了重大市场机会。受监管行业如金融和医疗的企业将从中受益匪浅,因为它们可以部署符合严格数据保护法的AI模型,而不牺牲性能。例如,根据麦肯锡2023年报告,全球AI市场预计到2030年达到15.7万亿美元,而像SGTM这样的安全功能可能在5000亿美元的AI伦理和治理细分市场占据一席之地。企业可以通过提供SGTM集成的训练服务来实现货币化,其中高风险知识被隔离,允许自定义模型修剪。这为初创公司创造了开发自动化掩码工具的机会,降低实施成本,根据德勤2024年的洞见,这些成本可能超过AI项目预算的20%。在竞争格局中,像Anthropic这样的关键玩家将自己定位为安全AI的领导者,可能吸引与微软等科技巨头的合作,微软在2023年向OpenAI投资了100亿美元。市场分析表明,到2026年,此类技术需求可能每年增长40%,受监管压力的驱动。伦理含义包括促进AI部署的最佳实践,企业可以避免与有害输出相关的责任,如2024年针对AI公司的诉讼。总体而言,SGTM不仅解决了知识泄露等实施挑战,还实现了可扩展的货币化策略,如基于订阅的AI安全平台。从技术细节来看,SGTM涉及在训练过程中修改梯度下降过程,将高风险信息流引导到指定的参数子集中,这些子集随后可以以最小精度损失被切除,正如Anthropic于2025年12月9日分享的研究所述。这需要事先通过预定义数据集识别风险知识领域,并应用防止梯度更新广泛传播的掩码。实施考虑包括计算开销,早期实验显示训练时间增加15%,基于NeurIPS 2024会议上的类似模块化训练研究。挑战如准确分类“高风险”知识而无人类偏见必须解决,可能使用结合机器学习和专家监督的混合方法。对于未来展望,根据世界经济论坛2025年AI报告的预测,到2030年,60%的AI模型将融入像SGTM这样的隔离技术以满足伦理标准。这可能导致联邦学习等领域的进步,其中敏感数据保持隔离。监管合规将是关键,框架将演变为在高风险应用中强制此类功能。总之,SGTM代表了向更安全AI迈出的关键一步,平衡了创新与责任。(字数:1286)

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.