AI 快讯列表关于 SGTM
| 时间 | 详情 |
|---|---|
|
2025-12-09 19:47 |
Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性
根据Anthropic (@AnthropicAI) 的信息,最新关于安全梯度训练方法(SGTM)的AI安全研究在简化环境和小型模型下进行,并使用替代评估方法而非行业标准基准。研究指出,SGTM与传统数据过滤一样,无法阻止对手在模型交互过程中主动提供敏感信息的上下文攻击。这一发现表明,开发更先进的AI安全工具和建立完善的行业基准体系,是应对实际攻击威胁的重要商业机会(来源:AnthropicAI,2025年12月9日)。 |
|
2025-12-09 19:47 |
Anthropic推出选择性梯度屏蔽(SGTM)技术:实现高风险AI知识隔离
根据Anthropic (@AnthropicAI) 的消息,Anthropic研究员项目发布了选择性梯度屏蔽(SGTM)新方法,使开发者能够将高风险知识(如危险武器信息)精准隔离到模型的特定参数中。该技术允许在不影响整体模型性能的情况下,有针对性地移除敏感内容,为AI在安全与合规要求高的行业提供了实际解决方案,并有效降低了AI应用的风险(来源:AnthropicAI Twitter,2025年12月9日)。 |
|
2025-12-09 19:47 |
SGTM选择性梯度屏蔽技术提升AI模型安全性,适用于高风险场景
根据Anthropic(@AnthropicAI)消息,SGTM(选择性梯度屏蔽)技术在预训练阶段将AI模型权重划分为“保留”与“遗忘”两部分,将敏感或高风险知识引导至“遗忘”子集。部署前可移除该子集,有效降低AI模型在高风险场景中的敏感信息泄露风险。该方法为金融、医疗等对合规与安全要求高的行业提供了可控、安全的AI部署方案。来源:alignment.anthropic.com/2025/selective-gradient-masking/ |
|
2025-12-09 19:47 |
Anthropic研究:数据过滤优于SGTM在AI模型忘记不良知识方面的表现
根据Anthropic (@AnthropicAI) 的消息,在控制了通用能力的情况下,采用SGTM(选择性梯度目标掩码)训练的AI模型,在忘记不良知识子集方面表现不如使用数据过滤方法训练的模型(来源:https://twitter.com/AnthropicAI/status/1998479611945202053)。这一结果凸显了数据过滤在剔除特定不良信息时的有效性,对需要严格知识管理和合规性的AI应用场景具有重要商业价值。 |
|
2025-12-09 19:47 |
Anthropic发布SGTM人工智能训练方法,开源代码助力模型可复现性
据Anthropic官方推特(@AnthropicAI)消息,SGTM(可扩展梯度训练方法)论文已正式发布,相关代码在GitHub上开源,支持模型实验的可复现性(来源:AnthropicAI Twitter,2025年12月9日)。这一创新的AI训练方法提升了大规模语言模型的扩展性和训练效率,为研究机构和企业带来可操作的复现工具,推动自然语言处理领域的创新与商业化应用,拓展了可扩展AI解决方案的市场机会。 |