AI 快讯列表关于 模型基准测试
| 时间 | 详情 |
|---|---|
|
2025-12-09 19:47 |
Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性
根据Anthropic (@AnthropicAI) 的信息,最新关于安全梯度训练方法(SGTM)的AI安全研究在简化环境和小型模型下进行,并使用替代评估方法而非行业标准基准。研究指出,SGTM与传统数据过滤一样,无法阻止对手在模型交互过程中主动提供敏感信息的上下文攻击。这一发现表明,开发更先进的AI安全工具和建立完善的行业基准体系,是应对实际攻击威胁的重要商业机会(来源:AnthropicAI,2025年12月9日)。 |