Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性 | AI快讯详情 | Blockchain.News
最新更新
12/9/2025 7:47:00 PM

Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性

Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性

根据Anthropic (@AnthropicAI) 的信息,最新关于安全梯度训练方法(SGTM)的AI安全研究在简化环境和小型模型下进行,并使用替代评估方法而非行业标准基准。研究指出,SGTM与传统数据过滤一样,无法阻止对手在模型交互过程中主动提供敏感信息的上下文攻击。这一发现表明,开发更先进的AI安全工具和建立完善的行业基准体系,是应对实际攻击威胁的重要商业机会(来源:AnthropicAI,2025年12月9日)。

原文链接

详细分析

人工智能安全技术的进步已成为现代AI发展的基石,尤其是在大型语言模型融入各行业之际。根据Anthropic在2025年12月9日的更新,他们对可扩展监督与梯度-based训练调制(SGTM)的研究所揭示了在防范对抗输入方面的关键局限性。这种方法旨在通过调制训练梯度来过滤有害数据,从而提升模型鲁棒性,但研究是在简化设置中使用小模型和代理评估进行的,而不是像GLUE或SuperGLUE这样的标准基准,这些基准广泛用于评估语言模型性能。在更广泛的行业背景下,随着对AI滥用的担忧日益增加,AI安全正获得关注,像OpenAI和Google DeepMind这样的公司正在大力投资类似技术。例如,OpenAI的2023年安全报告强调了可扩展监督的需求,以防止越狱攻击,即模型被诱导生成不安全内容。Anthropic的研究强调,虽然SGTM在数据过滤方面显示出潜力,但它无法应对上下文攻击,即攻击者直接在推理过程中提供恶意信息。这一发现出现在全球AI投资于2023年达到930亿美元之际,根据Statista的AI市场分析,这推动了对可靠安全协议的需求。医疗保健和金融等行业特别受影响,因为这些领域的AI部署需要严格的保障措施,以符合如2024年生效的欧盟AI法案的规定。这一发展的背景指向一个不断增长的生态系统,其中初创企业和企业正在探索结合SGTM与其他方法如红队测试的混合方法,正如Meta在2023年12月发布的Llama Guard所展示,以加强针对演化威胁的防御。

从商业角度来看,Anthropic SGTM研究中识别的局限性为寻求利用AI安全解决方案的市场参与者带来了挑战和机会。企业可以利用这些洞见开发更健壮的产品,有潜力进入预计到2026年达到157亿美元的AI伦理和治理市场,根据MarketsandMarkets的2023年报告。货币化策略可能包括提供安全即服务平台,其中公司提供工具来审计和提升模型完整性,类似于Hugging Face的安全扫描器自2022年推出以来获得的吸引力。然而,实现挑战源于对简化设置的依赖,这可能无法转化为使用像GPT-4这样大规模模型的真实场景,导致严格基准测试的成本增加。企业必须通过投资全面测试框架来应对这些,根据Deloitte的2024年AI投资趋势,这可能使研发预算增加20-30%。竞争格局包括关键玩家如Anthropic,该公司到2023年根据Crunchbase数据筹集了40亿美元资金,以及竞争对手如Cohere和xAI,所有这些都在争取安全AI部署的主导地位。监管考虑至关重要,美国2023年10月的AI安全行政命令要求风险评估,推动公司向合规驱动的创新发展。伦理含义涉及确保安全局限性的透明度以建立用户信任,最佳实践推荐开源合作,正如IBM和Meta在2023年12月成立的AI联盟所促进的负责任AI。

深入技术细节,SGTM在训练过程中调制梯度以优先考虑安全数据,但其在小模型上的评估限制了向生产规模系统的泛化,正如Anthropic在2025年12月9日的披露所指出的。实现考虑包括将SGTM与上下文学习防御集成,如提示工程或对抗训练,以对抗直接供给攻击。挑战包括计算开销,梯度调制可能根据NeurIPS 2023年论文中的类似技术基准,将训练时间增加15-25%。解决方案涉及优化的硬件,如NVIDIA的H100 GPU,自2022年发布以来加速了AI训练。展望未来,预测表明到2027年,混合安全框架可能将越狱成功率降低40%,根据Nathan Benaich的2024年AI状态报告中的投影。展望强调了演化标准,像斯坦福基础模型研究中心于2021年成立,正在专注于可扩展监督。企业应优先考虑模块化实现,以适应新兴威胁,促进如自动化红队测试工具领域的创新。

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.