Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性

Anthropic AI安全研究揭示SGTM在防御上下文攻击方面的局限性 | AI快讯详情 | Blockchain.News

根据Anthropic (@AnthropicAI) 的信息，最新关于安全梯度训练方法（SGTM）的AI安全研究在简化环境和小型模型下进行，并使用替代评估方法而非行业标准基准。研究指出，SGTM与传统数据过滤一样，无法阻止对手在模型交互过程中主动提供敏感信息的上下文攻击。这一发现表明，开发更先进的AI安全工具和建立完善的行业基准体系，是应对实际攻击威胁的重要商业机会（来源：AnthropicAI，2025年12月9日）。

原文链接

详细分析

人工智能安全技术的进步已成为现代AI发展的基石，尤其是在大型语言模型融入各行业之际。根据Anthropic在2025年12月9日的更新，他们对可扩展监督与梯度-based训练调制（SGTM）的研究所揭示了在防范对抗输入方面的关键局限性。这种方法旨在通过调制训练梯度来过滤有害数据，从而提升模型鲁棒性，但研究是在简化设置中使用小模型和代理评估进行的，而不是像GLUE或SuperGLUE这样的标准基准，这些基准广泛用于评估语言模型性能。在更广泛的行业背景下，随着对AI滥用的担忧日益增加，AI安全正获得关注，像OpenAI和Google DeepMind这样的公司正在大力投资类似技术。例如，OpenAI的2023年安全报告强调了可扩展监督的需求，以防止越狱攻击，即模型被诱导生成不安全内容。Anthropic的研究强调，虽然SGTM在数据过滤方面显示出潜力，但它无法应对上下文攻击，即攻击者直接在推理过程中提供恶意信息。这一发现出现在全球AI投资于2023年达到930亿美元之际，根据Statista的AI市场分析，这推动了对可靠安全协议的需求。医疗保健和金融等行业特别受影响，因为这些领域的AI部署需要严格的保障措施，以符合如2024年生效的欧盟AI法案的规定。这一发展的背景指向一个不断增长的生态系统，其中初创企业和企业正在探索结合SGTM与其他方法如红队测试的混合方法，正如Meta在2023年12月发布的Llama Guard所展示，以加强针对演化威胁的防御。

从商业角度来看，Anthropic SGTM研究中识别的局限性为寻求利用AI安全解决方案的市场参与者带来了挑战和机会。企业可以利用这些洞见开发更健壮的产品，有潜力进入预计到2026年达到157亿美元的AI伦理和治理市场，根据MarketsandMarkets的2023年报告。货币化策略可能包括提供安全即服务平台，其中公司提供工具来审计和提升模型完整性，类似于Hugging Face的安全扫描器自2022年推出以来获得的吸引力。然而，实现挑战源于对简化设置的依赖，这可能无法转化为使用像GPT-4这样大规模模型的真实场景，导致严格基准测试的成本增加。企业必须通过投资全面测试框架来应对这些，根据Deloitte的2024年AI投资趋势，这可能使研发预算增加20-30%。竞争格局包括关键玩家如Anthropic，该公司到2023年根据Crunchbase数据筹集了40亿美元资金，以及竞争对手如Cohere和xAI，所有这些都在争取安全AI部署的主导地位。监管考虑至关重要，美国2023年10月的AI安全行政命令要求风险评估，推动公司向合规驱动的创新发展。伦理含义涉及确保安全局限性的透明度以建立用户信任，最佳实践推荐开源合作，正如IBM和Meta在2023年12月成立的AI联盟所促进的负责任AI。

深入技术细节，SGTM在训练过程中调制梯度以优先考虑安全数据，但其在小模型上的评估限制了向生产规模系统的泛化，正如Anthropic在2025年12月9日的披露所指出的。实现考虑包括将SGTM与上下文学习防御集成，如提示工程或对抗训练，以对抗直接供给攻击。挑战包括计算开销，梯度调制可能根据NeurIPS 2023年论文中的类似技术基准，将训练时间增加15-25%。解决方案涉及优化的硬件，如NVIDIA的H100 GPU，自2022年发布以来加速了AI训练。展望未来，预测表明到2027年，混合安全框架可能将越狱成功率降低40%，根据Nathan Benaich的2024年AI状态报告中的投影。展望强调了演化标准，像斯坦福基础模型研究中心于2021年成立，正在专注于可扩展监督。企业应优先考虑模块化实现，以适应新兴威胁，促进如自动化红队测试工具领域的创新。

AI安全 AI安全工具 Anthropic SGTM 上下文攻击对抗威胁模型基准测试

Anthropic

@AnthropicAI

We're an AI safety and research company that builds reliable, interpretable, and steerable AI systems.