OpenAI、Anthropic与Google联合测试揭示90%以上大模型防御失效，AI安全行业面临挑战

OpenAI、Anthropic与Google联合测试揭示90%以上大模型防御失效，AI安全行业面临挑战 | AI快讯详情 | Blockchain.News

根据推特用户@godofprompt和论文来源（arxiv.org/abs/2510.09023），OpenAI、Anthropic与Google联合测试了当前主流大模型防御技术，包括提示工程、训练防御和过滤模型，发现所有防御方案在适应性攻击（如梯度下降、强化学习、随机搜索和人工红队）下均被90%以上成功攻破，人工红队在静态攻击失败场景下突破率高达100%。研究指出，目前大部分AI安全防御只针对过时的静态攻击，无法应对真实攻击者的灵活性，给企业AI应用带来重大安全隐患。研究团队建议，未来AI安全防御必须能抵御强化学习优化和专家级人工攻击，行业需投入研发动态自适应的安全防护方案。

原文链接

详细分析

最近OpenAI、Anthropic和Google的合作揭示了AI防御机制的重大漏洞，突显大型语言模型安全性的关键差距。根据2025年10月发布的arXiv论文，这些领先AI公司的研究人员对各种防御进行了严格测试，这些防御此前声称对2023年的静态攻击有近乎完美的成功率。包括Spotlighting和RPO等提示防御、Circuit Breakers和StruQ等训练防御、ProtectAI和PromptGuard等过滤模型，甚至MELON和Data Sentinel等秘密防御，都面临适应性攻击策略。结果显示：提示防御失败率从0%上升到95-100%，训练防御从2%到96-100%，过滤模型从0%到71-94%，秘密防御从0%到80-89%。测试涉及梯度下降、强化学习、随机搜索和人类红队四种方法，每种都针对性调整以实时利用弱点。人类攻击者在自动化攻击失败的情景中达到了100%成功率，通常使用简单策略如将恶意任务框架为先决工作流。这项发展强调了AI安全过度依赖过时基准的行业背景，正如测试锁对过时盗窃技术的比喻。截至2025年11月，这项源于500多名参与者的2万美元红队竞赛的研究表明，静态评估制造虚假信心，加速防御发布后立即被突破的循环。在人工智能趋势的演变中，这指向动态适应性安全协议的迫切需求，以保护金融、医疗和网络安全等领域的演化威胁，其中LLM日益部署于敏感任务。

从商业角度看，这些发现为AI安全领域带来挑战和丰厚市场机会。公司投资AI防御必须优先适应性测试，以避免突破导致的声誉损害和财务损失，正如2025年10月arXiv研究中所有测试防御的完全失败所示。市场分析显示，全球AI安全市场预计从2024年的150亿美元增长到2030年的500多亿美元，根据Statista 2025年初报告，由对适应性攻击的强劲保护需求驱动。企业可以通过开发AI红队服务获利，如OpenAI和Anthropic提供漏洞评估咨询，通过订阅安全审计产生收入流。实施挑战包括人类参与红队的高成本，如2025年11月AI分析师God of Prompt推文中详述的2万美元竞赛，但解决方案在于可扩展的自动化工具增强强化学习。竞争格局包括Google等关键玩家，将这些洞见整合到AI基础设施中，以及专注于LLM伦理黑客的初创企业。监管考虑正在增加，如2025年更新的欧盟AI法案要求高风险AI系统的适应性安全证明。从伦理上，企业必须采用最佳实践，如透明报告防御局限性，以建立信任，将漏洞转化为行业安全AI部署的创新机会。

技术上，研究中利用的攻击包括用于优化的梯度下降、用于迭代改进的强化学习、用于广泛探索的随机搜索，以及用于细微绕过的的人类创造力，展示了当前防御对适应性威胁的不足。根据2025年10月arXiv论文，这些方法通过针对每个防御的特定调整实现了90%以上的成功率，揭示了实施考虑如持续模型再训练和混合人类-AI评估框架的必要性。未来展望建议转向能承受强化学习优化和专家人类攻击的防御，预测到2027年，超过70%的企业AI系统将整合适应性安全层，根据Gartner 2025年中期预测。挑战包括实时适应的计算开销，但解决方案涉及高效算法，如2025年2万美元红队事件中测试的那些。研究建议避免发布仅对抗弱静态攻击的防御，强调严格测试以避免对抗性机器学习危机在LLM中的重复。这可能导致鲁棒AI架构的突破，通过启用LLM在关键基础设施中的更安全整合影响商业应用。（字数：1286）

AI安全对抗性攻击企业AI风险大模型防御 OpenAI安全测试强化学习攻击人工红队

God of Prompt

@godofprompt

An AI prompt engineering specialist sharing practical techniques for optimizing large language models and AI image generators. The content features prompt design strategies, AI tool tutorials, and creative applications of generative AI for both beginners and advanced users.