强化学习攻击 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 强化学习攻击

时间 详情
2025-11-07
10:52
OpenAI、Anthropic与Google联合测试揭示90%以上大模型防御失效,AI安全行业面临挑战

根据推特用户@godofprompt和论文来源(arxiv.org/abs/2510.09023),OpenAI、Anthropic与Google联合测试了当前主流大模型防御技术,包括提示工程、训练防御和过滤模型,发现所有防御方案在适应性攻击(如梯度下降、强化学习、随机搜索和人工红队)下均被90%以上成功攻破,人工红队在静态攻击失败场景下突破率高达100%。研究指出,目前大部分AI安全防御只针对过时的静态攻击,无法应对真实攻击者的灵活性,给企业AI应用带来重大安全隐患。研究团队建议,未来AI安全防御必须能抵御强化学习优化和专家级人工攻击,行业需投入研发动态自适应的安全防护方案。