快讯列表

关于 诱导攻击 的快讯列表

时间 详情
2026-01-26
19:34
Anthropic警示AI安全:无害数据可触发诱导攻击,其效果接近明确有害训练的三分之二

据@AnthropicAI称,诱导攻击可利用看似无害的数据,如奶酪制作、发酵和蜡烛化学等,一项实验显示,用无害化学数据训练在化武相关任务上的提升效果可达到使用化武数据训练的约三分之二;来源:https://twitter.com/AnthropicAI/status/2015870971224404370。

来源