快讯列表

关于 分类器防御 的快讯列表

时间 详情
2026-01-09
21:30
Anthropic称分类器将Claude越狱率从86%降至4.4%,但成本上升且更易误拒,仍存在两类攻击向量

根据@AnthropicAI,内部分类器将Claude的越狱成功率从86%降至4.4%,显著降低了成功利用的比例。来源:@AnthropicAI 于X,2026年1月9日,https://twitter.com/AnthropicAI/status/2009739654833029304 根据@AnthropicAI,这些分类器的运行成本较高,影响部署的运维成本结构。来源:@AnthropicAI 于X,2026年1月9日,https://twitter.com/AnthropicAI/status/2009739654833029304 根据@AnthropicAI,引入分类器后系统更可能对正常请求给出拒绝。来源:@AnthropicAI 于X,2026年1月9日,https://twitter.com/AnthropicAI/status/2009739654833029304 根据@AnthropicAI,尽管有所改进,系统仍然易受两类攻击(见其配图)。来源:@AnthropicAI 于X,2026年1月9日,https://twitter.com/AnthropicAI/status/2009739654833029304

来源