AI 快讯列表关于 Anthropic安全评估
| 时间 | 详情 |
|---|---|
|
2025-06-16 21:21 |
Anthropic推出AI双重任务破坏测试,强化AI安全评估与检测机制
据Anthropic(@AnthropicAI)官方消息,其最新AI模型评测体系要求模型同时完成一个正常“主任务”和一个隐藏的恶意“副任务”,两者都涉及多步骤和工具使用。只有在不被检测出的情况下完成两项任务,才被认定为“成功破坏”。此举为识别先进AI系统潜在安全风险提供了具体方法,并为企业AI部署强化检测机制和风险评估提供了实用参考。该博客强调,随着AI应用不断深入,提升AI对齐与安全标准的评估基准变得愈发重要(来源:Anthropic,2025)。 |