关于 欺骗检测 的快讯列表
时间 | 详情 |
---|---|
2025-10-06 17:15 |
Anthropic 开源 AI 对齐审计工具:继 Claude Sonnet 4.5 之后实现对阿谀与欺骗的自动化检测
据 @AnthropicAI 表示,该公司上周发布了 Claude Sonnet 4.5。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,在对齐测试中使用了一款新工具,对阿谀和欺骗等行为进行自动化审计。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,该审计工具现已开源以供运行上述审计。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,该帖未给出代码仓库地址、许可证或时间安排,且未提及加密货币、代币或区块链。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 |