快讯列表

关于 开源对齐审计工具 的快讯列表

时间 详情
2025-10-06
17:15
Anthropic 开源 AI 对齐审计工具:继 Claude Sonnet 4.5 之后实现对阿谀与欺骗的自动化检测

据 @AnthropicAI 表示,该公司上周发布了 Claude Sonnet 4.5。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,在对齐测试中使用了一款新工具,对阿谀和欺骗等行为进行自动化审计。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,该审计工具现已开源以供运行上述审计。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208 据 @AnthropicAI 表示,该帖未给出代码仓库地址、许可证或时间安排,且未提及加密货币、代币或区块链。来源:Anthropic @AnthropicAI,X,2025年10月6日,https://twitter.com/AnthropicAI/status/1975248654609875208

来源