Anthropic 将 AI 对齐工具 Petri 3.0 捐赠给 Meridian Labs
realtime news May 07, 2026 21:29
Anthropic 将其开源 AI 对齐工具 Petri 更新至 3.0 版本,并将开发工作转移到 Meridian Labs,以增强工具的中立性和行业采纳度。
Anthropic 已将其开源AI对齐工具 Petri 更新至 3.0 版本,并宣布将其开发工作转移至独立的 AI 评估非营利组织 Meridian Labs。该动向于 2026 年 5 月 7 日公布,旨在将 Petri 建立为一个中立的、行业范围内的标准,用于测试 AI 模型的行为和对齐性。
Petri 最初于 2025 年 10 月推出,是一个开源框架,旨在审计大型语言模型(LLMs)的安全风险。它自动化了测试 AI 模型行为的过程,包括欺骗、迎合和与有害请求合作等行为。该工具自 Claude Sonnet 4.5 以来,一直是 Anthropic 对其 Claude 模型进行对齐性评估的重要手段。
Petri 3.0 版本引入了重要升级。关键改进包括:
- 适应性:框架现在将审计模型和目标模型分离,允许用户独立定制这些组件,以实现更广泛的应用。
- 现实性:新增插件“Dish”,通过使用模型的实际系统提示和软件框架,使测试场景更接近真实部署环境。
- 深度:通过整合 Anthropic 的 Bloom 工具,能够更全面地评估特定行为,与 Petri 的整体调查方法形成互补。
Petri 已经在包括英国 AI 安全研究所(AISI)在内的知名组织中获得了关注,该研究所将其纳入其模型评估框架。新版工具预计将在实验室、独立研究人员和监管机构中进一步扩大用途。
通过将 Petri 转移至 Meridian Labs,Anthropic 希望确保该工具的独立性和可信度。这一举措类似于 Anthropic 早前将模型上下文协议(Model Context Protocol)捐赠给 Linux 基金会的行动,体现了其致力于推动开放、协作的 AI 安全研究的承诺。Petri 现在加入了 Meridian Labs 的其他工具,包括“Inspect”和“Scout”,共同构建了一个全面的 AI 模型评估技术栈。
更广泛的背景是,先进 AI 系统与人类价值观对齐的担忧日益增加。随着 AI 能力加速发展,行业面临着标准化评估模型行为工具的压力。Petri 的方法——模拟与目标模型的多回合交互并对响应的偏离程度进行评分——为研究人员提供了一个可扩展的解决方案来应对这一挑战。
对于有兴趣的人士,Petri 3.0 的详细安装和使用说明可在其官方网站上找到。Meridian Labs 还发布了一篇博客文章概述了更新内容,可点击这里访问。
此次更新强调了开源工具在加速 AI 安全研究中的重要性,特别是在模型复杂性不断增加的背景下。对于开发人员和政策制定者而言,Petri 的发展可能在塑造 AI 责任制的未来中发挥关键作用。
Image source: Shutterstock