Anthropic 将 AI 对齐工具 Petri 3.0 捐赠给 Meridian Labs

Anthropic 已将其开源AI对齐工具 Petri 更新至 3.0 版本，并宣布将其开发工作转移至独立的 AI 评估非营利组织 Meridian Labs。该动向于 2026 年 5 月 7 日公布，旨在将 Petri 建立为一个中立的、行业范围内的标准，用于测试 AI 模型的行为和对齐性。

Petri 最初于 2025 年 10 月推出，是一个开源框架，旨在审计大型语言模型（LLMs）的安全风险。它自动化了测试 AI 模型行为的过程，包括欺骗、迎合和与有害请求合作等行为。该工具自 Claude Sonnet 4.5 以来，一直是 Anthropic 对其 Claude 模型进行对齐性评估的重要手段。

Petri 3.0 版本引入了重要升级。关键改进包括：

适应性：框架现在将审计模型和目标模型分离，允许用户独立定制这些组件，以实现更广泛的应用。
现实性：新增插件“Dish”，通过使用模型的实际系统提示和软件框架，使测试场景更接近真实部署环境。
深度：通过整合 Anthropic 的 Bloom 工具，能够更全面地评估特定行为，与 Petri 的整体调查方法形成互补。

Petri 已经在包括英国 AI 安全研究所（AISI）在内的知名组织中获得了关注，该研究所将其纳入其模型评估框架。新版工具预计将在实验室、独立研究人员和监管机构中进一步扩大用途。

通过将 Petri 转移至 Meridian Labs，Anthropic 希望确保该工具的独立性和可信度。这一举措类似于 Anthropic 早前将模型上下文协议（Model Context Protocol）捐赠给 Linux 基金会的行动，体现了其致力于推动开放、协作的 AI 安全研究的承诺。Petri 现在加入了 Meridian Labs 的其他工具，包括“Inspect”和“Scout”，共同构建了一个全面的 AI 模型评估技术栈。

更广泛的背景是，先进 AI 系统与人类价值观对齐的担忧日益增加。随着 AI 能力加速发展，行业面临着标准化评估模型行为工具的压力。Petri 的方法——模拟与目标模型的多回合交互并对响应的偏离程度进行评分——为研究人员提供了一个可扩展的解决方案来应对这一挑战。

对于有兴趣的人士，Petri 3.0 的详细安装和使用说明可在其官方网站上找到。Meridian Labs 还发布了一篇博客文章概述了更新内容，可点击这里访问。

此次更新强调了开源工具在加速 AI 安全研究中的重要性，特别是在模型复杂性不断增加的背景下。对于开发人员和政策制定者而言，Petri 的发展可能在塑造 AI 责任制的未来中发挥关键作用。

Image source: Shutterstock

Bookmark

Anthropic 将 AI 对齐工具 Petri 3.0 捐赠给 Meridian Labs

Premium Sponsors

Flash News