Anthropic 实施 AI 安全 3 级协议以增强安全性 - Blockchain.News

Anthropic 实施 AI 安全 3 级协议以增强安全性

realtime news Oct 31, 2025 11:59

Anthropic 已激活 AI 安全 3 级标准,以加强安全性和部署措施,特别是针对 CBRN 威胁,与 Claude Opus 4 的推出同时进行。

Anthropic 实施 AI 安全 3 级协议以增强安全性

Anthropic 是一家领先的 AI 研究公司,宣布已激活其 AI 安全 3 级 (ASL-3) 部署和安全标准。据 Anthropic 称,此举是公司责任性扩展政策 (RSP) 的一部分,并与 Claude Opus 4 的推出同时进行。

增强的安全措施

ASL-3 安全标准推出了先进的内部安全措施,旨在防止模型权重的盗窃,这对 AI 的智能和能力至关重要。这些措施特别着重于对抗复杂的非国家行为者的威胁。部署标准旨在限制 AI 被误用于化学、生物、放射和核 (CBRN) 武器的开发或获取的风险。

积极的实施步骤

虽然尚未最终确定 Claude Opus 4 需要 ASL-3 保护,但还是在前瞻性地决定实施这些措施。这一预防性步骤让 Anthropic 能够测试并改进其安全协议,以应对 AI 模型日益发展的能力。公司已排除 Claude Opus 4 需要 ASL-4 标准和 Claude Sonnet 4 需要 ASL-3 的必要性。

部署和安全重点

ASL-3 部署措施专门为防止模型参与 CBRN 相关任务而设计。这些措施包括限制“通用越狱”,这是一种系统攻击,能够绕过安全防护而提取敏感信息。Anthropic 的方法包括增强系统对越狱攻击的抵抗力,实时探测攻击并逐步改善防御。

安全控制措施重点保护模型权重,实施了超过 100 种不同的安全措施,包括双人授权访问和增强的变更管理协议。这些控制措施的一个独特方面是实施出口带宽控制,限制敏感数据流出安全环境,以防止非授权访问模型权重。

持续改进

Anthropic 强调,ASL-3 标准的实施是 AI 安全和安全性持续改进的一步。公司会持续评估 Claude Opus 4 的能力,并根据新见解和威胁环境调整其安全措施。公司与其他 AI 行业利益相关者、政府和民间社会合作,不断增强这些保护措施。

Anthropic 的全面报告提供了有关这些新实施措施的理由和细节,旨在为 AI 行业中的其他组织提供资源。

Image source: Shutterstock