Anthropic 实施 AI 安全 3 级协议以增强安全性

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

Anthropic 实施 AI 安全 3 级协议以增强安全性 - Blockchain.News

Anthropic 是一家领先的 AI 研究公司，宣布已激活其 AI 安全 3 级 (ASL-3) 部署和安全标准。据 Anthropic 称，此举是公司责任性扩展政策 (RSP) 的一部分，并与 Claude Opus 4 的推出同时进行。

增强的安全措施

ASL-3 安全标准推出了先进的内部安全措施，旨在防止模型权重的盗窃，这对 AI 的智能和能力至关重要。这些措施特别着重于对抗复杂的非国家行为者的威胁。部署标准旨在限制 AI 被误用于化学、生物、放射和核 (CBRN) 武器的开发或获取的风险。

积极的实施步骤

虽然尚未最终确定 Claude Opus 4 需要 ASL-3 保护，但还是在前瞻性地决定实施这些措施。这一预防性步骤让 Anthropic 能够测试并改进其安全协议，以应对 AI 模型日益发展的能力。公司已排除 Claude Opus 4 需要 ASL-4 标准和 Claude Sonnet 4 需要 ASL-3 的必要性。

部署和安全重点

ASL-3 部署措施专门为防止模型参与 CBRN 相关任务而设计。这些措施包括限制“通用越狱”，这是一种系统攻击，能够绕过安全防护而提取敏感信息。Anthropic 的方法包括增强系统对越狱攻击的抵抗力，实时探测攻击并逐步改善防御。

安全控制措施重点保护模型权重，实施了超过 100 种不同的安全措施，包括双人授权访问和增强的变更管理协议。这些控制措施的一个独特方面是实施出口带宽控制，限制敏感数据流出安全环境，以防止非授权访问模型权重。

持续改进

Anthropic 强调，ASL-3 标准的实施是 AI 安全和安全性持续改进的一步。公司会持续评估 Claude Opus 4 的能力，并根据新见解和威胁环境调整其安全措施。公司与其他 AI 行业利益相关者、政府和民间社会合作，不断增强这些保护措施。

Anthropic 的全面报告提供了有关这些新实施措施的理由和细节，旨在为 AI 行业中的其他组织提供资源。

Image source: Shutterstock

Bookmark

Anthropic 实施 AI 安全 3 级协议以增强安全性

增强的安全措施

积极的实施步骤

部署和安全重点

持续改进

Premium Sponsors

Flash News