Anthropic通过与美国和英国机构的合作提升AI安全性

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

Anthropic通过与美国和英国机构的合作提升AI安全性 - Blockchain.News

专注于AI安全和研究的公司Anthropic宣布与美国人工智能标准与创新中心（CAISI）和英国AI安全研究所（AISI）展开战略合作。根据Anthropic的消息，该合作旨在通过严格的测试和评估流程，加强AI系统的安全性和完整性。

加强AI安全防护

合作始于初步磋商，并已发展为一个全面的伙伴关系。CAISI和AISI团队被授予在Anthropic的AI系统各个开发阶段进行访问，允许进行持续的安全评估。政府机构在网络安全和威胁建模等领域的专业知识对于评估潜在攻击向量和增强防御机制起到了重要作用。

重点之一是测试Anthropic的宪法分类器，这些分类器旨在检测和防止系统越狱。CAISI和AISI对Claude Opus 4和4.1等模型的多次分类器迭代进行了评估，识别出漏洞并提出改进建议。

合作发现了多个漏洞，包括提示注入攻击和复杂的混淆方法，已得到解决。举例来说，政府红队发现早期分类器中存在允许提示注入攻击的漏洞，此类攻击涉及隐藏指令，欺骗模型做出非预期行为。这些漏洞已被修补，安全防护架构已重新设计以防止类似问题。

此外，该合作促成了自动化系统的发展，这些系统能够优化攻击策略，使Anthropic进一步提升其防御能力。所获得的见解不仅改进了特定的安全措施，还加强了Anthropic对AI安全的整体方法。

通过这一合作，Anthropic学到了如何与政府研究机构有效合作的重要经验。提供全面的模型访问权限给红队人员对于发现复杂漏洞至关重要。这包括部署前测试、多系统配置和广泛的文档访问，共同提升了漏洞发现的有效性。

Anthropic强调，持续的合作对于确保AI模型的安全和有益至关重要。公司鼓励其他AI开发者与政府机构合作并分享他们的经验，以共同推进AI安全领域的发展。随着AI能力的不断发展，独立的缓解措施评估变得越来越重要。

Image source: Shutterstock