AI 快讯列表关于 预防性引导
| 时间 | 详情 |
|---|---|
|
2025-08-01 16:23 |
Anthropic提出AI预防性引导方法:类疫苗机制提升模型安全性
据Anthropic(@AnthropicAI)最新发布,预防性引导(preventative steering)是一种通过将AI模型向特定的人格向量引导,以防止其获得这些不良特质的方法。这一类似疫苗的创新机制,通过受控地让模型接触“恶意”特征,从而在实际应用中抑制其发展相同特征,有助于提升大模型的安全性和可控性。该方法为AI安全、合规工具和企业级信任系统带来新的商业机会(来源:Anthropic,2025年8月1日)。 |