关于 对齐 的快讯列表
| 时间 | 详情 |
|---|---|
|
2025-12-09 19:47 |
Anthropic发布SGTM选择性梯度屏蔽:可移除的遗忘权重助力高风险AI部署更安全
据@AnthropicAI称,SGTM(选择性梯度屏蔽)在预训练阶段将模型权重划分为“保留”和“遗忘”两部分,并将特定知识引导进入可移除的“遗忘”子集,信息来自Anthropic的对齐站点。Anthropic表示,该“遗忘”子集可在上线前删除,以在高风险场景中限制危险能力,信息来自Anthropic的对齐文章。该发布未提及加密货币或代币,也未说明任何市场或价格影响,信息来自Anthropic的帖子。 |
|
2025-08-22 16:19 |
AnthropicAI:分类器将CBRN准确率较随机基线额外降低33%,且不影响良性任务 | AI安全进展
@AnthropicAI称,一个分类器方案将CBRN准确率相对随机基线额外降低33%;来源: @AnthropicAI。该来源还称,对一系列其他良性任务没有明显影响,直接回应了“过滤CBRN数据会伤害科学等无害能力”的担忧;来源: @AnthropicAI。 |