对齐 快讯列表

快讯列表

关于对齐的快讯列表

时间	详情
2025-12-09 19:47	Anthropic发布SGTM选择性梯度屏蔽：可移除的遗忘权重助力高风险AI部署更安全据@AnthropicAI称，SGTM（选择性梯度屏蔽）在预训练阶段将模型权重划分为“保留”和“遗忘”两部分，并将特定知识引导进入可移除的“遗忘”子集，信息来自Anthropic的对齐站点。Anthropic表示，该“遗忘”子集可在上线前删除，以在高风险场景中限制危险能力，信息来自Anthropic的对齐文章。该发布未提及加密货币或代币，也未说明任何市场或价格影响，信息来自Anthropic的帖子。来源
2025-08-22 16:19	AnthropicAI：分类器将CBRN准确率较随机基线额外降低33%，且不影响良性任务 \| AI安全进展 @AnthropicAI称，一个分类器方案将CBRN准确率相对随机基线额外降低33%；来源: @AnthropicAI。该来源还称，对一系列其他良性任务没有明显影响，直接回应了“过滤CBRN数据会伤害科学等无害能力”的担忧；来源: @AnthropicAI。来源

时间

详情

2025-12-09
19:47

Anthropic发布SGTM选择性梯度屏蔽：可移除的遗忘权重助力高风险AI部署更安全

据@AnthropicAI称，SGTM（选择性梯度屏蔽）在预训练阶段将模型权重划分为“保留”和“遗忘”两部分，并将特定知识引导进入可移除的“遗忘”子集，信息来自Anthropic的对齐站点。Anthropic表示，该“遗忘”子集可在上线前删除，以在高风险场景中限制危险能力，信息来自Anthropic的对齐文章。该发布未提及加密货币或代币，也未说明任何市场或价格影响，信息来自Anthropic的帖子。

来源

2025-08-22
16:19

AnthropicAI：分类器将CBRN准确率较随机基线额外降低33%，且不影响良性任务 | AI安全进展

@AnthropicAI称，一个分类器方案将CBRN准确率相对随机基线额外降低33%；来源: @AnthropicAI。该来源还称，对一系列其他良性任务没有明显影响，直接回应了“过滤CBRN数据会伤害科学等无害能力”的担忧；来源: @AnthropicAI。

来源

关于 对齐 的快讯列表

关于对齐的快讯列表