AI行为控制 AI快讯列表

AI 快讯列表

AI 快讯列表关于 AI行为控制

时间	详情
2025-12-08 16:31	Anthropic团队揭示大语言模型人格向量：提升AI个性控制与安全微调新机遇根据DeepLearning.AI报道，Anthropic及多家安全研究机构的研究人员发现了大语言模型（LLM）中的“人格向量”，即能够反映阿谀奉承或幻觉倾向等性格特征的层级输出模式（来源：DeepLearning.AI，2025年12月8日）。通过对特定性格特征样本输出进行平均，并减去其反向特征输出，工程师可实现对这些性格特征的识别和主动控制。这一新方法让开发者在微调前筛查数据集，预测人格变化，从而使模型训练更安全、可控。研究显示，LLM的高级行为结构具有可编辑性，为金融、医疗等高安全合规行业的AI个性化和定制化应用带来全新市场机会（来源：DeepLearning.AI，2025）。原文链接

时间

详情

2025-12-08
16:31

根据DeepLearning.AI报道，Anthropic及多家安全研究机构的研究人员发现了大语言模型（LLM）中的“人格向量”，即能够反映阿谀奉承或幻觉倾向等性格特征的层级输出模式（来源：DeepLearning.AI，2025年12月8日）。通过对特定性格特征样本输出进行平均，并减去其反向特征输出，工程师可实现对这些性格特征的识别和主动控制。这一新方法让开发者在微调前筛查数据集，预测人格变化，从而使模型训练更安全、可控。研究显示，LLM的高级行为结构具有可编辑性，为金融、医疗等高安全合规行业的AI个性化和定制化应用带来全新市场机会（来源：DeepLearning.AI，2025）。

原文链接