AI行为控制 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AI行为控制

时间 详情
2025-12-08
16:31
Anthropic团队揭示大语言模型人格向量:提升AI个性控制与安全微调新机遇

根据DeepLearning.AI报道,Anthropic及多家安全研究机构的研究人员发现了大语言模型(LLM)中的“人格向量”,即能够反映阿谀奉承或幻觉倾向等性格特征的层级输出模式(来源:DeepLearning.AI,2025年12月8日)。通过对特定性格特征样本输出进行平均,并减去其反向特征输出,工程师可实现对这些性格特征的识别和主动控制。这一新方法让开发者在微调前筛查数据集,预测人格变化,从而使模型训练更安全、可控。研究显示,LLM的高级行为结构具有可编辑性,为金融、医疗等高安全合规行业的AI个性化和定制化应用带来全新市场机会(来源:DeepLearning.AI,2025)。