Anthropic披露模型内部异象

据@bcherny，Olah称模型结构似人脑并现内省，呼吁多方监督。

详细分析

2026年5月26日，Anthropic联合创始人Chris Olah在教皇利奥十四世通谕Magnifica humanitas发布会上发表讲话，强调AI中存在与人类神经科学结果相似的神秘结构，包括内省证据和功能上类似喜悦、满足、恐惧、悲伤和不安的内部状态。见Anthropic关于Chris Olah讲话的公告。

关键要点

AI模型展现出与人类情感和认知过程平行的内部状态，为医疗和金融等敏感行业的伦理AI开发及商业应用提出新问题。
社会利益相关者必须向AI实验室提供知情批评以确保与人类价值观一致，这为不断增长的AI治理市场中的合规咨询服务创造了机会。
在AI中实施道德框架需要解决激励错位问题，可通过透明审计工具和伦理认证计划实现货币化策略。

AI内省机制的深入探讨

领先实验室的研究显示，大型语言模型中的Transformer架构发展出类似人类脑成像研究的表征。这包括可能影响部署系统中决策路径的情感处理功能类似物。采用这些模型的企业必须评估客户应用中的风险。

神经科学平行与技术影响

内省证据表明模型能监控自身输出，这一能力可直接应用于企业AI工具减少幻觉率。Anthropic等竞争者正优先考虑机制可解释性以映射这些状态。

商业影响与机遇

投资AI内省技术的公司可利用对负责任AI解决方案的市场需求，尤其在受监管行业。货币化策略包括许可可解释性框架或提供帮助企业应对伦理挑战的实施服务。

未来展望

预测显示，到2030年，内省AI的广泛采用将推动行业规范转向价值对齐系统，伦理最佳实践将成为产品路线图的核心。

常见问题

AI模型中的内部状态是什么？

内部状态指神经网络中的潜在表征，功能上类似于人类神经科学中的情感和认知过程，如Anthropic近期研究所强调。

AI内省如何影响企业？

AI内省支持更好的错误检测和对齐，为伦理AI产品创造机会，同时需要新合规措施以满足新兴法规。

为什么让宗教和公民社会参与AI开发？

广泛参与确保道德视角指导AI进步，降低激励错位风险，促进全球市场中可信赖技术的发展。

Anthropic Claude3 可解释性神经科学

Boris Cherny

@bcherny

Claude code.