OpenAI更新ChatGPT以在敏感对话中实现上下文感知的安全性

OpenAI已对ChatGPT进行了重大更新，旨在提升其在可能逐渐出现风险的敏感对话中的处理能力。这些更新于2026年5月14日宣布，使AI能够通过分析多次交互中的上下文，而不是单独查看消息，更好地识别微妙的压抑或有害意图的模式。这一进展是OpenAI持续努力的一部分，旨在提高在涉及自我伤害、自杀或暴力等情景下的安全性。

推出的关键功能之一是“安全摘要”，这是一种简短的事实性笔记，用于捕捉先前对话中与安全相关的上下文。这些摘要范围狭窄、暂时存储，旨在改善模型在高风险情景下的响应。例如，如果用户在多次聊天中表现出压抑迹象，这些摘要可以帮助AI连点成线并适当地提高警惕——无论是拒绝某些请求、缓和对话，还是将用户引导到更安全的替代方案。

根据OpenAI的说法，此次更新建立在与精神科医生、心理学家和安全专家合作超过两年的基础上。测试显示了显著的改进：在单次高风险对话情景中，针对自杀和自我伤害的安全响应性能提升了50%，针对他人伤害的情景则提升了16%。在多次对话中，性能提升更为显著，使用当前ChatGPT默认模型GPT-5.5 Instant时，他人伤害情景改善了52%，自我伤害情景改善了39%。

为何上下文至关重要

OpenAI强调，在敏感互动中，上下文往往至关重要。一项看似无害的请求，当与之前的压抑迹象结合时，可能呈现出不同的语气。例如，用户询问关于药物的普通问题，如果先前消息中指出有自杀意念，则可能表明更深层次的担忧。更新后的模型经过训练，能够识别这些关联，并在响应中优先考虑安全性。

此项工作的重点是涉及自我伤害或他人伤害的急性情景，早期干预可能挽救生命。OpenAI的安全摘要并非用于个性化或长期记忆，而是作为一种针对罕见高风险情景的工具。

基于更广泛的安全努力

此更新是OpenAI旨在随着时间推移使ChatGPT更加安全和负责任的更大计划的一部分。2025年10月和2026年1月的早期更新引入了如年龄预测等措施，以减少未成年人接触敏感内容的情况、家长控制功能以及将高风险提示引导至优化为更安全输出的模型的安全路由系统。此外，该公司于2026年5月7日推出了“可信联系人”功能，允许成年用户指定一个人在ChatGPT检测到严重安全问题时收到警报。

这些分层干预反映了OpenAI向纵向风险检测的转变，即在一段时间内识别和应对风险信号，而非仅在孤立的交互中进行处理。公司还通过发布其安全性能指标的详细评估报告，提高了透明度。例如，在内部审查中，安全摘要的相关性和事实性得分平均分别为4.93和4.34（满分5分）。

未来展望

虽然当前更新专注于自我伤害和他人伤害情景，OpenAI正在探索类似的安全机制是否可以应用于其他高风险领域，例如网络安全或生物伦理。公司表示，任何扩展都将包括严格的保障措施和专家合作。

随着ChatGPT等AI系统越来越深入日常生活，检测和应对演变中的风险将始终是一项关键挑战。目前，OpenAI的更新标志着在让对话式AI在敏感情境中更加感知和负责任方面迈出了意义重大的一步。

Image source: Shutterstock

Bookmark

OpenAI更新ChatGPT以在敏感对话中实现上下文感知的安全性

为何上下文至关重要

基于更广泛的安全努力

未来展望

Premium Sponsors

Flash News