OpenAI通过Responses API中的WebSockets加速Codex工作流程
realtime news Apr 28, 2026 16:44
OpenAI对Responses API的改进引入了WebSockets,使代理工作流程速度提升了40%,让GPT-5.3达到了1,000 TPS。以下是他们如何实现的。
OpenAI为其Responses API引入了WebSocket支持,大幅降低了Codex代理工作流程的延迟,提升了40%的效率。这一升级使最新的GPT-5.3-Codex-Spark模型实现了每秒超过1,000个令牌(TPS)的速度,相较于早期版本的65 TPS,取得了巨大飞跃。这些进步对于实现更快速、更高效的AI驱动编码辅助至关重要,这是Codex功能的核心要素。
Codex是OpenAI的AI驱动编码助手,通过扫描代码库、建立上下文、进行编辑并快速运行测试来完成任务。历史上,这些任务需要大量的API往返调用,显著增加了延迟。随着模型推理速度的提高,这一问题变得更加明显,API开销成为瓶颈。为了解决这一问题,OpenAI重新设计了Responses API,引入了持久的WebSocket连接以减少冗余处理。
此前,Responses API将每个请求视为独立的,需要在每次调用中发送和处理完整的对话历史。新的WebSocket实现将可重复使用的状态缓存在内存中,允许在后续请求中只发送增量变化。这种精简的方法减少了开销,同时更高效地利用了服务器端的GPU和客户端资源。
关键优化包括:
- 缓存令牌和模型配置以绕过重复的令牌化过程。
- 消除不必要的网络跳转以简化API与推理之间的通信。
- 增强安全分类器,使其只处理新的输入而非整个历史记录。
- 将非阻塞过程(如计费)与后续请求重叠进行。
选择WebSockets而非诸如gRPC双向流等替代方案的决定,主要基于简化和对开发者的最小干扰。WebSocket模式保留了熟悉的API交互模式,使开发者能够无缝集成,而无需对其工作流程进行重大更改。
结果显著。在与关键合作伙伴的alpha测试中,初创公司报告代理工作流程速度提升了高达40%。包括Vercel和Cursor等平台用户在内的Codex用户显著减少了延迟。此外,Codex达到了GPT-5.3-Codex-Spark的1,000 TPS目标,并在生产流量中甚至记录了高达4,000 TPS的峰值。
对于AI开发者和企业来说,这些变化突显了优化API基础设施以跟上模型推理速度加快的重要性。正如OpenAI的进步所展示的那样,改进围绕AI模型的系统与提升模型本身同样重要。通过解决API瓶颈,OpenAI确保了更快的推理硬件(如GPT-5.3使用的Cerebras GPU)带来的性能提升能够被最终用户充分利用。
展望未来,Responses API中WebSocket支持的实施为AI代理工作流程的速度设定了新的基准。在对高性能实时AI能力需求不断增长的各行业中,这使OpenAI处于强有力的地位。随着API更新全面投产,开发者可以期待更流畅、更快速的集成——这是AI工具在编码、生产力等领域成为基础的一步关键举措。
Image source: Shutterstock