OpenAI通过Responses API中的WebSockets加速Codex工作流程 - Blockchain.News

OpenAI通过Responses API中的WebSockets加速Codex工作流程

realtime news Apr 28, 2026 16:44

OpenAI对Responses API的改进引入了WebSockets,使代理工作流程速度提升了40%,让GPT-5.3达到了1,000 TPS。以下是他们如何实现的。

OpenAI通过Responses API中的WebSockets加速Codex工作流程

OpenAI为其Responses API引入了WebSocket支持,大幅降低了Codex代理工作流程的延迟,提升了40%的效率。这一升级使最新的GPT-5.3-Codex-Spark模型实现了每秒超过1,000个令牌(TPS)的速度,相较于早期版本的65 TPS,取得了巨大飞跃。这些进步对于实现更快速、更高效的AI驱动编码辅助至关重要,这是Codex功能的核心要素。

Codex是OpenAI的AI驱动编码助手,通过扫描代码库、建立上下文、进行编辑并快速运行测试来完成任务。历史上,这些任务需要大量的API往返调用,显著增加了延迟。随着模型推理速度的提高,这一问题变得更加明显,API开销成为瓶颈。为了解决这一问题,OpenAI重新设计了Responses API,引入了持久的WebSocket连接以减少冗余处理。

此前,Responses API将每个请求视为独立的,需要在每次调用中发送和处理完整的对话历史。新的WebSocket实现将可重复使用的状态缓存在内存中,允许在后续请求中只发送增量变化。这种精简的方法减少了开销,同时更高效地利用了服务器端的GPU和客户端资源。

关键优化包括:

  • 缓存令牌和模型配置以绕过重复的令牌化过程。
  • 消除不必要的网络跳转以简化API与推理之间的通信。
  • 增强安全分类器,使其只处理新的输入而非整个历史记录。
  • 将非阻塞过程(如计费)与后续请求重叠进行。

选择WebSockets而非诸如gRPC双向流等替代方案的决定,主要基于简化和对开发者的最小干扰。WebSocket模式保留了熟悉的API交互模式,使开发者能够无缝集成,而无需对其工作流程进行重大更改。

结果显著。在与关键合作伙伴的alpha测试中,初创公司报告代理工作流程速度提升了高达40%。包括Vercel和Cursor等平台用户在内的Codex用户显著减少了延迟。此外,Codex达到了GPT-5.3-Codex-Spark的1,000 TPS目标,并在生产流量中甚至记录了高达4,000 TPS的峰值。

对于AI开发者和企业来说,这些变化突显了优化API基础设施以跟上模型推理速度加快的重要性。正如OpenAI的进步所展示的那样,改进围绕AI模型的系统与提升模型本身同样重要。通过解决API瓶颈,OpenAI确保了更快的推理硬件(如GPT-5.3使用的Cerebras GPU)带来的性能提升能够被最终用户充分利用。

展望未来,Responses API中WebSocket支持的实施为AI代理工作流程的速度设定了新的基准。在对高性能实时AI能力需求不断增长的各行业中,这使OpenAI处于强有力的地位。随着API更新全面投产,开发者可以期待更流畅、更快速的集成——这是AI工具在编码、生产力等领域成为基础的一步关键举措。

Image source: Shutterstock