OpenAI通过Responses API中的WebSockets加速Codex工作流程

OpenAI通过Responses API中的WebSockets加速Codex工作流程 - Blockchain.News

OpenAI为其Responses API引入了WebSocket支持，大幅降低了Codex代理工作流程的延迟，提升了40%的效率。这一升级使最新的GPT-5.3-Codex-Spark模型实现了每秒超过1,000个令牌（TPS）的速度，相较于早期版本的65 TPS，取得了巨大飞跃。这些进步对于实现更快速、更高效的AI驱动编码辅助至关重要，这是Codex功能的核心要素。

Codex是OpenAI的AI驱动编码助手，通过扫描代码库、建立上下文、进行编辑并快速运行测试来完成任务。历史上，这些任务需要大量的API往返调用，显著增加了延迟。随着模型推理速度的提高，这一问题变得更加明显，API开销成为瓶颈。为了解决这一问题，OpenAI重新设计了Responses API，引入了持久的WebSocket连接以减少冗余处理。

此前，Responses API将每个请求视为独立的，需要在每次调用中发送和处理完整的对话历史。新的WebSocket实现将可重复使用的状态缓存在内存中，允许在后续请求中只发送增量变化。这种精简的方法减少了开销，同时更高效地利用了服务器端的GPU和客户端资源。

关键优化包括：

缓存令牌和模型配置以绕过重复的令牌化过程。
消除不必要的网络跳转以简化API与推理之间的通信。
增强安全分类器，使其只处理新的输入而非整个历史记录。
将非阻塞过程（如计费）与后续请求重叠进行。

选择WebSockets而非诸如gRPC双向流等替代方案的决定，主要基于简化和对开发者的最小干扰。WebSocket模式保留了熟悉的API交互模式，使开发者能够无缝集成，而无需对其工作流程进行重大更改。

结果显著。在与关键合作伙伴的alpha测试中，初创公司报告代理工作流程速度提升了高达40%。包括Vercel和Cursor等平台用户在内的Codex用户显著减少了延迟。此外，Codex达到了GPT-5.3-Codex-Spark的1,000 TPS目标，并在生产流量中甚至记录了高达4,000 TPS的峰值。

对于AI开发者和企业来说，这些变化突显了优化API基础设施以跟上模型推理速度加快的重要性。正如OpenAI的进步所展示的那样，改进围绕AI模型的系统与提升模型本身同样重要。通过解决API瓶颈，OpenAI确保了更快的推理硬件（如GPT-5.3使用的Cerebras GPU）带来的性能提升能够被最终用户充分利用。

展望未来，Responses API中WebSocket支持的实施为AI代理工作流程的速度设定了新的基准。在对高性能实时AI能力需求不断增长的各行业中，这使OpenAI处于强有力的地位。随着API更新全面投产，开发者可以期待更流畅、更快速的集成——这是AI工具在编码、生产力等领域成为基础的一步关键举措。

Image source: Shutterstock

OpenAI通过Responses API中的WebSockets加速Codex工作流程

Premium Sponsors

Flash News