Ray Serve 引入可扩展的多代理 AI 架构

基于 Ray 构建的分布式计算框架 Ray Serve 推出了部署 AI 代理的新方法。通过集成模型上下文协议（MCP）和代理对代理（A2A）协议，该框架为单代理和多代理架构提供了独立的自动扩展系统。这一创新旨在解决开发人员在使用大语言模型（LLM）和复杂代理生态系统时面临的关键生产挑战。

传统的 AI 代理部署方法通常会导致脆弱的单体系统。这些架构将 GPU 密集型 LLM 推理与轻量级代理逻辑紧密耦合，使其无法独立扩展。Ray Serve 的新方法将这些组件解耦，使每个组件——无论是 LLM、工具还是代理——都能够作为独立的自动扩展服务运行。这不仅降低了成本，还提高了生产流量下的容错能力和系统弹性。

核心创新：MCP 和 A2A

Ray Serve 对 MCP 的使用通过实现外部功能的运行时发现，变革了工具集成方式。开发人员无需将工具硬编码到代理逻辑中，而是可以将工具作为独立的 MCP 服务器部署。这些服务器可以独立扩展，并能够动态更新或扩展，而无需重新部署代理。例如，一个天气预报工具可以添加或修改，而无需对代理的核心代码库进行任何更改。

同时，A2A 协议解决了代理间交互的脆弱性问题。通过为通信设置基于 HTTP 的边界，A2A 消除了直接导入的紧密耦合。代理现在可以动态地发现并相互交互，同时保持松散的相互依赖性。例如，一个旅行规划代理可以调用天气代理或研究代理，而无需了解它们的内部工作原理，这要归功于标准化的 A2A 接口。

实际部署：单代理与多代理系统

博客中描述了两种参考架构。在单代理系统中，一个基于 LangChain 的代理协调 LLM 服务、MCP 工具和其他组件之间的任务。该架构完全模块化，使每个组件可以根据需求独立扩展。例如，一个运行在 L4 GPU 上的 Qwen3-4B-Instruct 的 LLM 服务根据请求负载自动扩展其副本，而轻量级 MCP 工具则在分配的 CPU 资源上运行。

多代理系统基于此，通过引入专用代理（例如天气、研究、旅行）并通过 A2A 进行通信进一步扩展。这种设置不仅能够有效扩展，还确保了故障隔离。如果某个代理遇到错误，例如 API 密钥过期，系统的其余部分仍然可以继续运行，并在可能的情况下提供部分结果。

重要意义

随着基于 LLM 的应用程序的普及，生产瓶颈已成为一大挑战。Ray Serve 的新架构直接解决了基础设施脆弱性、高运营成本以及多代理工作流管理复杂性等问题。通过解耦组件并实现独立扩展，该框架为部署实时系统（如推荐引擎和对话式 AI）的企业提供了强大的解决方案。

Ray Serve 的特性——框架独立性、弹性扩展性和全栈可观测性——使其成为开发人员和公司有吸引力的选择。平台将本地开发与生产部署统一起来的能力进一步减少了机器学习工程师的障碍，从而加快了迭代周期。

市场背景

此次发布建立在 Ray 作为可扩展 AI 解决方案主流框架的声誉之上。像 OpenAI 和 Uber 这样的公司已经利用 Ray 的生态系统来训练和部署大型模型。随着企业对 LLM 和多代理系统的采用不断增加，Ray Serve 的进步可能在降低基础设施成本的同时满足性能需求方面发挥关键作用。

对企业而言，其意义显而易见：显著降低 GPU 成本和运营开销，同时提高关键 AI 应用程序的可靠性。这可能会加速 LLM 在金融、医疗和电子商务等需要高可扩展性和高正常运行时间的行业中的应用。

展望未来

单代理和多代理架构均可通过 Anyscale 提供的模板获得，Anyscale 是 Ray 的托管服务。开发人员可以使用相同的基于 Python 和 YAML 的配置，在本地或云端以最小的设置部署这些系统。从本地原型到生产部署的无缝过渡进一步巩固了 Ray Serve 作为可扩展 AI 基础设施领导者的地位。

随着 MCP 和 A2A 协议解决关键瓶颈，Ray Serve 已经为满足对可扩展、模块化 AI 系统日益增长的需求做好了准备。随着企业继续突破 LLM 应用的极限，这样的创新将对 AI 部署的未来发展至关重要。

Image source: Shutterstock

Bookmark