Ray 2.55 为大规模 AI 模型部署增添容错能力
Joerg Hiller 2026年4月2日 18:35
Anyscale 的 Ray Serve LLM 更新为 vLLM WideEP 部署启用了 DP 组容错功能,降低了分布式 AI 推理系统的停机风险。
Anyscale 发布了其 Ray Serve LLM 框架的重要更新,解决了运行大规模 AI 推理工作负载的组织面临的关键运营挑战。Ray 2.55 为 vLLM Wide Expert Parallelism 部署引入了数据并行(DP)组容错功能——这一特性可防止单个 GPU 故障导致整个模型服务集群瘫痪。
此更新针对混合专家(MoE)模型服务中的特定痛点。与每个副本独立运行的传统模型部署不同,像 DeepSeek-V3 这样的 MoE 架构会将专家层分片到必须协同工作的 GPU 组中。当这些配置中的一个 GPU 发生故障时,整个组——可能跨越 16 到 128 个 GPU——就会变得无法运行。
技术问题
MoE 模型在多个 GPU 上分布专门的"专家"神经网络。例如,DeepSeek-V3 每层包含 256 个专家,但每个令牌只激活 8 个。令牌通过调度和组合操作被路由到持有所需专家的 GPU,这些操作要求所有参与的等级都处于健康状态。
以前,单个等级的故障会破坏这些集体操作。查询会继续路由到受影响组中幸存的副本,但每个请求都会失败。恢复需要重启整个系统。
Ray 如何解决
Ray Serve LLM 现在通过组调度将每个 DP 组视为原子单元。当一个等级失败时,系统会将整个组标记为不健康,停止向其路由流量,拆除故障组,并将其作为一个单元重建。其他健康的组在整个过程中继续处理请求。
该功能在 Ray 2.55 中默认启用。现有的 DP 部署无需更改代码——框架会自动处理组级健康检查、调度和恢复。
自动扩展也尊重这些边界。扩展和缩减操作以组大小为增量进行,而不是单个副本,防止创建无法处理流量的部分组。
运营影响
此更新带来了一个重要的设计考量:组宽度与组数量的对比。根据 Anyscale 引用的 vLLM 基准测试,每个 GPU 的吞吐量在专家并行大小为 32、72 和 96 时保持相对稳定。这意味着运营商可以调整到更小的组而不牺牲效率——而更小的组意味着故障发生时爆炸半径更小。
Anyscale 指出,这种编排级弹性与 vLLM 社区中正在进行的引擎级弹性工作相辅相成。vLLM 弹性专家并行 RFC 解决了运行时如何动态调整组内拓扑的问题,而 Ray Serve LLM 则管理哪些组存在并接收流量。
对于大规模部署 DeepSeek 风格模型的组织来说,实际好处很直接:GPU 故障成为局部事件而不是系统范围的中断。代码示例和重现步骤可在 Anyscale 的 GitHub 存储库中获取。
图片来源:Shutterstock- ray
- vllm
- ai 基础设施
- 机器学习
- 分布式计算







