买币行情现货交易合约GOLD 理财活动中心

更多

黄金 vs 加密货币

Anyscale 的 Ray Serve LLM 更新为 vLLM WideEP 部署启用了 DP 组容错功能，降低了分布式 AI 推理系统的停机风险。（阅读Anyscale 的 Ray Serve LLM 更新为 vLLM WideEP 部署启用了 DP 组容错功能，降低了分布式 AI 推理系统的停机风险。（阅读

Ray 2.55 为大规模 AI 模型部署添加容错功能

来源：BlockChain News

2026/04/03 02:35

阅读时长 5 分钟

分享

Raydium

RAY$0.6149-8.05%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

Ray 2.55 为大规模 AI 模型部署增添容错能力

Joerg Hiller 2026年4月2日 18:35

Anyscale 的 Ray Serve LLM 更新为 vLLM WideEP 部署启用了 DP 组容错功能,降低了分布式 AI 推理系统的停机风险。

Ray 2.55 为大规模 AI 模型部署增添容错能力

Anyscale 发布了其 Ray Serve LLM 框架的重要更新,解决了运行大规模 AI 推理工作负载的组织面临的关键运营挑战。Ray 2.55 为 vLLM Wide Expert Parallelism 部署引入了数据并行(DP)组容错功能——这一特性可防止单个 GPU 故障导致整个模型服务集群瘫痪。

此更新针对混合专家(MoE)模型服务中的特定痛点。与每个副本独立运行的传统模型部署不同,像 DeepSeek-V3 这样的 MoE 架构会将专家层分片到必须协同工作的 GPU 组中。当这些配置中的一个 GPU 发生故障时,整个组——可能跨越 16 到 128 个 GPU——就会变得无法运行。

技术问题

MoE 模型在多个 GPU 上分布专门的"专家"神经网络。例如,DeepSeek-V3 每层包含 256 个专家,但每个令牌只激活 8 个。令牌通过调度和组合操作被路由到持有所需专家的 GPU,这些操作要求所有参与的等级都处于健康状态。

以前,单个等级的故障会破坏这些集体操作。查询会继续路由到受影响组中幸存的副本,但每个请求都会失败。恢复需要重启整个系统。

Ray 如何解决

Ray Serve LLM 现在通过组调度将每个 DP 组视为原子单元。当一个等级失败时,系统会将整个组标记为不健康,停止向其路由流量,拆除故障组,并将其作为一个单元重建。其他健康的组在整个过程中继续处理请求。

该功能在 Ray 2.55 中默认启用。现有的 DP 部署无需更改代码——框架会自动处理组级健康检查、调度和恢复。

自动扩展也尊重这些边界。扩展和缩减操作以组大小为增量进行,而不是单个副本,防止创建无法处理流量的部分组。

运营影响

此更新带来了一个重要的设计考量:组宽度与组数量的对比。根据 Anyscale 引用的 vLLM 基准测试,每个 GPU 的吞吐量在专家并行大小为 32、72 和 96 时保持相对稳定。这意味着运营商可以调整到更小的组而不牺牲效率——而更小的组意味着故障发生时爆炸半径更小。

Anyscale 指出,这种编排级弹性与 vLLM 社区中正在进行的引擎级弹性工作相辅相成。vLLM 弹性专家并行 RFC 解决了运行时如何动态调整组内拓扑的问题,而 Ray Serve LLM 则管理哪些组存在并接收流量。

对于大规模部署 DeepSeek 风格模型的组织来说,实际好处很直接:GPU 故障成为局部事件而不是系统范围的中断。代码示例和重现步骤可在 Anyscale 的 GitHub 存储库中获取。

图片来源:Shutterstock

ray
vllm
ai 基础设施
机器学习
分布式计算

市场机遇

Raydium 图标

Raydium实时价格 (RAY)

$0.6149

$0.6149$0.6149

-0.53%

USD

Raydium (RAY) 实时价格图表

仅需一分钟，20 USDT 免费拿！

仅需一分钟，20 USDT 免费拿！

仅需一分钟，20 USDT 免费拿！

充值 $100，多拿 $300 GOLD 仓位！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢

Ripple CEO 反击 Avalanche 创办人：很高兴知道我们在你脑海中免费占据一席之地

Ripple CEO 反击 Avalanche 创办人：很高兴知道我们在你脑海中免费占据一席之地

主要区块链生态系统之间的竞争持续加剧，各项目争相争取机构相关性和叙事主导地位，在快速成熟的数字

Timestabloid2026/04/03 03:05

对话 Pantera 创始人：比特币已达逃逸速度，传统资产正被抛在身后

对话 Pantera 创始人：比特币已达逃逸速度，传统资产正被抛在身后

原文作者：The Master Investor Podcast with Wilfred Frost 原文编译：白话区块链在本次访谈中，Wilfred Frost 与 Pa…

BlockWeek2026/04/03 03:32

Sakana AI推出“Marlin”，一款專為高階主管打造的自主研究助手

Sakana AI推出“Marlin”，一款專為高階主管打造的自主研究助手

AI 新創公司 Sakana AI 宣布，其首款商業產品 Sakana Marlin 已啟動封閉測試，這標誌著該公司從先前面向消費者的 Sakana Chat 服務向商業領域邁出了…

BlockWeek2026/04/03 04:42

现在充值，15 USDT 秒到账！

现在充值，15 USDT 秒到账！

现在充值，15 USDT 秒到账！

转动转盘，再赢 $200,000！黄金、原油、BTC，大奖转不停！

热门新闻

Offchain Labs、Circle、21Shares 和 S&P Global 領銜 2026 年坎城黑客馬拉松，共同探討機構數位金融的未來。

下跌不可怕——专家在四月抢购的5只股票

据报彭·邦迪在特朗普黄金时段讲话前得知自己被解雇

Google以Gemma 4重返开源AI竞赛

名誉扫地的喜剧演员承认性行为不当后重返主流

实时快讯

Ripple Treasury 去年处理了 13 万亿美元的支付，凸显了其在全球交易中所具备的巨大基础设施规模。

作者：Ripple Bull Winkle | Crypto Researcher 🚀🚨06:02

特朗普的策略预示着市场波动。对加密货币、股票和房地产的潜在影响，可能会带来抄底机会。

作者：Bitcoin Abi06:01

SWIFT 宣布有五十多家银行加入其新的跨境支付框架，使瑞波（Ripple）获得 BBB 评级的消息相形失色。

作者：Ripple Bull Winkle | Crypto Researcher 🚀🚨05:40

Circle 宣布推出 cirBTC，这是一种为机构提供的 1:1 比特币储备支持代币，将在以太坊和 Arc Layer 1 上线。

作者：Crypto Miners05:32

SIGN 正在从“验证”转向“影响力”，重新定义数字主权，并影响人们对系统有效性的认知。

作者：Carolina05:09

快速阅读

BNB (BNB) 短期价格预测

BNB (BNB) 价格预测：市场预测与分析

BNB (BNB) 看涨价格预测

BNB (BNB) 7天价格变动

BNB (BNB) 最新价格：最新市场动态

加密货币价格

比特币图标

比特币

BTC

$66,908.36$66,908.36

+0.08%

以太坊图标

以太坊

ETH

$2,058.97$2,058.97

-0.03%

Solana 图标

Solana

SOL

-0.21%

Stakestone 图标

Stakestone

STO

$0.23853$0.23853

-37.78%

瑞波币图标

瑞波币

XRP

+1.13%

交易GOLD(XAUT)USDT，瓜分100万USDT

交易GOLD(XAUT)USDT，瓜分100万USDT

交易GOLD(XAUT)USDT，瓜分100万USDT

0费率，最高支持1000倍杠杆，低保证金率，高流动性