Anyscale 的 Ray Serve LLM 更新為 vLLM WideEP 部署啟用了 DP 群組容錯功能,降低了分散式 AI 推理系統的停機風險。(閱讀Anyscale 的 Ray Serve LLM 更新為 vLLM WideEP 部署啟用了 DP 群組容錯功能,降低了分散式 AI 推理系統的停機風險。(閱讀

Ray 2.55 為大規模 AI 模型部署新增容錯功能

2026/04/03 02:35
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Ray 2.55 為大規模 AI 模型部署新增容錯功能

Joerg Hiller 2026年4月2日 18:35

Anyscale 的 Ray Serve LLM 更新為 vLLM WideEP 部署啟用了 DP 群組容錯功能,降低了分散式 AI 推理系統的停機風險。

Ray 2.55 為大規模 AI 模型部署新增容錯功能

Anyscale 發布了其 Ray Serve LLM 框架的重大更新,解決了執行大規模 AI 推理工作負載的組織所面臨的關鍵營運挑戰。Ray 2.55 為 vLLM Wide Expert Parallelism 部署引入了資料平行(DP)群組容錯功能——這項功能可防止單一 GPU 故障導致整個模型服務叢集停擺。

此更新針對專家混合(MoE)模型服務中的特定痛點。與每個副本獨立運作的傳統模型部署不同,像 DeepSeek-V3 這樣的 MoE 架構會將專家層分片到必須協同工作的 GPU 群組中。當這些配置中的一個 GPU 故障時,整個群組——可能跨越 16 到 128 個 GPU——就會無法運作。

技術問題

MoE 模型將專門的「專家」神經網路分散到多個 GPU 上。例如,DeepSeek-V3 每層包含 256 個專家,但每個標記只啟動 8 個。標記會透過調度和合併操作路由到持有所需專家的 GPU,這些操作需要所有參與的節點保持健康狀態。

以前,單一節點故障會破壞這些集體操作。查詢會繼續路由到受影響群組中倖存的副本,但每個請求都會失敗。恢復需要重啟整個系統。

Ray 如何解決問題

Ray Serve LLM 現在透過群組排程將每個 DP 群組視為原子單元。當一個節點故障時,系統會將整個群組標記為不健康,停止將流量路由到該群組,拆除故障群組,並將其作為一個單元重建。其他健康群組在整個過程中繼續處理請求。

此功能在 Ray 2.55 中預設啟用。現有的 DP 部署不需要更改程式碼——框架會自動處理群組級別的健康檢查、排程和恢復。

自動擴展也遵守這些界限。擴展和縮減操作以群組大小為增量進行,而不是以個別副本為單位,從而防止建立無法處理流量的部分群組。

營運影響

此更新帶來了一個重要的設計考量:群組寬度與群組數量的對比。根據 Anyscale 引用的 vLLM 基準測試,在專家平行大小為 32、72 和 96 時,每個 GPU 的吞吐量保持相對穩定。這意味著營運人員可以在不犧牲效率的情況下調整為更小的群組——而更小的群組意味著故障發生時影響範圍更小。

Anyscale 指出,這種編排層級的彈性補充了 vLLM 社群中正在進行的引擎層級彈性工作。vLLM Elastic Expert Parallelism RFC 解決了執行時如何動態調整群組內拓撲的問題,而 Ray Serve LLM 則管理哪些群組存在並接收流量。

對於大規模部署 DeepSeek 風格模型的組織來說,實際好處很明確:GPU 故障成為局部事件,而非全系統性的停機。程式碼範例和重現步驟可在 Anyscale 的 GitHub 儲存庫中取得。

圖片來源:Shutterstock
  • Ray
  • vLLM
  • AI 基礎設施
  • 機器學習
  • 分散式運算
市場機遇
Raydium 圖標
Raydium實時價格 (RAY)
$0.6045
$0.6045$0.6045
+0.01%
USD
Raydium (RAY) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!