摘要和 1. 引言
動機和設計目標
相關工作
一致性預測
4.1. Mondrian 一致性預測 (MCP)
4.2. 評估指標
磁碟清理的 Mondrian 一致性預測:我們的方法
5.1. 系統和儲存統計資料
5.2. 清理哪個磁碟:磁碟健康預測器
5.3. 何時清理:工作負載預測器
實驗設置和 6.1. 開源百度數據集
6.2. 實驗結果
討論
7.1. 最佳排程方面
7.2. 性能指標和 7.3. 選擇性清理的節能效果
結論和參考文獻
在數據中心,由於潛在故障屬性,大量不健康的磁碟未被檢測到,導致故障停止情況。減輕此類情況的常見方法是磁碟清理,它通過背景掃描過程驗證磁碟數據以識別壞扇區。然而,這個過程可能會消耗能源並根據觸發排程導致性能下降。隨著磁碟容量增加,這種情況在業界引起了關注。我們注意到在解決「清理哪個磁碟」、「何時清理」方面存在缺失環節,這些問題基於清理週期頻率,同時需要將儲存陣列性能影響降低到最小並將可靠性提高到最大。在本文中,我們考慮以下目標和設計方法來應對這一挑戰:
\ • 清理哪個磁碟? 根據特定的清理過程,它可能會暫時降低磁碟的性能。為確保磁碟保持快速和響應靈敏,將清理頻率降低到最小至關重要。我們的方法不是對儲存陣列中的所有磁碟進行清理,而是專注於選擇性地只清理需要清理的磁碟,從而減少完成該過程所需的總時間。
\ • 何時清理? 我們可以通過考慮系統工作負載、磁碟上數據的重要性以及資源可用性等因素來優化磁碟清理排程。這種方法確保在最適當的時間進行清理,將對整體系統性能的影響降低到最小。
\
儲存設備可靠性長期以來一直是業界關注的重要問題,現有解決方案通常依賴於儲存系統的故障分析。然而,傳統方法如加速壽命測試(Cho 等人,2015)並未被證明是生產環境中實際故障率的可靠指標。最近基於機器學習的方法,如多變量時間序列(Yu,2019)和時間序列分類(Ircio 等人,2022),專注於提高模型準確性,但往往缺乏領域知識的深度整合。此外,(Lu 等人,2020)使用性能指標(磁碟級和伺服器級)和磁碟空間位置的多模態方法僅關注故障停止情況,這可能無助於檢測潛在故障。最近的一項研究(Lu 等人,2023)通過使用回歸模型調查灰色故障(慢速故障磁碟)來解決這個問題,以精確定位和分析個別磁碟的慢速故障。
\ 磁碟清理的另一個重要因素是實施成本和功耗。(Mi 等人,2008)和(Jiang 等人,2019)解決了由於清理導致的性能下降問題,並提議在閒置時間(即磁碟不積極處理數據或執行任何其他任務時)為背景進程分配較低優先級。(Liu 等人,2010)和(Oprea 和 Juels,2010)提出了一種方法來減輕功耗並確定何時在具有廉價數據的系統中進行清理,但需要設計另一種方法來識別不太重要的數據。(Pˆaris 等人,2010)討論了在更換故障磁碟的情況下的磁碟空間管理,以及減少頻繁清理的需求。(Zhang 等人,2020)提出了使用長短期記憶(LSTM)模型在二元分類設置中檢測潛在扇區錯誤的多級清理。然而,使用基於機器學習的模型可能會將健康和相對不太健康的磁碟視為相同,導致不必要地清理健康磁碟。
\ 據我們所知,我們的工作是首次採用 Mondrian 一致性預測為每個磁碟分配健康分數,並使用這些指標設計與系統閒置時間一致的清理週期。
\
:::info 本論文可在 arxiv 上獲取,根據 CC BY-NC-ND 4.0 Deed(署名-非商業性-禁止演繹 4.0 國際)許可證。
:::
:::info 作者:
(1) Rahul Vishwakarma,加州州立大學長灘分校,1250 Bellflower Blvd,長灘,CA 90840,美國 (rahuldeo.vishwakarma01@student.csullb.edu);
(2) Jinha Hwang,加州州立大學長灘分校,1250 Bellflower Blvd,長灘,CA 90840,美國 (jinha.hwang01@student.csulb.edu);
(3) Soundouss Messoudi,HEUDIASYC - UMR CNRS 7253,康皮涅科技大學,57 avenue de Landshut,60203 Compiegne Cedex - 法國 (soundouss.messoudi@hds.utc.fr);
(4) Ava Hedayatipour,加州州立大學長灘分校,1250 Bellflower Blvd,長灘,CA 90840,美國 (ava.hedayatipour@csulb.edu)。
:::
\


