摘要和1. 引言
动机和设计目标
相关工作
一致性预测
4.1. 蒙德里安一致性预测(MCP)
4.2. 评估指标
磁盘清理的蒙德里安一致性预测:我们的方法
5.1. 系统和存储统计
5.2. 清理哪个磁盘:驱动器健康预测器
5.3. 何时清理:工作负载预测器
实验设置和6.1. 开源百度数据集
6.2. 实验结果
讨论
7.1. 最优调度方面
7.2. 性能指标和7.3. 选择性清理的节能
结论和参考文献
在数据中心,由于潜在故障属性,大量不健康的驱动器未被检测到,导致故障停止场景。减轻此类场景的一种常见方法是磁盘清理,它通过后台扫描过程验证磁盘数据以识别坏扇区。然而,这个过程可能会消耗能源并导致性能下降,这取决于触发计划。随着磁盘容量的增加,这种情况在行业中引起了关注。我们注意到在解决"清理哪个磁盘"、"何时清理"方面存在缺失环节,这些问题基于清理周期的频率,同时最小化存储阵列性能影响并最大化可靠性。在本文中,我们考虑以下目标和设计方法来应对这一挑战:
\ • 清理哪个磁盘? 根据特定的清理过程,它可能会暂时降低驱动器的性能。为确保驱动器保持快速响应,最小化清理频率至关重要。我们的方法不是对存储阵列中的所有磁盘进行清理,而是专注于有选择地只清理需要清理的磁盘,从而减少完成该过程所需的总时间。
\ • 何时清理? 我们可以通过考虑系统工作负载、驱动器上数据的重要性以及资源可用性等因素来优化磁盘驱动器清理计划。这种方法确保在最适当的时间进行清理,最小化对整体系统性能的影响。
\
存储设备可靠性长期以来一直是行业中的关键问题,现有解决方案通常依赖于存储系统的故障分析。然而,传统方法如加速寿命测试(Cho等,2015)并未被证明是生产环境中实际故障率的可靠指标。最近基于机器学习的方法,如多变量时间序列(Yu,2019)和时间序列分类(Ircio等,2022),专注于提高模型准确性,但往往缺乏领域知识的深度整合。此外,(Lu等,2020)使用性能指标(磁盘级和服务器级)和磁盘空间位置的多模态方法仅关注故障停止场景,这可能对检测潜在故障没有帮助。最近的一项研究(Lu等,2023)通过使用回归模型调查灰色故障(慢速故障驱动器)来解决这个问题,以精确定位和分析单个驱动器级别的慢速故障。
\ 磁盘清理的另一个重要因素是实施成本和功耗。(Mi等,2008)和(Jiang等,2019)解决了由于清理导致的性能下降问题,并建议在空闲时间,即当磁盘驱动器不积极参与处理数据或执行任何其他任务时,为后台进程分配较低的优先级。(Liu等,2010)和(Oprea和Juels,2010)提出了一种方法来减轻功耗并确定何时在具有廉价数据的系统中进行清理,但需要设计另一种方法来识别不太关键的数据。(Pˆaris等,2010)讨论了在更换故障磁盘情况下的驱动器空间管理,以及减少频繁清理的需求。(Zhang等,2020)提出了一种多级清理方法,使用长短期记忆(LSTM)模型在二元分类设置中检测潜在扇区错误。然而,使用基于机器学习的模型可能会同等对待健康和相对不太健康的磁盘,导致对健康磁盘进行不必要的清理。
\ 据我们所知,我们的工作是首次采用蒙德里安一致性预测为每个单独的磁盘驱动器分配健康分数,并使用这些指标设计与系统空闲时间相一致的清理周期。
\
:::info 本论文可在arxiv上获取,遵循CC BY-NC-ND 4.0 Deed (署名-非商业性使用-禁止演绎 4.0 国际)许可证。
:::
:::info 作者:
(1) Rahul Vishwakarma,加州州立大学长滩分校,1250 Bellflower Blvd,长滩,CA 90840,美国 (rahuldeo.vishwakarma01@student.csullb.edu);
(2) Jinha Hwang,加州州立大学长滩分校,1250 Bellflower Blvd,长滩,CA 90840,美国 (jinha.hwang01@student.csulb.edu);
(3) Soundouss Messoudi,HEUDIASYC - UMR CNRS 7253,贡比涅技术大学,57 avenue de Landshut,60203 Compiegne Cedex - 法国 (soundouss.messoudi@hds.utc.fr);
(4) Ava Hedayatipour,加州州立大学长滩分校,1250 Bellflower Blvd,长滩,CA 90840,美国 (ava.hedayatipour@csulb.edu)。
:::
\