Резюме и 1. Введение
Мотивация и цели проектирования
Связанные работы
Конформное прогнозирование
4.1. Мондриановское конформное прогнозирование (MCP)
4.2. Метрики оценки
Мондриановское конформное прогнозирование для очистки диска: наш подход
5.1. Статистика системы и хранилища
5.2. Какой диск очищать: Предиктор состояния диска
5.3. Когда очищать: Предиктор рабочей нагрузки
Экспериментальная настройка и 6.1. Открытый набор данных Baidu
6.2. Экспериментальные результаты
Обсуждение
7.1. Аспект оптимального планирования
7.2. Метрики производительности и 7.3. Экономия энергии от выборочной очистки
Заключение и Ссылки
В центрах обработки данных значительное количество неисправных дисков остается невыявленным из-за скрытых атрибутов отказа, что приводит к сценариям полной остановки. Один из распространенных подходов к смягчению таких сценариев - очистка диска, которая заключается в проверке данных диска посредством фонового сканирования для выявления плохих секторов. Однако этот процесс может потреблять энергию и вызывать снижение производительности в зависимости от расписания запуска. Этот сценарий вызывает озабоченность в отрасли, особенно с увеличением емкости дисков. Мы замечаем отсутствие связи в решении вопросов "какой диск очищать", "когда очищать", основываясь на частоте цикла очистки при минимизации влияния на производительность массива хранения и максимизации надежности. В этой статье мы рассматриваем следующие цели и подходы к проектированию для решения этой задачи:
\ • Какой диск очищать? В зависимости от конкретного процесса очистки, он может временно снизить производительность диска. Чтобы обеспечить быструю и отзывчивую работу диска, крайне важно минимизировать частоту очистки. Вместо выполнения очистки для всех дисков в массиве хранения, наш подход фокусируется на выборочной очистке только тех дисков, которые в этом нуждаются, тем самым сокращая общее время, необходимое для завершения процесса.
\ • Когда очищать? Мы можем оптимизировать расписание очистки дисков, учитывая такие факторы, как рабочая нагрузка системы, важность данных на диске и доступность ресурсов. Этот подход гарантирует, что очистка выполняется в наиболее подходящее время, минимизируя влияние на общую производительность системы.
\
Надежность устройств хранения давно является критической проблемой в отрасли, и существующие решения часто опираются на анализ отказов систем хранения. Однако традиционные методы, такие как ускоренные испытания на долговечность (Cho et al., 2015), не доказали свою надежность как индикаторы фактических показателей отказов в производственных средах. Недавние подходы на основе машинного обучения, такие как многомерные временные ряды (Yu, 2019) и классификация временных рядов (Ircio et al., 2022), были сосредоточены на повышении точности модели, но часто не имеют глубокой интеграции доменных знаний. Более того, мультимодальный подход (Lu et al., 2020), использующий метрики производительности (на уровне диска и сервера) и пространственное расположение диска, фокусируется только на сценариях полной остановки, что может быть не полезно для обнаружения скрытых отказов. Самое недавнее исследование (Lu et al., 2023) решило эту проблему, исследуя серые отказы (медленно отказывающие диски) с использованием регрессионной модели для точного определения и анализа медленных отказов на уровне отдельных дисков.
\ Другим важным фактором очистки диска является стоимость реализации и энергопотребление. (Mi et al., 2008) и (Jiang et al., 2019) решают проблему снижения производительности из-за очистки и предлагают назначать более низкий приоритет фоновому процессу во время простоя, т.е. когда диск не активно занят обработкой данных или выполнением других задач. (Liu et al., 2010) и (Oprea and Juels, 2010) предлагают метод для снижения энергопотребления и определения времени очистки в системах с недорогими данными, но требуют разработки другого метода для идентификации менее критичных данных. Управление пространством диска в случае замены отказавшего диска обсуждается в (Pˆaris et al., 2010), наряду с сокращением необходимости частой очистки. Многоуровневая очистка предложена в (Zhang et al., 2020) с использованием модели Long Short-Term Memory (LSTM) для обнаружения скрытых ошибок сектора в настройке бинарной классификации. Однако использование моделей на основе машинного обучения может одинаково обрабатывать здоровые и относительно менее здоровые диски, что приводит к ненужной очистке здоровых дисков.
\ Насколько нам известно, наша работа является первой, которая применяет Мондриановское конформное прогнозирование для присвоения оценки здоровья каждому отдельному диску и использования метрик для разработки цикла очистки, согласованного с временем простоя системы.
\
:::info Эта статья доступна на arxiv под лицензией CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International).
:::
:::info Авторы:
(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States (rahuldeo.vishwakarma01@student.csullb.edu);
(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States (jinha.hwang01@student.csulb.edu);
(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Universit´e de Technologie de Compiegne, 57 avenue de Landshut, 60203 Compiegne Cedex - France (soundouss.messoudi@hds.utc.fr);
(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States (ava.hedayatipour@csulb.edu).
:::
\


