Abstrato e 1. Introdução
Motivação e objetivos de design
Trabalhos Relacionados
Previsão conformal
4.1. Previsão conformal de Mondrian (MCP)
4.2. Métricas de avaliação
Previsão conformal de Mondrian para Limpeza de Disco: nossa abordagem
5.1. Estatísticas do Sistema e Armazenamento
5.2. Qual disco limpar: Preditor de saúde da unidade
5.3. Quando limpar: Preditor de carga de trabalho
Configuração experimental e 6.1. Conjunto de dados de código aberto do Baidu
6.2. Resultados experimentais
Discussão
7.1. Aspecto de agendamento ótimo
7.2. Métricas de desempenho e 7.3. Economia de energia da limpeza seletiva
Conclusão e Referências
Nos centros de dados, um número significativo de unidades não saudáveis não é detectado devido a atributos de falha latentes, resultando em cenários de falha-parada. Uma abordagem comum para mitigar tais cenários é a limpeza de disco, que consiste em verificar os dados do disco através de um processo de digitalização em segundo plano para identificar setores defeituosos. No entanto, este processo pode consumir energia e causar degradação de desempenho dependendo do cronograma de acionamento. Este cenário levanta preocupações na indústria, especialmente à medida que as capacidades dos discos aumentam. Notamos uma ligação ausente ao abordar 'qual disco limpar', 'quando limpar', com base na frequência do ciclo de limpeza, minimizando o impacto no desempenho da matriz de armazenamento e também maximizando a confiabilidade. Neste artigo, consideramos os seguintes objetivos e abordagens de design para enfrentar este desafio:
\ • Qual disco limpar? Dependendo do processo específico de limpeza, pode degradar temporariamente o desempenho da unidade. Para garantir que a unidade permaneça rápida e responsiva, minimizar a frequência de limpeza é crucial. Em vez de realizar a limpeza para todos os discos na matriz de armazenamento, nossa abordagem concentra-se em limpar seletivamente apenas os discos que necessitam, reduzindo assim o tempo total necessário para completar o processo.
\ • Quando limpar? Podemos otimizar o cronograma de limpeza da unidade de disco considerando fatores como a carga de trabalho do sistema, a importância dos dados na unidade e a disponibilidade de recursos. Esta abordagem garante que a limpeza seja realizada nos momentos mais apropriados, minimizando o impacto no desempenho geral do sistema.
\
A confiabilidade do dispositivo de armazenamento tem sido uma preocupação crítica na indústria há muito tempo, e as soluções existentes frequentemente dependem da análise de falhas dos sistemas de armazenamento. No entanto, métodos tradicionais como testes de vida acelerada (Cho et al., 2015) não se provaram indicadores confiáveis das taxas reais de falha em ambientes de produção. Abordagens recentes baseadas em aprendizado de máquina, como séries temporais multivariadas (Yu, 2019) e classificação de séries temporais (Ircio et al., 2022), têm se concentrado em melhorar a precisão do modelo, mas frequentemente carecem de integração profunda do conhecimento do domínio. Além disso, a abordagem multimodal de (Lu et al., 2020) usando métricas de desempenho (nível de disco e nível de servidor) e localização espacial do disco concentra-se apenas em cenários de falha-parada, o que pode não ser útil na detecção de falhas latentes. Um estudo mais recente (Lu et al., 2023) abordou esta questão investigando falhas cinzentas (unidades de falha lenta) usando um modelo de regressão para identificar e analisar falhas de lentidão na granularidade de unidades individuais.
\ Outro fator importante da limpeza de disco é o custo de implementação e o consumo de energia. (Mi et al., 2008) e (Jiang et al., 2019) abordam a degradação de desempenho devido à limpeza e propõem atribuir uma prioridade mais baixa ao processo em segundo plano durante o tempo ocioso, ou seja, quando a unidade de disco não está ativamente envolvida no processamento de dados ou realizando quaisquer outras tarefas. (Liu et al., 2010) e (Oprea e Juels, 2010) propõem um método para mitigar o consumo de energia e determinar quando limpar em sistemas com dados baratos, mas requerem o design de outro método para identificar dados menos críticos. O gerenciamento de espaço da unidade no caso de substituição do disco com falha é discutido em (Pˆaris et al., 2010), juntamente com a redução da necessidade de limpeza frequente. Uma limpeza multinível é proposta em (Zhang et al., 2020) usando um modelo de Memória de Longo Prazo Curta (LSTM) para detectar erros de setor latentes em uma configuração de classificação binária. No entanto, o uso de modelos baseados em aprendizado de máquina pode tratar discos saudáveis e relativamente menos saudáveis da mesma forma, levando à limpeza desnecessária de discos saudáveis.
\ Até onde sabemos, nosso trabalho é o primeiro a adotar a previsão conformal de Mondrian para atribuir uma pontuação de saúde a cada unidade de disco individual e usar as métricas para projetar um ciclo de limpeza alinhado com o tempo ocioso do sistema.
\
:::info Este artigo está disponível no arxiv sob a licença CC BY-NC-ND 4.0 Deed (Atribuição-NãoComercial-SemDerivações 4.0 Internacional).
:::
:::info Autores:
(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (rahuldeo.vishwakarma01@student.csullb.edu);
(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (jinha.hwang01@student.csulb.edu);
(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Universit´e de Technologie de Compiegne, 57 avenue de Landshut, 60203 Compiegne Cedex - França (soundouss.messoudi@hds.utc.fr);
(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (ava.hedayatipour@csulb.edu).
:::
\
