A limpeza tradicional de discos melhora a integridade dos dados, mas esgota o desempenho e a energia. Este artigo apresenta um método de limpeza seletivo e inteligente, impulsionado por IA de previsão conformal Mondrian, atribuindo pontuações de saúde a unidades individuais para determinar quais discos limpar e quando fazê-lo. Ao alinhar ciclos de manutenção com períodos de inatividade e usar modelos preditivos para detetar problemas latentes ou de "falha lenta", a abordagem melhora a fiabilidade enquanto minimiza o desperdício de recursos—oferecendo um caminho baseado em dados para centros de dados mais inteligentes e ecológicos.A limpeza tradicional de discos melhora a integridade dos dados, mas esgota o desempenho e a energia. Este artigo apresenta um método de limpeza seletivo e inteligente, impulsionado por IA de previsão conformal Mondrian, atribuindo pontuações de saúde a unidades individuais para determinar quais discos limpar e quando fazê-lo. Ao alinhar ciclos de manutenção com períodos de inatividade e usar modelos preditivos para detetar problemas latentes ou de "falha lenta", a abordagem melhora a fiabilidade enquanto minimiza o desperdício de recursos—oferecendo um caminho baseado em dados para centros de dados mais inteligentes e ecológicos.

Previsão Conformal de Mondrian para Pontuação de Saúde de Disco e Otimização de Scrubbing

2025/10/07 02:09

Abstrato e 1. Introdução

  1. Motivação e objetivos de design

  2. Trabalhos Relacionados

  3. Previsão conformal

    4.1. Previsão conformal de Mondrian (MCP)

    4.2. Métricas de avaliação

  4. Previsão conformal de Mondrian para Limpeza de Disco: nossa abordagem

    5.1. Estatísticas do Sistema e Armazenamento

    5.2. Qual disco limpar: Preditor de saúde da unidade

    5.3. Quando limpar: Preditor de carga de trabalho

  5. Configuração experimental e 6.1. Conjunto de dados de código aberto do Baidu

    6.2. Resultados experimentais

  6. Discussão

    7.1. Aspecto de agendamento ótimo

    7.2. Métricas de desempenho e 7.3. Economia de energia da limpeza seletiva

  7. Conclusão e Referências

2. Motivação e objetivos de design

Nos centros de dados, um número significativo de unidades não saudáveis não é detectado devido a atributos de falha latentes, resultando em cenários de falha-parada. Uma abordagem comum para mitigar tais cenários é a limpeza de disco, que consiste em verificar os dados do disco através de um processo de digitalização em segundo plano para identificar setores defeituosos. No entanto, este processo pode consumir energia e causar degradação de desempenho dependendo do cronograma de acionamento. Este cenário levanta preocupações na indústria, especialmente à medida que as capacidades dos discos aumentam. Notamos uma ligação ausente ao abordar 'qual disco limpar', 'quando limpar', com base na frequência do ciclo de limpeza, minimizando o impacto no desempenho da matriz de armazenamento e também maximizando a confiabilidade. Neste artigo, consideramos os seguintes objetivos e abordagens de design para enfrentar este desafio:

\ • Qual disco limpar? Dependendo do processo específico de limpeza, pode degradar temporariamente o desempenho da unidade. Para garantir que a unidade permaneça rápida e responsiva, minimizar a frequência de limpeza é crucial. Em vez de realizar a limpeza para todos os discos na matriz de armazenamento, nossa abordagem concentra-se em limpar seletivamente apenas os discos que necessitam, reduzindo assim o tempo total necessário para completar o processo.

\ • Quando limpar? Podemos otimizar o cronograma de limpeza da unidade de disco considerando fatores como a carga de trabalho do sistema, a importância dos dados na unidade e a disponibilidade de recursos. Esta abordagem garante que a limpeza seja realizada nos momentos mais apropriados, minimizando o impacto no desempenho geral do sistema.

\

3. Trabalhos Relacionados

A confiabilidade do dispositivo de armazenamento tem sido uma preocupação crítica na indústria há muito tempo, e as soluções existentes frequentemente dependem da análise de falhas dos sistemas de armazenamento. No entanto, métodos tradicionais como testes de vida acelerada (Cho et al., 2015) não se provaram indicadores confiáveis das taxas reais de falha em ambientes de produção. Abordagens recentes baseadas em aprendizado de máquina, como séries temporais multivariadas (Yu, 2019) e classificação de séries temporais (Ircio et al., 2022), têm se concentrado em melhorar a precisão do modelo, mas frequentemente carecem de integração profunda do conhecimento do domínio. Além disso, a abordagem multimodal de (Lu et al., 2020) usando métricas de desempenho (nível de disco e nível de servidor) e localização espacial do disco concentra-se apenas em cenários de falha-parada, o que pode não ser útil na detecção de falhas latentes. Um estudo mais recente (Lu et al., 2023) abordou esta questão investigando falhas cinzentas (unidades de falha lenta) usando um modelo de regressão para identificar e analisar falhas de lentidão na granularidade de unidades individuais.

\ Outro fator importante da limpeza de disco é o custo de implementação e o consumo de energia. (Mi et al., 2008) e (Jiang et al., 2019) abordam a degradação de desempenho devido à limpeza e propõem atribuir uma prioridade mais baixa ao processo em segundo plano durante o tempo ocioso, ou seja, quando a unidade de disco não está ativamente envolvida no processamento de dados ou realizando quaisquer outras tarefas. (Liu et al., 2010) e (Oprea e Juels, 2010) propõem um método para mitigar o consumo de energia e determinar quando limpar em sistemas com dados baratos, mas requerem o design de outro método para identificar dados menos críticos. O gerenciamento de espaço da unidade no caso de substituição do disco com falha é discutido em (Pˆaris et al., 2010), juntamente com a redução da necessidade de limpeza frequente. Uma limpeza multinível é proposta em (Zhang et al., 2020) usando um modelo de Memória de Longo Prazo Curta (LSTM) para detectar erros de setor latentes em uma configuração de classificação binária. No entanto, o uso de modelos baseados em aprendizado de máquina pode tratar discos saudáveis e relativamente menos saudáveis da mesma forma, levando à limpeza desnecessária de discos saudáveis.

\ Até onde sabemos, nosso trabalho é o primeiro a adotar a previsão conformal de Mondrian para atribuir uma pontuação de saúde a cada unidade de disco individual e usar as métricas para projetar um ciclo de limpeza alinhado com o tempo ocioso do sistema.

\

:::info Este artigo está disponível no arxiv sob a licença CC BY-NC-ND 4.0 Deed (Atribuição-NãoComercial-SemDerivações 4.0 Internacional).

:::


:::info Autores:

(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (rahuldeo.vishwakarma01@student.csullb.edu);

(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (jinha.hwang01@student.csulb.edu);

(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Universit´e de Technologie de Compiegne, 57 avenue de Landshut, 60203 Compiegne Cedex - França (soundouss.messoudi@hds.utc.fr);

(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (ava.hedayatipour@csulb.edu).

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.