Monitorar a integridade do disco


Para verificar a integridade de um Persistent Disk ou de um volume do Google Cloud Hyperdisk, analise a métrica de status de desempenho do disco. Essa métrica indica se o desempenho do disco pode ser afetado por eventos adversos no Compute Engine.

Um problema que afeta o status de desempenho do disco também pode aparecer no painel do Personal Service Health (PSH) do projeto ou no painel do Google Cloud Service Health.

Este documento aborda o status de desempenho do disco e como usá-lo para resolver problemas de desempenho.

Quando verificar a integridade de um disco

Se você notar um problema de desempenho com um disco, verifique a integridade dele analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conferir as etapas de verificação da integridade do disco, consulte Ver o status de desempenho do disco.

A tabela a seguir resume os valores possíveis do status de desempenho do disco.

Status Significado
Healthy O desempenho do disco está dentro do esperado.
Degraded Talvez você observe temporariamente uma latência de E/S maior do que o esperado.
Severely degraded Ocorrem alta latência de E/S ou outros erros.

Se o status de performance não for Healthy, consulte Entenda cada status para saber as próximas etapas.

Se o status de performance for Healthy, o disco estará funcionando normalmente e você precisará verificar outras causas para o problema de performance. Verifique se há erros no aplicativo ou no sistema operacional e se o disco está otimizado corretamente. Para diretrizes de otimização, consulte Otimizar o Hyperdisk e Otimizar o Persistent Disk.

Como a integridade do disco se relaciona a outras métricas de desempenho

A integridade do disco, conforme indicado pela métrica de status de performance, mostra o status interno do disco na perspectiva do Google. Se o status de um disco for Degraded ou Severely Degraded, a causa raiz sempre estará na infraestrutura do Compute Engine.

Em geral, não é possível mudar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma mudança na carga de trabalho pode acionar um problema interno. Por isso, é possível atenuar um problema modificando a carga de trabalho.

Para saber mais sobre as outras métricas de desempenho de disco disponíveis, consulte Analisar métricas de desempenho de disco.

Cenários que não afetam o status de desempenho do disco

O status de desempenho do disco não está relacionado a problemas de desempenho causados pelos seguintes fatores:

  • Otimização incompleta ou insuficiente do disco
  • Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da sua carga de trabalho)
  • Aumento da carga no disco devido ao tráfego da carga de trabalho
  • Erro de usuário, aplicativo ou sistema operacional
  • Discos cheios ou corrompidos
  • Para volumes do Hyperdisk e do Extreme Persistent Disk, IOPS ou capacidade de processamento provisionadas de forma insuficiente.

Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, escalonando a carga de trabalho, mudando o tipo de máquina e provisionando mais capacidade, IOPS ou capacidade de processamento.

Ver a integridade de um disco no Cloud Monitoring

Para conferir a integridade de um disco, crie um gráfico no Metrics Explorer.

Papéis e permissões necessárias

Para ter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Criar um gráfico no Metrics Explorer

Para criar um gráfico, crie uma consulta com a interface orientada por menu, a linguagem de consulta do Monitoring (MQL) ou o PromQL.

Para conferir a integridade de um ou mais discos em um gráfico, siga estas instruções.
  1. No console Google Cloud , acesse a página  Metrics Explorer:

    Acesse o Metrics explorer

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Na barra de ferramentas do console Google Cloud , selecione seu projeto Google Cloud . Para configurações do App Hub, selecione o projeto de host do App Hub ou o projeto de gerenciamento da pasta habilitada para apps.
  3. No elemento Metric, expanda o menu Selecionar uma métrica, digite VM Instance na barra de filtro e use os submenus para selecionar um tipo de recurso e métrica específicos:
    1. No menu Recursos ativos, selecione Instância de VM.
    2. No menu Categorias de métrica ativas, selecione Instância.
    3. No menu Métricas ativas, selecione Status de desempenho do disco.
    4. Clique em Aplicar.
    O nome totalmente qualificado dessa métrica é compute.googleapis.com/instance/disk/performance_status.
  4. Configure a visualização dos dados.
    Desative a agregação. Verifique se, no elemento Agregação, o primeiro menu está definido como Não agregado e o segundo como Nenhum.
    Para conferir a integridade de um disco específico, filtre por device_name.

    Para mais informações sobre como configurar um gráfico, consulte Selecionar métricas ao usar o Metrics Explorer.

MQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas MQL.

  2. Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1.

PromQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas em PromQL.

  2. Digite a consulta no Editor de consultas. Por exemplo, para conferir o status de desempenho de um disco específico, insira a seguinte consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1.

Se você visualizar os resultados em um gráfico, haverá três linhas para cada disco, uma para cada status possível. Da mesma forma, se você visualizar o resultado da consulta em uma tabela, ela terá três linhas para cada disco.

Se você criou a consulta com PromQL ou MQL, cada linha ou linha terá um valor de 1 ou 0. Para consultas criadas com os menus, os valores de serão 100% ou 0.

A integridade atual do disco é representada pela linha ou linha cujo valor é 100% ou 1.

Por exemplo, a captura de tela a seguir mostra o gráfico de um disco chamado a-test-VM, cujo status é Healthy:

Captura de tela mostrando o gráfico em que o status do disco é "Íntegro"

Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir será um exemplo dos resultados de um disco Healthy:

performance_status valor
Healthy 1
Degraded 0
Severely Degraded 0

A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509 com status Degradado: Captura de tela mostrando o gráfico em que o status do disco é "Degradado"

Para saber o que cada status de performance significa, consulte Entenda cada status. Depois de criar o gráfico, você pode salvá-lo em um painel para uso futuro.

Resultados fracionários

Se a consulta incluir resultados fracionários, como na tabela a seguir, isso geralmente acontece porque o período de exibição selecionado foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo. Um valor de 77% para o status Healthy significa que o status do disco foi Healthy 77% do período de exibição selecionado.

performance_status valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para uma visão mais granular da integridade de um disco, use um período de exibição de algumas horas ou alguns minutos.

Entender cada status

Esta seção discute o que cada status significa e quando você precisa tomar outras medidas.

Healthy

O status Healthy indica que, da perspectiva do Google, o disco está funcionando normalmente.

Se um disco Healthy tiver problemas de desempenho, não entre em contato com o suporte. Em vez disso, resolva o problema do disco usando algumas das sugestões a seguir:

  • Analise as métricas de desempenho do disco, como latência e profundidade da fila.
  • Verifique os registros e as métricas da sua carga de trabalho para identificar anomalias e gargalos.
  • Se você estiver usando um Persistent Disk, verifique se a capacidade provisionada atende às necessidades de desempenho do disco. Se você estiver usando volumes do Hyperdisk ou do Extreme Persistent Disk, verifique se provisionou IOPS e capacidade suficientes.
  • Verifique se você seguiu as diretrizes para otimizar o disco. Para mais informações, consulte Otimizar o Hyperdisk e Otimizar o disco permanente.

Degraded

Normalmente, não é necessário entrar em contato com o suporte se o status do disco for Degraded. Um Degraded status geralmente é causado por uma manutenção interna normal na infraestrutura do Compute Engine.

Talvez você não note nenhum impacto na performance do disco enquanto o status for Degraded. Se o problema de performance e o status Degraded tiverem correlação temporal, o problema de performance ainda poderá não estar relacionado ao status Degraded.

No caso improvável de um problema de desempenho ser causado pelo status Degraded, o impacto geralmente é temporário. O status do disco vai voltar para Healthy em alguns minutos.

Você pode ignorar o status Degraded se não houver problemas de performance com o disco.

O que fazer se houver um problema de desempenho

Se o status de desempenho do disco for Degraded e você estiver observando um problema de desempenho, siga estas etapas:

  1. Verifique o painel do PSH para saber se há um incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte. O Google já está ciente e trabalhando para resolver o problema.
  2. Se não houver problemas conhecidos, aguarde pelo menos 5 minutos para que o problema de desempenho seja resolvido sozinho.
  3. Se, após 5 minutos, o problema de desempenho não for resolvido e o status ainda for Degraded, verifique se o problema não está ocorrendo porque o disco não está otimizado o suficiente. Por exemplo, verifique a latência e a profundidade da fila do disco. É possível que o problema de desempenho e o status Degraded não estejam relacionados e sejam apenas uma coincidência. Para isso, analise as métricas do disco e as diretrizes de otimização de desempenho.

  4. Se os problemas de desempenho continuarem e todas as condições a seguir forem atendidas, entre em contato com o suporte para receber ajuda:

    • O status do disco é Degraded há mais de 5 minutos
    • Você tem certeza de que não é um problema de carga de trabalho porque otimizou o disco e verificou que não há outros problemas, como um gargalo ou um aplicativo sobrecarregado.
    • Não há alertas no painel do PSH

O Google não recomenda criar um alerta diretamente para o status Degraded. Em vez disso, crie alertas para o status do aplicativo de nível superior e use essa métrica para depurar problemas.

Severely Degraded

Um disco com status de desempenho Severely Degraded está com um problema de desempenho. Esse problema pode ser causado por um incidente ou erro e talvez já esteja visível no painel do PSH ou no painel Google Cloud Service Health.

O que fazer

Se o status de desempenho do disco for Severely Degraded, siga estas etapas:

  1. Confira o painel do PSH e o painel de integridade geral Google Cloud para ver se há um incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte. O Google já está ciente e trabalhando para resolver o problema.
  2. Se não houver problemas conhecidos nos dois painéis, entre em contato com o suporte para receber ajuda.

Árvore de decisão

O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações das seções anteriores.

Fluxograma que descreve as etapas para interpretar a métrica de status de desempenho do disco.

Como mostrado no fluxograma, entre em contato com o suporte apenas se não houver alertas conhecidos nos painéis do PSH e do serviço do Cloud e se o status do disco for Severely Degraded. Se o disco for Degraded, entre em contato com o suporte apenas se todas as condições a seguir forem atendidas:

  • O disco está Degraded há mais de 5 minutos
  • Você descartou um erro ou configuração incorreta da carga de trabalho (como problemas de rede)
  • Não é possível fazer outras otimizações no nível do aplicativo, da carga de trabalho ou do disco.
  • Você revisou todas as métricas do disco
  • Você analisou os registros da carga de trabalho e da máquina virtual (VM)

A seguir