Monitore a integridade do disco


Você pode verificar a integridade de um volume de disco permanente ou hiperdisco do Google Cloud analisando a métrica de status de desempenho do disco . Esta métrica indica se o desempenho do disco é potencialmente afetado por eventos adversos no Compute Engine.

Um problema que afeta o status de desempenho do disco também pode estar visível no painel PSH ( Personal Service Health ) do seu projeto ou noGoogle Cloud Painel de integridade do serviço .

Este documento discute o status de desempenho do disco e como usá-lo para solucionar problemas de desempenho.

Quando verificar a integridade de um disco

Se você notar um problema de desempenho em um disco, verifique a integridade do disco analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conhecer as etapas de verificação da integridade do disco, consulte visualizar o status de desempenho do disco .

A tabela a seguir resume os valores possíveis do status de desempenho do disco.

Status Significado
Healthy O desempenho do disco é o esperado.
Degraded Você pode observar temporariamente uma latência de E/S maior do que o esperado.
Severely degraded Alta latência de E/S ou outros erros estão ocorrendo.

Se o status de desempenho não for Healthy , consulte Compreender cada status para as próximas etapas.

Se o status de desempenho for Healthy , o disco está funcionando normalmente e você precisa verificar outras causas para o problema de desempenho. Você deve verificar se há erros de aplicativo ou sistema operacional e certificar-se de que seu disco esteja otimizado corretamente. Para obter diretrizes de otimização, consulte Otimizar hiperdisco e Otimizar disco permanente .

Como a integridade do disco se relaciona com outras métricas de desempenho de disco

A integridade do disco, conforme indicada pela métrica de status de desempenho, mostra o status interno do disco da perspectiva do Google . Se o status de um disco for Degraded ou Severely Degraded , a causa raiz estará sempre na infraestrutura do Compute Engine.

Geralmente não é possível alterar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma alteração na carga de trabalho pode desencadear um problema interno, pelo que poderá ser possível mitigar um problema modificando a carga de trabalho.

Para saber mais sobre outras métricas de desempenho de disco disponíveis, consulte Revisar métricas de desempenho de disco .

Cenários que não afetam o status de desempenho do disco

O status de desempenho do disco não está relacionado a problemas de desempenho causados ​​pelos seguintes fatores:

  • Otimização de disco incompleta ou insuficiente
  • Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da sua carga de trabalho)
  • Aumento da carga no disco devido ao tráfego de carga de trabalho
  • Erro de usuário, aplicativo ou sistema operacional
  • Discos cheios ou corrompidos
  • Para volumes Hyperdisk e Extreme Persistent Disk, IOPS ou taxa de transferência provisionada insuficientemente.

Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, alterando o tipo de máquina e provisionando mais capacidade, IOPS ou taxa de transferência.

Ver a integridade de um disco no Cloud Monitoring

Para visualizar a integridade de um disco, crie um gráfico no Metrics Explorer.

Funções e permissões necessárias

Para obter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você as seguintes funções do IAM no projeto:

Para obter mais informações sobre a concessão de funções, consulte Gerenciar acesso a projetos, pastas e organizações .

Você também poderá obter as permissões necessárias por meio de funções personalizadas ou outras funções predefinidas .

Crie um gráfico no Metrics Explorer

Para criar um gráfico, crie uma consulta com a interface orientada por menu, Monitoring Query Language (MQL) ou PromQL .

Para visualizar a integridade de um ou mais discos em um gráfico, siga estas instruções.
  1. No console do Google Cloud, acesse a página do explorador de métricas :

    Vá para o explorador de métricas

    Se você usar a barra de pesquisa para encontrar esta página, selecione o resultado cujo subtítulo é Monitoramento .

  2. Na barra de ferramentas do console do Google Cloud, selecione seu projeto do Google Cloud. Para configurações do App Hub , selecione o projeto host do App Hub ou o projeto de gerenciamento da pasta habilitada para aplicativo.
  3. No elemento Métrica , expanda o menu Selecionar uma métrica , insira VM Instance na barra de filtros e use os submenus para selecionar um tipo de recurso e uma métrica específicos:
    1. No menu Recursos ativos , selecione Instância de VM .
    2. No menu Categorias de métricas ativas , selecione Instância .
    3. No menu Métricas ativas , selecione Status de desempenho do disco .
    4. Clique em Aplicar .
    O nome completo dessa métrica é compute.googleapis.com/instance/disk/performance_status .
  4. Configure como os dados são visualizados.
    Desative a agregação. Certifique-se de que no elemento Aggregation , o primeiro menu esteja definido como Ungregated e o segundo menu esteja definido como None .
    Para visualizar a integridade de um disco específico, filtre por device_name .

    Para obter mais informações sobre como configurar um gráfico, consulte Selecionar métricas ao usar o Metrics Explorer.

MQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas MQL .

  2. Insira sua consulta no editor de consultas. Por exemplo, para visualizar o status de desempenho de um disco específico, insira a seguinte consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1 .

PromQL

  1. Abra o editor de consultas: siga as etapas em Escrever consultas PromQL .

  2. Insira sua consulta no editor de consultas. Por exemplo, para visualizar o status de desempenho de um disco específico, insira a seguinte consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Substitua DISK_NAME pelo nome do disco, por exemplo, disk-1 .

Se você visualizar os resultados em um gráfico, haverá 3 linhas para cada disco, uma para cada status possível. Da mesma forma, se você visualizar o resultado da consulta em uma tabela, a tabela terá 3 linhas para cada disco.

Se você construiu a consulta com PromQL ou MQL, cada linha ou linha terá um valor de 1 ou 0 . Para consultas construídas com os menus, os valores serão 100% ou 0 .

A integridade atual do disco é representada pela linha ou linha cujo valor é 100% ou 1 .

Por exemplo, a captura de tela a seguir mostra o gráfico de um disco denominado a-test-VM , cujo status é Healthy :

captura de tela mostrando o gráfico onde o status do disco é íntegro

Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir é um exemplo dos resultados de um disco Healthy :

status_desempenho valor
Healthy 1
Degraded 0
Severely Degraded 0

A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509 cujo status é Degraded : captura de tela mostrando o gráfico onde o status do disco é Degradado

Para obter informações sobre o significado de cada status de desempenho, consulte Compreender cada status . Depois de criar o gráfico, você poderá salvá-lo em um painel para uso futuro .

Resultados fracionários

Se a sua consulta incluir resultados fracionários como na tabela a seguir, normalmente isso ocorre porque o período de exibição selecionado foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo. Um valor de 77% para o status Healthy significa que o status do disco foi Healthy durante 77% do período de exibição selecionado.

status_desempenho valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para uma visão mais granular da integridade de um disco, use um período de exibição de algumas horas ou alguns minutos.

Entenda cada status

Esta seção discute o que cada status significa e quando você pode precisar tomar outras medidas.

Healthy

O status Healthy indica que, da perspectiva do Google, o disco está funcionando normalmente.

Se um disco Healthy apresentar problemas de desempenho, não entre em contato com o suporte. Em vez disso, solucione o problema do disco usando algumas das seguintes sugestões:

  • Revise as métricas de desempenho do disco, como latência e profundidade da fila.
  • Verifique os logs e as métricas da sua carga de trabalho em busca de anomalias e gargalos.
  • Se você estiver usando um disco permanente, verifique se a capacidade provisionada atende às necessidades de desempenho do disco. Se você estiver usando volumes Hyperdisk ou Extreme Persistent Disk, verifique se provisionou IOPS e taxa de transferência suficientes.
  • Certifique-se de ter seguido as diretrizes para otimizar o disco. Para obter mais informações, consulte Otimizar hiperdisco e Otimizar disco permanente .

Degraded

Normalmente, você não precisa entrar em contato com o suporte se o status do seu disco for Degraded . O Degraded status geralmente é causado pela manutenção interna normal na infraestrutura do Compute Engine.

Talvez você não perceba nenhum impacto no desempenho do disco enquanto seu status for Degraded . Se o problema de desempenho e o status Degraded se correlacionarem no tempo, o problema de desempenho ainda poderá não estar relacionado ao status Degraded .

No caso improvável de um problema de desempenho ser devido ao estado Degraded , o impacto é normalmente temporário. O status do disco deverá reverter para Healthy dentro de alguns minutos.

Você pode ignorar com segurança o status Degraded se não houver problemas de desempenho com o disco.

O que fazer se houver um problema de desempenho

Se o status de desempenho do seu disco for Degraded e você estiver observando um problema de desempenho, siga estas etapas:

  1. Verifique o painel do PSH para ver se há algum incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte, pois o Google está ciente e trabalhando para resolver o problema.
  2. Se não houver problemas conhecidos, aguarde pelo menos 5 minutos para que o problema de desempenho seja resolvido sozinho.
  3. Se após 5 minutos o problema de desempenho não for resolvido e o status ainda for Degraded , verifique se o problema de desempenho não ocorre porque o disco está insuficientemente otimizado. Por exemplo, verifique a latência do disco e a profundidade da fila. É possível que o problema de desempenho e o status Degraded não estejam relacionados e sejam apenas coincidências. Para fazer isso, revise as métricas do disco e as diretrizes de otimização de desempenho .

  4. Se os problemas de desempenho persistirem e todas as condições a seguir forem atendidas, você poderá entrar em contato com o suporte para obter assistência:

    • O status do disco foi Degraded por mais de 5 minutos
    • Você está razoavelmente confiante de que não é um problema de carga de trabalho porque otimizou o disco e verificou que não há outros problemas, como gargalos ou aplicativos sobrecarregados
    • Não há alertas no painel PSH

O Google não recomenda criar um alerta diretamente para o status Degraded , mas sim alertar sobre o status do aplicativo de nível superior e usar essa métrica para depurar problemas.

Severely Degraded

Um disco cujo status de desempenho é Severely Degraded está enfrentando um problema de desempenho. Esse problema pode ser devido a um incidente ou erro e pode já estar visível no painel do PSH ou noGoogle Cloud painel de integridade do serviço .

O que fazer

Se o status de desempenho do seu disco for Severely Degraded , siga estas etapas:

  1. Verifique o painel PSH e o geral Google Cloud painel de integridade para um incidente que afeta o disco. Se houver um incidente, não entre em contato com o suporte, pois o Google está ciente e trabalhando para resolver o problema.
  2. Se não houver problemas conhecidos em ambos os painéis, entre em contato com o suporte para obter assistência.

Árvore de decisão

O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações nas seções anteriores.

Fluxograma que descreve as etapas a serem seguidas para interpretar a métrica de status de desempenho do disco.

Conforme mostrado no fluxograma, você só deverá entrar em contato com o suporte se não houver alertas conhecidos nos painéis de serviço PSH e Cloud e o status do disco for Severely Degraded . Se o disco estiver Degraded , entre em contato com o suporte somente se todas as condições a seguir forem atendidas:

  • O disco foi Degraded por mais de 5 minutos
  • Você descartou um erro de carga de trabalho ou configuração incorreta (como problemas de rede)
  • Nenhuma otimização adicional pode ser realizada no nível do aplicativo, da carga de trabalho ou do disco
  • Você revisou todas as métricas do disco
  • Você examinou seus logs de carga de trabalho e de máquina virtual (VM)

O que vem a seguir