Você pode verificar a integridade de um volume de disco permanente ou hiperdisco do Google Cloud analisando a métrica de status de desempenho do disco . Esta métrica indica se o desempenho do disco é potencialmente afetado por eventos adversos no Compute Engine.
Um problema que afeta o status de desempenho do disco também pode estar visível no painel PSH ( Personal Service Health ) do seu projeto ou noGoogle Cloud Painel de integridade do serviço .
Este documento discute o status de desempenho do disco e como usá-lo para solucionar problemas de desempenho.
Quando verificar a integridade de um disco
Se você notar um problema de desempenho em um disco, verifique a integridade do disco analisando a métrica de status de desempenho do disco. A métrica de status de desempenho do disco é atualizada a cada minuto e representa o desempenho do disco durante todo o minuto anterior. Para conhecer as etapas de verificação da integridade do disco, consulte visualizar o status de desempenho do disco .
A tabela a seguir resume os valores possíveis do status de desempenho do disco.
Status | Significado |
---|---|
Healthy | O desempenho do disco é o esperado. |
Degraded | Você pode observar temporariamente uma latência de E/S maior do que o esperado. |
Severely degraded | Alta latência de E/S ou outros erros estão ocorrendo. |
Se o status de desempenho não for Healthy
, consulte Compreender cada status para as próximas etapas.
Se o status de desempenho for Healthy
, o disco está funcionando normalmente e você precisa verificar outras causas para o problema de desempenho. Você deve verificar se há erros de aplicativo ou sistema operacional e certificar-se de que seu disco esteja otimizado corretamente. Para obter diretrizes de otimização, consulte Otimizar hiperdisco e Otimizar disco permanente .
Como a integridade do disco se relaciona com outras métricas de desempenho de disco
A integridade do disco, conforme indicada pela métrica de status de desempenho, mostra o status interno do disco da perspectiva do Google . Se o status de um disco for Degraded
ou Severely Degraded
, a causa raiz estará sempre na infraestrutura do Compute Engine.
Geralmente não é possível alterar a integridade de um disco modificando a carga de trabalho. No entanto, em casos raros, uma alteração na carga de trabalho pode desencadear um problema interno, pelo que poderá ser possível mitigar um problema modificando a carga de trabalho.
Para saber mais sobre outras métricas de desempenho de disco disponíveis, consulte Revisar métricas de desempenho de disco .
Cenários que não afetam o status de desempenho do disco
O status de desempenho do disco não está relacionado a problemas de desempenho causados pelos seguintes fatores:
- Otimização de disco incompleta ou insuficiente
- Limite de desempenho associado ao disco e ao tipo de máquina (se o tipo de máquina escolhido não atender aos requisitos de desempenho da sua carga de trabalho)
- Aumento da carga no disco devido ao tráfego de carga de trabalho
- Erro de usuário, aplicativo ou sistema operacional
- Discos cheios ou corrompidos
- Para volumes Hyperdisk e Extreme Persistent Disk, IOPS ou taxa de transferência provisionada insuficientemente.
Nessas situações, é sua responsabilidade melhorar o desempenho, por exemplo, otimizando o disco, aumentando a carga de trabalho, alterando o tipo de máquina e provisionando mais capacidade, IOPS ou taxa de transferência.
Ver a integridade de um disco no Cloud Monitoring
Para visualizar a integridade de um disco, crie um gráfico no Metrics Explorer.
Funções e permissões necessárias
Para obter as permissões necessárias para verificar a métrica de status de desempenho do disco, peça ao administrador para conceder a você as seguintes funções do IAM no projeto:
- Visualizador de monitoramento (
roles/monitoring.viewer
) - Para salvar um gráfico em um painel: Editor de monitoramento (
roles/monitoring.editor
)
Para obter mais informações sobre a concessão de funções, consulte Gerenciar acesso a projetos, pastas e organizações .
Você também poderá obter as permissões necessárias por meio de funções personalizadas ou outras funções predefinidas .
Crie um gráfico no Metrics Explorer
Para criar um gráfico, crie uma consulta com a interface orientada por menu, Monitoring Query Language (MQL) ou PromQL .
Interface orientada por menu
Para visualizar a integridade de um ou mais discos em um gráfico, siga estas instruções.No console do Google Cloud, acesse a página do explorador de métricas leaderboard :
Vá para o explorador de métricas
Se você usar a barra de pesquisa para encontrar esta página, selecione o resultado cujo subtítulo é Monitoramento .
- Na barra de ferramentas do console do Google Cloud, selecione seu projeto do Google Cloud. Para configurações do App Hub , selecione o projeto host do App Hub ou o projeto de gerenciamento da pasta habilitada para aplicativo.
- No elemento Métrica , expanda o menu Selecionar uma métrica , insira
VM Instance
na barra de filtros e use os submenus para selecionar um tipo de recurso e uma métrica específicos:- No menu Recursos ativos , selecione Instância de VM .
- No menu Categorias de métricas ativas , selecione Instância .
- No menu Métricas ativas , selecione Status de desempenho do disco .
- Clique em Aplicar .
compute.googleapis.com/instance/disk/performance_status
. - Configure como os dados são visualizados.
Desative a agregação. Certifique-se de que no elemento Aggregation , o primeiro menu esteja definido como Ungregated e o segundo menu esteja definido como None .
Para visualizar a integridade de um disco específico, filtre pordevice_name
.Para obter mais informações sobre como configurar um gráfico, consulte Selecionar métricas ao usar o Metrics Explorer.
MQL
Abra o editor de consultas: siga as etapas em Escrever consultas MQL .
Insira sua consulta no editor de consultas. Por exemplo, para visualizar o status de desempenho de um disco específico, insira a seguinte consulta:
fetch gce_instance | metric 'compute.googleapis.com/instance/disk/performance_status' | filter metric.device_name == 'DISK_NAME' | group_by 1m, [value_performance_status_fraction_true: fraction_true(value.performance_status)] | every 1m
Substitua
DISK_NAME
pelo nome do disco, por exemplo,disk-1
.
PromQL
Abra o editor de consultas: siga as etapas em Escrever consultas PromQL .
Insira sua consulta no editor de consultas. Por exemplo, para visualizar o status de desempenho de um disco específico, insira a seguinte consulta:
last_over_time (compute_googleapis_com:instance_disk_performance_status {monitored_resource="gce_instance", project_id ="PROJECT_ID", device_name="DISK_NAME"}[${__interval}])
Substitua DISK_NAME
pelo nome do disco, por exemplo, disk-1
.
Se você visualizar os resultados em um gráfico, haverá 3 linhas para cada disco, uma para cada status possível. Da mesma forma, se você visualizar o resultado da consulta em uma tabela, a tabela terá 3 linhas para cada disco.
Se você construiu a consulta com PromQL ou MQL, cada linha ou linha terá um valor de 1
ou 0
. Para consultas construídas com os menus, os valores serão 100%
ou 0
.
A integridade atual do disco é representada pela linha ou linha cujo valor é 100%
ou 1
.
Por exemplo, a captura de tela a seguir mostra o gráfico de um disco denominado a-test-VM
, cujo status é Healthy
:
Se você visualizar os resultados da consulta como uma tabela, a tabela a seguir é um exemplo dos resultados de um disco Healthy
:
status_desempenho | valor |
---|---|
Healthy | 1 |
Degraded | 0 |
Severely Degraded | 0 |
A captura de tela a seguir mostra o gráfico de um disco chamado replica-23509
cujo status é Degraded :
Para obter informações sobre o significado de cada status de desempenho, consulte Compreender cada status . Depois de criar o gráfico, você poderá salvá-lo em um painel para uso futuro .
Resultados fracionários
Se a sua consulta incluir resultados fracionários como na tabela a seguir, normalmente isso ocorre porque o período de exibição selecionado foi longo. Como resultado, o Cloud Monitoring agregou os dados ao longo do tempo. Um valor de 77%
para o status Healthy
significa que o status do disco foi Healthy
durante 77% do período de exibição selecionado.
status_desempenho | valor |
---|---|
Healthy | 77% |
Degraded | 23% |
Severely Degraded | 0 |
Para uma visão mais granular da integridade de um disco, use um período de exibição de algumas horas ou alguns minutos.
Entenda cada status
Esta seção discute o que cada status significa e quando você pode precisar tomar outras medidas.
Healthy
O status Healthy
indica que, da perspectiva do Google, o disco está funcionando normalmente.
Se um disco Healthy
apresentar problemas de desempenho, não entre em contato com o suporte. Em vez disso, solucione o problema do disco usando algumas das seguintes sugestões:
- Revise as métricas de desempenho do disco, como latência e profundidade da fila.
- Verifique os logs e as métricas da sua carga de trabalho em busca de anomalias e gargalos.
- Se você estiver usando um disco permanente, verifique se a capacidade provisionada atende às necessidades de desempenho do disco. Se você estiver usando volumes Hyperdisk ou Extreme Persistent Disk, verifique se provisionou IOPS e taxa de transferência suficientes.
- Certifique-se de ter seguido as diretrizes para otimizar o disco. Para obter mais informações, consulte Otimizar hiperdisco e Otimizar disco permanente .
Degraded
Normalmente, você não precisa entrar em contato com o suporte se o status do seu disco for Degraded
. O Degraded status
geralmente é causado pela manutenção interna normal na infraestrutura do Compute Engine.
Talvez você não perceba nenhum impacto no desempenho do disco enquanto seu status for Degraded
. Se o problema de desempenho e o status Degraded
se correlacionarem no tempo, o problema de desempenho ainda poderá não estar relacionado ao status Degraded
.
No caso improvável de um problema de desempenho ser devido ao estado Degraded
, o impacto é normalmente temporário. O status do disco deverá reverter para Healthy
dentro de alguns minutos.
Você pode ignorar com segurança o status Degraded
se não houver problemas de desempenho com o disco.
O que fazer se houver um problema de desempenho
Se o status de desempenho do seu disco for Degraded
e você estiver observando um problema de desempenho, siga estas etapas:
- Verifique o painel do PSH para ver se há algum incidente afetando o disco. Se houver um incidente, não entre em contato com o suporte, pois o Google está ciente e trabalhando para resolver o problema.
- Se não houver problemas conhecidos, aguarde pelo menos 5 minutos para que o problema de desempenho seja resolvido sozinho.
Se após 5 minutos o problema de desempenho não for resolvido e o status ainda for
Degraded
, verifique se o problema de desempenho não ocorre porque o disco está insuficientemente otimizado. Por exemplo, verifique a latência do disco e a profundidade da fila. É possível que o problema de desempenho e o statusDegraded
não estejam relacionados e sejam apenas coincidências. Para fazer isso, revise as métricas do disco e as diretrizes de otimização de desempenho .Se os problemas de desempenho persistirem e todas as condições a seguir forem atendidas, você poderá entrar em contato com o suporte para obter assistência:
- O status do disco foi
Degraded
por mais de 5 minutos - Você está razoavelmente confiante de que não é um problema de carga de trabalho porque otimizou o disco e verificou que não há outros problemas, como gargalos ou aplicativos sobrecarregados
- Não há alertas no painel PSH
- O status do disco foi
O Google não recomenda criar um alerta diretamente para o status Degraded
, mas sim alertar sobre o status do aplicativo de nível superior e usar essa métrica para depurar problemas.
Severely Degraded
Um disco cujo status de desempenho é Severely Degraded
está enfrentando um problema de desempenho. Esse problema pode ser devido a um incidente ou erro e pode já estar visível no painel do PSH ou noGoogle Cloud painel de integridade do serviço .
O que fazer
Se o status de desempenho do seu disco for Severely Degraded
, siga estas etapas:
- Verifique o painel PSH e o geral Google Cloud painel de integridade para um incidente que afeta o disco. Se houver um incidente, não entre em contato com o suporte, pois o Google está ciente e trabalhando para resolver o problema.
- Se não houver problemas conhecidos em ambos os painéis, entre em contato com o suporte para obter assistência.
Árvore de decisão
O diagrama a seguir ilustra como proceder se um disco tiver um problema de desempenho e resume as informações nas seções anteriores.
Conforme mostrado no fluxograma, você só deverá entrar em contato com o suporte se não houver alertas conhecidos nos painéis de serviço PSH e Cloud e o status do disco for Severely Degraded
. Se o disco estiver Degraded
, entre em contato com o suporte somente se todas as condições a seguir forem atendidas:
- O disco foi
Degraded
por mais de 5 minutos - Você descartou um erro de carga de trabalho ou configuração incorreta (como problemas de rede)
- Nenhuma otimização adicional pode ser realizada no nível do aplicativo, da carga de trabalho ou do disco
- Você revisou todas as métricas do disco
- Você examinou seus logs de carga de trabalho e de máquina virtual (VM)
O que vem a seguir
- Saiba mais sobre como criar gráficos com o Metric Explorer e como refinar os resultados da consulta adicionando filtros a um gráfico .
- Verifique se há eventos de integridade de serviço ativos e passados no painel Personal Service Health e no Google Service Health
- Para obter diretrizes de otimização de desempenho, consulte Otimizar hiperdisco e Otimizar disco permanente .