Esta página foi traduzida pela API Cloud Translation.

Como solucionar problemas de desligamentos e reinicializações de VMs

Neste documento, você verá as causas comuns de desligamentos e reinicializações inesperados de instâncias do Compute Engine e como evitá-los.

Desligamentos e reinicializações de instâncias podem ser causados por eventos do sistema ou atividades administrativas. Desligamentos e reinicializações causados por eventos do sistema são gerados pelos sistemas do Google ou pelo sistema operacional das instâncias. Os encerramentos e reinicializações causados por atividades do administrador são gerados por uma chamada de API gerada pelo usuário ou pela conta de serviço. Todos os desligamentos e reinicializações são registrados, exceto as reinicializações que são iniciadas de dentro da instância.

Antes de começar

Configure a autenticação, caso ainda não tenha feito isso. A autenticação é o processo de verificação da sua identidade para acesso a serviços e APIs do Google Cloud . Para executar códigos ou amostras de um ambiente de desenvolvimento local, autentique-se no Compute Engine selecionando uma das seguintes opções:

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud

Como diagnosticar desligamentos e reinicializações de instâncias

Para diagnosticar a causa do desligamento ou da reinicialização espontânea de uma instância, é necessário consultar os registros das instâncias. Para identificar rapidamente a causa de futuros desligamentos ou reinicializações da VM, crie um painel que contenha os registros. Depois de consultar os registros, revise os campos method e principalEmail para determinar qual evento e qual usuário ou serviço iniciou o encerramento ou a reinicialização.

Como consultar o Cloud Audit Logging

Consulte os registros de auditoria do Cloud para ver uma lista de eventos do sistema e atividades administrativas que podem ter causado o desligamento ou a reinicialização.

Permissões exigidas para a tarefa

Para executar esta tarefa, é necessário ter as seguintes permissões:

Papel Logging/Visualizador de registros ou Projeto/Visualizador

Console

No console Google Cloud , acesse a página Explorador de registros.

Acessar o Explorador de registros

Observação: talvez seja necessário clicar em Fazer upgrade para usar o "Explorador de registros" em vez do visualizador de registros legado.

No campo Consulta, digite a seguinte consulta:

resource.type="gce_instance"
"VM_NAME"
logName:("logs/cloudaudit.googleapis.com%2Fsystem_event" OR "logs/cloudaudit.googleapis.com%2Factivity")

Substitua VM_NAME pelo nome da VM que desligou ou foi reiniciada.

Se o evento que você está procurando aconteceu há mais de uma hora, defina um período personalizado clicando no símbolo do relógio e inserindo um intervalo personalizado.
Clique em Run query. Os resultados são exibidos na seção Resultados da consulta.

Dica: para aumentar o tamanho da seção Resultados da consulta, clique em Inserir resultados da consulta em tela cheia.
Clique na seta de expansão ao lado de cada resultado para mostrar informações detalhadas.
Consulte Como analisar os registros de auditoria do Cloud para saber mais sobre os campos method e principalEmail associados a desligamentos e reinicializações e o que é possível fazer para evitá-los.

gcloud

Visualize os registros de auditoria do Cloud usando o comando gcloud logging read:
```
gcloud logging read --freshness=TIME 'resource.type="gce_instance" "VM_NAME" logName:("logs/cloudaudit.googleapis.com%2Fsystem_event" OR "logs/cloudaudit.googleapis.com%2Factivity")'
```
Substitua:
- TIME: o intervalo de tempo que você quer consultar. Por exemplo, 1h consulta entradas de registro na última hora. Para informações sobre formatos de data e hora, consulte Data e hora no gcloud.
- VM_NAME: o nome da VM que foi desligada ou reinicializada.
Os resultados serão exibidos.
Consulte Como analisar os registros de auditoria do Cloud para saber mais sobre os campos method e principalEmail associados a desligamentos e reinicializações e o que é possível fazer para evitá-los.

Como analisar o Cloud Audit Logging

Revise os campos method e principalEmail do Cloud Audit Logging para determinar o motivo pelo qual a VM foi desligada ou reinicializada.

Revise os campos method do Cloud Audit Logging e compare-os com os métodos listados na tabela a seguir.

Método	Tipo de desligamento	Descrição
`compute.instances.repair.recreateInstance`	Evento do sistema	Se a VM pertence a um grupo gerenciado de instâncias (MIG, na sigla em inglês), o MIG recriará a VM se o estado da VM mudar de `RUNNING` e o MIG não iniciou a alteração no estado. As alterações do estado da instância que não são iniciadas pelo MIG incluem: Falhas de hardware. Encerrar uma instância preemptiva. Eventos de manutenção de infraestrutura quando a instância de VM não está definida para migração em tempo real. Como excluir uma instância do MIG usando um dos seguintes métodos: O método da API `instances.delete`. O comando `gcloud compute instances delete` Observação: para garantir que suas alterações de configuração não sejam revertidas pelo MIG, é importanteusar os métodos do grupo.. Por exemplo, para excluir uma instância gerenciada, use um dos seguintes métodos: Para um MIG zonal: `instanceGroupManagers.deleteInstances` Para um MIG regional: `regionInstanceGroupManagers.deleteInstances` Na gcloud: `gcloud compute instance-groups managed delete-instances`
`compute.instances.hostError`	Evento do sistema	Um erro de host (`compute.instances.hostError`) significa que houve um problema de hardware ou software na máquina física ou na infraestrutura do data center que hospeda a instância de computação, causando a falha dela. Um erro de host que envolve uma falha total de hardware ou outros problemas de hardware pode impedir a migração em tempo real da sua instância. Se a instância estiver configurada para reiniciar automaticamente, o que é a configuração padrão, o Compute Engine a reiniciará, normalmente em três minutos a partir do momento em que o erro foi detectado. Dependendo do problema, a reinicialização pode levar até 5,5 minutos. Às vezes, uma instância de computação pode não responder antes que um erro do host seja sinalizado. É possível reduzir o tempo que o Compute Engine aguarda para reiniciar ou encerrar a instância definindo o tempo limite de recuperação de erros do host. Para mais informações, consulte Definir políticas de disponibilidade. Falhas físicas de hardware e software podem acontecer ocasionalmente, mas são raras. Para proteger aplicativos e serviços contra esses eventos de sistema potencialmente prejudiciais, analise os seguintes recursos: Como projetar sistemas robustos Padrões para apps escalonáveis e resilientes Como criar grupos de instâncias gerenciadas O Google também oferece serviços gerenciados, como o App Engine e o ambiente flexível do App Engine.
`compute.instances.automaticRestart`	Evento do sistema	Esse evento ocorrerá após um evento `hostError` ou `terminateOnHostMaintenance` se a política de manutenção do host `automaticRestart` da VM estiver definida como `true`. Nos registros, uma entrada `hostError` ou `terminateOnHostMaintenance` precede esse registro. Se você quiser alterar a política de manutenção do host da VM, consulte Como atualizar opções para uma instância.
`compute.instances.guestTerminate`	Evento do sistema	O sistema operacional da VM iniciou o desligamento.
`compute.instances.terminateOnHostMaintenance`	Evento do sistema	Se você definir a política de manutenção do host `onHostMaintenance` da VM como `TERMINATE`, o Compute Engine interrompe a VM quando há um evento de manutenção em que o Google precise mover a VM para outro host. Se você quiser alterar a política `onHostMaintenance` da VM, consulte Como atualizar opções de uma instância.
`compute.instances.preempted`	Evento do sistema	O Compute Engine forçou a interrupção da VM do Spot ou da VM preemptiva legada: Quando o Compute Engine força a interrupção de uma VM do Spot, ele para ou exclui a VM do Spot com base na ação de encerramento. As VMs spot não têm tempo de execução máximo. Quando o Compute Engine força a interrupção de uma VM preemptiva, ele para a VM após um tempo de execução máximo de 24 horas. Para evitar essas limitações, use VMs do Spot. As VMs do Spot e as VMs preemptivas são capacidade extra do Compute Engine. Por isso, o Compute Engine pode encerrá-las sempre que essa capacidade for necessária em outro lugar. É possível reduzir os efeitos da preempção seguindo as práticas recomendadas. Como alternativa, se você precisar de VMs com ambientes de execução controlados pelo usuário, crie VMs padrão.
`compute.instances.stop`	Atividade administrativa	Um usuário ou conta de serviço interrompeu a VM. Passe para a próxima etapa para identificar a conta de serviço ou o usuário que interrompeu a VM. Para mais informações sobre como reiniciar a VM, consulte Como reiniciar uma instância interrompida.
`compute.instances.delete`	Atividade do administrador ou evento do sistema	Um usuário ou conta de serviço excluiu a VM, ou ela foi configurada para ser excluída automaticamente. Importante:as solicitações para excluir sua VM, indicadas nos registros de auditoria do Cloud pelo método `compute.instances.delete`, podem substituir de forma inconsistente outras solicitações feitas em um momento semelhante. Mesmo quando essas outras solicitações foram bem-sucedidas, o método `compute.instances.delete` pode impedir de forma inconsistente que os métodos dessas outras solicitações apareçam nos Registros de auditoria do Cloud da sua VM. Especificamente, um registro do método `compute.instances.delete` pode indicar qualquer uma das seguintes solicitações para sua VM: As solicitações de um usuário ou conta de serviço para excluir diretamente sua VM são indicadas apenas por um método `compute.instances.delete` do usuário ou da conta de serviço. As solicitações que excluem automaticamente sua VM são indicadas por um método `compute.instances.delete` de `system@google.com`, mas o método que explica a causa da exclusão automática pode ou não aparecer nos registros de auditoria do Cloud. Por exemplo, se uma VM spot for configurada para ser excluída automaticamente durante a preempção e for interrompida, você verá um método `compute.instances.delete` de `system@google.com`, mas também poderá ver ou não um método `compute.instances.preempted`. As solicitações à VM que ocorreram pouco antes ou depois de um método `compute.instances.delete` podem ou não aparecer nos registros de auditoria do Cloud. Por exemplo, se uma VM for interrompida devido à manutenção do host pouco antes de ser excluída, você verá um método `compute.instances.delete`, mas também poderá ou não ver um método `compute.instances.terminateOnHostMaintenance`. Passe para a próxima etapa para identificar a conta de serviço ou o usuário que excluiu a VM. Para informações sobre como criar uma nova VM, consulte Como criar e iniciar uma VM.
`compute.instances.insert`	Atividade administrativa	Um usuário ou uma conta de serviço criou sua VM. Passe para a próxima etapa para identificar a conta de serviço ou o usuário que criou a VM. Para informações sobre como criar uma nova VM, consulte Como criar e iniciar uma VM.
`compute.instances.reset`	Atividade administrativa	Um usuário ou uma conta de serviço redefine a VM. Passe para a próxima etapa para identificar a conta de serviço ou o usuário que interrompeu a VM.

Revise os campos principalEmail do Cloud Audit Logging para identificar o usuário ou serviço que iniciou o desligamento ou a reinicialização. A tabela a seguir inclui serviços comuns gerenciados pelo Google que iniciam reinicializações ou desligamentos.

E-mail Descrição

system@google.com Um evento do sistema causou o desligamento ou reinicialização.

E-mail	Descrição
`system@google.com`	Um evento do sistema causou o desligamento ou reinicialização.
`project-number@cloudservices.gserviceaccount.com`	Um agente de serviço iniciou o desligamento. Para determinar de qual projeto o serviço iniciou o desligamento, revise o `project-number` do agente de serviço. Para determinar qual serviço do Google fez a solicitação, revise o campo `protoPayload.requestMetadata.callerSuppliedUserAgent`.

project-number@cloudservices.gserviceaccount.com

Um agente de serviço iniciou o desligamento.

Para determinar de qual projeto o serviço iniciou o desligamento, revise o project-number do agente de serviço.

Para determinar qual serviço do Google fez a solicitação, revise o campo protoPayload.requestMetadata.callerSuppliedUserAgent.

Se um usuário tiver acionado o encerramento ou a reinicialização, o endereço de e-mail dele aparecerá no campo principalEmail. Por exemplo, cloudysanfrancisco@gmail.com.

Os administradores podem impedir que os usuários alterem o estado das VMs do projeto alterando as permissões do Identity and Access Management nas contas de usuário. Saiba mais em Como conceder, alterar e revogar o acesso a recursos.

Monitorar eventos do ciclo de vida da VM

É possível monitorar eventos de ciclo de vida de VMs (incluindo desligamentos, reinicializações e erros do host) criando um painel do Cloud Monitoring.

Esse painel permite visualizar eventos do sistema e atividades do administrador que são descritos em mais detalhes na seção Como analisar registros de auditoria deste documento.

Painel do ciclo de vida da VM: eventos de interrupção e início Figura 1. Um exemplo de painel que mostra a disponibilidade de uma instância e os eventos de ciclo de vida dela, como uma instância interrompida.

Criar métrica com base em registros

Para capturar eventos de ciclo de vida da VM, crie uma métrica com base em registros definida pelo usuário. Essa métrica usa registros de auditoria para registrar quantas vezes ocorreu um determinado evento de ciclo de vida da VM.

Para receber as permissões necessárias para criar a métrica, peça ao administrador para conceder a você o papel do IAM de Gravador de registros (roles/logging.logWriter) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para criar uma métrica com base em registros definida pelo usuário, faça o seguinte:

No Google Cloud console, acesse a página Métricas com base em registros.

Acessar "Métricas com base em registros"
Clique em Criar métrica.

Na seção Tipo de métrica, faça o seguinte:

Selecione Counter.
Deixe Distribuição com a configuração padrão desmarcada.

Na seção Detalhes, digite o seguinte:

Nome da métrica com base em registros: vm-lifecycle-events. Use esse nome exato para que o painel funcione corretamente.
Descrição (opcional): insira uma descrição para a métrica.
Unidades: 1

Na seção Seleção de filtros, especifique o seguinte:

No menu Selecionar bucket do projeto ou do registro, escolha: "Registros do projeto"

Em Criar filtro, digite:

resource.type = "gce_instance" AND
log_id("cloudaudit.googleapis.com/activity") OR
log_id("cloudaudit.googleapis.com/system_event")
operation.first="true"

Na seção Marcadores, clique em Adicionar marcador.

Especifique o seguinte:

Nome do rótulo: method
Tipo de rótulo: STRING
Nome do campo: protoPayload.methodName

Expressão regular:

(recreateInstance|hostError|automaticRestart|guestTerminate|terminateOnHostMaintenance|preempted|insert|stop|delete|reset|start)

Clique em Concluir.
Clique em Criar métrica.

Usar o painel

Nenhum dado vai aparecer no painel até que uma instância apresente um evento do sistema ou uma atividade do administrador. Para testar se o painel funciona, execute uma atividade de administrador, como uma operação stop e start:

Execute uma operação stop e start em qualquer instância ou crie uma nova VM para fins de teste.

Para receber as permissões necessárias para usar o painel, peça ao administrador para conceder a você o papel do IAM de Leitor do painel do Monitoring (roles/monitoring.dashboardViewer) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Abra Painéis no console Google Cloud .

Ir para "Painéis"
Na guia Lista de painéis, abra o painel do GCE VM Lifecycle Events Monitoring.
Selecione a VM no menu suspenso Nome.
Restrinja a série temporal a um período relevante.

Para conhecer outras formas de filtrar o painel, consulte Adicionar um filtro temporário.

O painel contém dois gráficos que mostram uma linha do tempo de eventos do sistema e atividades de administrador que ocorrem em uma instância:

O gráfico Cronograma do ciclo de vida da VM mostra o seguinte:
- A métrica compute.googleapis.com/instance/uptime que indica se a VM estava sendo executada em um determinado momento, em que 1 está ativo e 0 está inativo. Essa métrica reflete a disponibilidade como resultado da atividade do usuário e de eventos do sistema, e não é uma indicação do SLA do Compute Engine.
- A métrica com base em registros vm-lifecycle-events para contar o número de ações do ciclo de vida, como stop ou start, que foram realizadas na instância em um determinado momento
O gráfico de eventos mostra a mesma métrica com base em registros do vm-lifecycle-events, mas em uma visualização ampliada para facilitar a leitura. Embora os eixos X estejam alinhados, as cores não são sincronizadas entre os dois gráficos.

Investigação em massa do encerramento da VM entre projetos

O Compute Engine pode encerrar várias VMs conectadas a um projeto host da VPC compartilhada se o faturamento do projeto host estiver inativo ou desativado.

Para determinar se as VMs foram encerradas por uma solicitação de encerramento em massa, procure as operações de parada iniciadas por cloud-cluster-manager@prod.google.com.

Iniciar uma instância afetada retorna um erro semelhante ao seguinte:

Starting instance(s) INSTANCE_NAME...failed.
ERROR: (gcloud.compute.instances.start) The default network interface [nic0] is frozen.

Para resolver esse problema, faça o seguinte:

Identifique a VPC compartilhada usada pelas VMs com o comando gcloud compute instances describe:

gcloud compute instances describe VM_NAME \
   --format="flattened(networkInterfaces[].network)"

O resultado será assim:

networkInterfaces[0].network: https://www.googleapis.com/compute/v1/projects/SHARED_VPC_PROJECT/global/networks/FROZEN_NETWORK

Verifique no projeto host da VPC compartilhada se o faturamento tiver sido desativado.

resource.type="project"
protoPayload.request.@type="type.googleapis.com/google.internal.cloudbilling.billingaccount.v1.DisableResourceBillingRequest"
protoPayload.response.resourceBillingInfo.billingAccountAssignmentType="DISABLED"

Se aplicável, ative o faturamento no projeto host.

Para ajudar a evitar que esse problema ocorra novamente, leia Proteger o vínculo entre um projeto e a conta de faturamento.

Como solucionar problemas de desligamentos e reinicializações de VMs Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Console

gcloud

Como diagnosticar desligamentos e reinicializações de instâncias

Como consultar o Cloud Audit Logging

Permissões exigidas para a tarefa

Console

gcloud

Como analisar o Cloud Audit Logging

Monitorar eventos do ciclo de vida da VM

Criar métrica com base em registros

Usar o painel

Investigação em massa do encerramento da VM entre projetos

Como solucionar problemas de desligamentos e reinicializações de VMs