Esta página foi traduzida pela API Cloud Translation.

Resolver problemas de criação de clusters

Este documento explica mensagens de erro comuns na criação de clusters e oferece dicas para solucionar problemas relacionados a isso.

Mensagens de erro comuns de criação de cluster

Operação expirada:somente 0 de dois nós de dados/gerenciadores de nós obrigatórios em execução.

Causa: o nó do controlador não consegue criar o cluster porque não pode se comunicar com os nós de trabalho.

Solução:
- Verifique os avisos de regras do firewall.
- Verifique se as regras de firewall corretas estão em vigor. Para mais informações, consulte Visão geral das regras de firewall padrão do Dataproc.
- Faça um teste de conectividade no console do Google Cloud para determinar o que está bloqueando a comunicação entre os nós de controlador e de trabalho.
Permissão compute.subnetworks.use necessária para projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: esse erro pode ocorrer quando você tenta configurar um cluster do Dataproc usando uma rede VPC em outro projeto e a conta de serviço do agente de serviços do Dataproc não tem as permissões necessárias no projeto de VPC compartilhada que hospeda a rede.

Solução: siga as etapas listadas em Criar um cluster que usa uma rede VPC em outro projeto.
A zona projects/zones/{zone} não tem recursos suficientes disponíveis para atender à solicitação (resource type:compute)

Causa: a zona usada para criar o cluster não tem recursos suficientes.

Solução:
- Use o recurso Posição de zona automática do Dataproc para criar o cluster em qualquer uma das zonas de uma região com recursos disponíveis.
- Crie o cluster em uma zona diferente.
Erros de cota excedida

Cota insuficiente de CPUs/CPUS_ALL_REGIONS
Cota insuficiente de "DISKS_TOTAL_GB"
Cota insuficiente "IN_USE_ADDRESSES"

Causa: sua solicitação de CPU, disco ou endereço IP excede a cota disponível.

Solução: solicite mais cota no console doGoogle Cloud .
Falha na ação de inicialização

Causa: a ação de inicialização fornecida durante a criação do cluster não foi instalada.

Solução:
- Consulte considerações e diretrizes de ações de inicialização.
- Analise os registros de saída. A mensagem de erro precisa fornecer um link para os registros no Cloud Storage.
Falha ao inicializar o nó CLUSTER-NAME-m. ... Confira a saída em: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: não foi possível inicializar o nó do controlador do cluster do Dataproc.

Solução:
- Analise os registros de saída do script de inicialização listados na mensagem de erro (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) e verifique a causa da falha na inicialização do nó.
- As causas podem incluir problemas de configuração de rede do cluster do Dataproc e falha na instalação de dependências de pacotes Python.
- Se o problema não for resolvido depois que você analisar os registros do script de inicialização, corrija os problemas do lado do usuário e tente de novo com espera exponencial. Se o problema persistir, entre em contato com o suporte do Google Cloud.
Falha na criação do cluster: espaço de endereço IP esgotado

Causa: o espaço de endereço IP necessário para provisionar os nós do cluster solicitados está indisponível.

Solução:
- Crie um cluster com menos nós de trabalho, mas um tipo de máquina maior.
- Crie um cluster em uma sub-rede ou rede diferente.
- Reduza o uso na rede para liberar espaço de endereço IP.
- Aguarde até que haja espaço de IP suficiente disponível na rede.

Mensagem de erro do script de inicialização: o repositório REPO_NAME não tem mais um arquivo de lançamento

Causa: o repositório de backports do Debian oldstable foi removido.

Solução:

Adicione o seguinte código antes do código que executa apt-get no script de inicialização.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Tempo limite de espera para a instância DATAPROC_CLUSTER_VM_NAME informar ou A rede está inacessível: dataproccontrol-REGION.googleapis.com

Causa: essas mensagens de erro indicam que a configuração de rede do cluster do Dataproc está incompleta. Talvez esteja faltando a rota para o gateway de Internet padrão ou regras de firewall.

Solução:

Para resolver esse problema, crie os seguintes Testes de conectividade:
- Crie um teste de conectividade entre duas VMs de cluster do Dataproc. O resultado desse teste ajuda a entender se as regras de firewall de permissão de entrada ou saída da sua rede se aplicam corretamente às VMs do cluster.
- Crie um teste de conectividade entre uma VM de cluster do Dataproc e um endereço IP da API de controle do Dataproc atual. Para receber um endereço IP atual da API de controle do Dataproc, use o seguinte comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Use qualquer um dos endereços IPv4 na seção de respostas da saída.

O resultado do teste de conectividade vai ajudar você a entender se a rota para o gateway de Internet padrão e o firewall de saída estão configurados corretamente.

Com base nos resultados dos testes de conectividade:
- Adicione uma rota à Internet à rede VPC do cluster: 0.0.0.0/0 para IPv4 e ::/0 para IPv6 com --next-hop-gateway=default-internet-gateway.
- Adicione regras de firewall para controle de acesso.
Erro devido a uma atualização

Causa: o cluster aceitou um job enviado ao serviço do Dataproc, mas não foi possível escalonar verticalmente ou horizontalmente de forma manual ou por escalonamento automático. Esse erro também pode ser causado por uma configuração de cluster não padrão.

Solução:
- Redefinição do cluster:abra um tíquete de suporte, inclua um arquivo tar de diagnóstico e peça para redefinir o cluster para o estado EM EXECUÇÃO.
- Novo cluster:recrie o cluster com a mesma configuração. Essa solução pode ser mais rápida do que uma redefinição fornecida pelo suporte.

Dicas para solucionar problemas de cluster

Esta seção oferece mais orientações sobre a solução de problemas comuns que podem impedir a criação de clusters do Dataproc.

Quando um cluster do Dataproc não é provisionado, ele geralmente gera uma mensagem de erro genérica ou informa um status PENDING ou PROVISIONING antes de falhar. A chave para diagnosticar e resolver problemas de falha do cluster é examinar os registros do cluster e avaliar os pontos de falha comuns.

Sintomas comuns

Estes são alguns sintomas comuns associados a falhas na criação de clusters:

O status do cluster permanece PENDING ou PROVISIONING por um longo período.
O cluster faz a transição para o estado ERROR.
Erros genéricos da API durante a criação do cluster, como Operation timed out.
Mensagens de erro registradas ou de resposta da API, como:
- RESOURCE_EXHAUSTED: relacionado a cotas de CPU, disco ou endereço IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com ou Could not reach required Google APIs
- Connection refused ou network unreachable
- Erros relacionados à falha das ações de inicialização, como erros de execução de script e arquivo não encontrado.

Analisar registros de cluster

Uma etapa inicial importante ao diagnosticar falhas na criação de clusters é revisar os registros detalhados disponíveis no Cloud Logging.

Acesse o Explorador de registros: abra o Explorador de registros no console Google Cloud .
Filtre os clusters do Dataproc:
- No menu suspenso Recurso, selecione Cloud Dataproc Cluster.
- Insira seu cluster_name e project_id. Também é possível filtrar por location (região).
Analise as entradas de registro:
- Procure mensagens de nível ERROR ou WARNING que ocorram perto do momento da falha na criação do cluster.
- Preste atenção aos registros dos componentes master-startup, worker-startup e agent para insights sobre problemas no nível da VM ou do agente do Dataproc.
- Para ter insights sobre problemas de tempo de inicialização da VM, filtre os registros por resource.type="gce_instance" e procure mensagens dos nomes de instâncias associados aos nós do cluster, como CLUSTER_NAME-m ou CLUSTER_NAME-w-0. Os registros do console serial podem revelar problemas de configuração de rede, problemas de disco e falhas de script que ocorrem no início do ciclo de vida da VM.

Causas comuns de falhas no cluster e dicas para resolver problemas

Esta seção descreve os motivos comuns para a falha na criação de um cluster do Dataproc e oferece dicas para resolver problemas.

Permissões do IAM insuficientes

A conta de serviço da VM usada pelo cluster do Dataproc precisa ter os papéis do IAM adequados para provisionar instâncias do Compute Engine, acessar buckets do Cloud Storage, gravar registros e interagir com outros serviços do Google Cloud .

Papel de worker obrigatório: verifique se a conta de serviço da VM tem o papel Worker do Dataproc (roles/dataproc.worker). Esse papel tem as permissões mínimas necessárias para que o Dataproc gerencie os recursos do cluster.
Permissões de acesso a dados: se os jobs lerem ou gravarem no Cloud Storage ou no BigQuery, a conta de serviço precisará de papéis relacionados, como Storage Object Viewer, Storage Object Creator ou Storage Object Admin para o Cloud Storage ou BigQuery Data Viewer ou BigQuery Editor para o BigQuery.
Permissões de geração de registros: a conta de serviço precisa ter um papel com as permissões necessárias para gravar registros no Cloud Logging, como o papel Logging Writer.