Interromper e iniciar clusters do Dataproc

Depois de criar um cluster, será possível interrompê-lo e reiniciá-lo quando precisar dele. A interrupção de um cluster inativo evita a cobrança e evita ter de excluir um cluster inativo e criar um cluster com a mesma configuração posteriormente.

Observações:

  • O recurso de iniciar e parar o cluster está disponível em clusters criados com imagens lançadas nas seguintes versões ou depois delas:
    • 1.4.35-debian10/ubuntu18
    • 1.5.10-debian10/ubuntu18
    • 2.0.0-RC6-debian10/ubuntu18
  • Não é recomendável interromper os nós de cluster individuais porque o status de uma VM interrompida talvez não esteja sincronizado com o status do cluster e isso resulta em erros.

Como interromper um cluster

A interrupção de um cluster interrompe todas as VMs do cluster do Compute Engine. Você não paga pelas VMs enquanto elas estão interrompidas. No entanto, você continuará pagando por todos os recursos de cluster associados, como discos permanentes.

Observações:

  • Operações em execução:se um cluster tiver operações em execução, como de atualização ou diagnóstico, a solicitação de interrupção vai falhar.
  • Jobs em execução:se um cluster tiver jobs em execução, a solicitação de interrupção será bem-sucedida: as VMs serão interrompidas e os jobs em execução vão falhar.
  • Resposta de interrupção:quando a solicitação de interrupção retorna uma operação de interrupção, o cluster fica no estado STOPPING, e nenhum outro job pode ser enviado. As solicitações SubmitJob falham.
  • Escalonamento automático: quando você para um cluster com escalonamento automático ativado, o escalonador automático do Dataproc interrompe o escalonamento do cluster. Ele retoma esse escalonamento após a reinicialização do cluster. Quando o escalonamento automático está ativado em um cluster interrompido, a política de escalonamento automático entra em vigor quando o cluster é reiniciado.

Como monitorar a operação de interrupção

É possível executar gcloud dataproc operations describe operation-id para monitorar a operação de interrupção de cluster de longa duração. Use o comando gcloud dataproc clusters describe cluster-name para monitorar a transição do status do cluster de RUNNING para STOPPING para STOPPED.

Limitações

Como iniciar um cluster

  • Quando você reinicia um cluster interrompido, nenhuma ação de inicialização é executada novamente. As ações de inicialização são executadas apenas em nós do cluster quando ele é criado ou quando os nós são adicionados durante o escalonamento.

  • Após a conclusão da operação de início, será possível enviar jobs imediatamente ao cluster. No entanto, a execução dos jobs pode ser atrasada (aproximadamente 30 segundos) para permitir que o HDFS e o YARN entrem em operação.

Como interromper e iniciar um cluster

É possível parar e iniciar um cluster usando o console Google Cloud , a CLI gcloud ou a API Dataproc.

Google Cloud console

Clique no nome do cluster na página Clusters do Dataproc, no Google Cloud console e clique em PARAR para interromper o cluster e em INICIAR para iniciar.

CLI da gcloud

Interromper um cluster

gcloud dataproc clusters stop CLUSTER_NAME \
    --region=REGION

Iniciar um cluster

gcloud dataproc clusters start CLUSTER_NAME \
    --region=REGION

API REST

Interromper um cluster

Envie uma solicitação clusters.stop.

Iniciar um cluster

Envie uma solicitação clusters.start.