Quando você ativa o cache de cluster do Dataproc, o cluster armazena em cache os dados do Cloud Storage acessados com frequência pelos jobs do Spark.
Vantagens
- Melhoria na performance:o armazenamento em cache pode melhorar a performance do job ao reduzir o tempo gasto para recuperar dados do armazenamento.
- Custos de armazenamento reduzidos:como os dados ativos são armazenados em cache no disco local, menos chamadas de API são feitas para o armazenamento para recuperar dados.
- Aplicabilidade do job do Spark: quando o cache de cluster está ativado em um cluster, ele se aplica a todos os jobs do Spark executados no cluster, sejam eles enviados ao serviço do Dataproc ou executados de forma independente no cluster.
Limitações e requisitos
- O armazenamento em cache se aplica apenas a jobs do Spark do Dataproc.
- Somente os dados do Cloud Storage são armazenados em cache.
- O armazenamento em cache só se aplica a clusters que atendem aos seguintes requisitos:
- O cluster tem um mestre e
n
workers. Os clusters de alta disponibilidade (HA) e de nó único não são compatíveis. - Esse recurso está disponível nas versões de imagem
2.0.72+
,2.1.20+
e2.2.0+
do Dataproc no Compute Engine. - Cada nó de cluster precisa ter SSDs locais anexados com a interface NVME (Non-Volatile Memory Express). Discos permanentes (PDs, na sigla em inglês) não são compatíveis. Os dados são armazenados em cache apenas em SSDs locais NVME.
- O cluster usa a conta de serviço padrão da VM para autenticação. Contas de serviço de VM personalizadas não são compatíveis.
- O cluster tem um mestre e
Ativar o armazenamento em cache de cluster
É possível ativar o cache de cluster ao criar um cluster do Dataproc usando o Google Cloud console, a Google Cloud CLI ou a API Dataproc.
Google Cloud console
- Abra a página Criar um cluster no Compute Engine do Dataproc no console do Google Cloud .
- O painel Configurar cluster está selecionado. Na seção Melhorias de desempenho do Spark, selecione Ativar o armazenamento em cache do Google Cloud Storage.
- Depois de confirmar e especificar os detalhes do cluster nos painéis de criação, clique em Criar.
CLI da gcloud
Execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell usando a propriedade do cluster dataproc:dataproc.cluster.caching.enabled=true
.
Exemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Defina SoftwareConfig.properties para incluir a propriedade do cluster "dataproc:dataproc.cluster.caching.enabled": "true"
como parte de uma solicitação clusters.create.