Mise en cache du cluster

Lorsque vous activez le cache du cluster Dataproc, le cluster met en cache les données Cloud Storage auxquelles vos tâches Spark accèdent fréquemment.

Avantages

  • Amélioration des performances:la mise en cache peut améliorer les performances des tâches en réduisant le temps consacré à la récupération des données à partir du stockage.
  • Réduction des coûts de stockage:comme les données actives sont mises en cache sur le disque local, moins d'appels d'API sont effectués au niveau du stockage pour récupérer les données.

Limites et exigences

Activer la mise en cache du cluster

Vous pouvez activer le cache de cluster lorsque vous créez un cluster Dataproc à l'aide de la console Google Cloud, de Google Cloud CLI ou de l'API Dataproc.

Console Google Cloud

  • Ouvrez la page Dataproc Créer un cluster sur Compute Engine dans la console Google Cloud.
  • Le panneau Configurer un cluster est sélectionné. Dans la section Améliorations des performances de Spark, sélectionnez Activer le cache Google Cloud Storage.
  • Après avoir confirmé et spécifié les détails du cluster dans les panneaux de création de clusters, cliquez sur Créer.

CLI gcloud

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de cluster dataproc:dataproc.cluster.caching.enabled=true.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Définissez SoftwareConfig.properties pour inclure la propriété de cluster "dataproc:dataproc.cluster.caching.enabled": "true" dans le cadre d'une requête clusters.create.