Créer un cluster Dataproc à échelle nulle

Ce document explique comment créer un cluster Dataproc à zéro nœud.

Les clusters Dataproc à zéro nœud offrent un moyen économique d'utiliser les clusters Dataproc. Contrairement aux clusters Dataproc standards qui nécessitent au moins deux nœuds de calcul principaux, les clusters Dataproc à scaling nul n'utilisent que des nœuds de calcul secondaires qui peuvent être réduits à zéro.

Les clusters Dataproc à zéro nœud de calcul sont idéaux pour une utilisation en tant que clusters de longue durée qui connaissent des périodes d'inactivité, comme un cluster qui héberge un notebook Jupiter. Elles permettent une meilleure utilisation des ressources grâce à des règles d'autoscaling à zéro échelle.

Caractéristiques et limites

Un cluster Dataproc à zéro nœud présente des similitudes avec un cluster standard, mais possède les caractéristiques et les limites uniques suivantes :

  • Nécessite la version 2.2.53 ou ultérieure de l'image.
  • Ne prend en charge que les nœuds de calcul secondaires, et non les nœuds de calcul principaux.
  • Inclut des services tels que YARN, mais n'est pas compatible avec le système de fichiers HDFS.

    • Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster core:fs.defaultFS sur un emplacement de bucket Cloud Storage (gs://BUCKET_NAME).
    • Si vous désactivez un composant lors de la création du cluster, désactivez également HDFS.
  • Ne peut pas être converti en cluster standard ni à partir d'un cluster standard.

  • Nécessite une règle d'autoscaling pour les types de clusters ZERO_SCALE.

  • Nécessite de sélectionner des VM flexibles comme type de machine.

  • Le composant Oozie n'est pas compatible.

  • Vous ne pouvez pas créer de magasin de caractéristiques à partir de la console Google Cloud .

Facultatif : Configurez une stratégie d'autoscaling.

Vous pouvez configurer une règle d'autoscaling pour définir la mise à l'échelle des nœuds de calcul secondaires pour un cluster à zéro nœud. Dans ce cas, tenez compte des points suivants :

  • Définissez le type de cluster sur ZERO_SCALE.
  • Configurez une règle d'autoscaling uniquement pour la configuration des nœuds de calcul secondaires.

Pour en savoir plus, consultez Créer une règle d'autoscaling.

Créer un cluster Dataproc à zéro nœud

Créez un cluster à zéro nœud à l'aide de la gcloud CLI ou de l'API Dataproc.

gcloud

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom du cluster Dataproc à zéro nœud.
  • REGION : région Compute Engine disponible.
  • AUTOSCALING_POLICY : ID ou URI de ressource de la règle de scaling automatique.
  • BUCKET_NAME : nom de votre bucket Cloud Storage.
  • MACHINE_TYPE : type de machine Compute Engine spécifique, tel que n1-standard-4, e2-standard-8.
  • RANK : définit la priorité d'une liste de types de machines.

REST

Créez un cluster à zéro nœud à l'aide d'une requête cluster.create de l'API REST Dataproc :

Étapes suivantes