Ce document explique comment créer un cluster Dataproc à zéro nœud.
Les clusters Dataproc à zéro nœud offrent un moyen économique d'utiliser les clusters Dataproc. Contrairement aux clusters Dataproc standards qui nécessitent au moins deux nœuds de calcul principaux, les clusters Dataproc à scaling nul n'utilisent que des nœuds de calcul secondaires qui peuvent être réduits à zéro.
Les clusters Dataproc à zéro nœud de calcul sont idéaux pour une utilisation en tant que clusters de longue durée qui connaissent des périodes d'inactivité, comme un cluster qui héberge un notebook Jupiter. Elles permettent une meilleure utilisation des ressources grâce à des règles d'autoscaling à zéro échelle.
Caractéristiques et limites
Un cluster Dataproc à zéro nœud présente des similitudes avec un cluster standard, mais possède les caractéristiques et les limites uniques suivantes :
- Nécessite la version
2.2.53
ou ultérieure de l'image. - Ne prend en charge que les nœuds de calcul secondaires, et non les nœuds de calcul principaux.
Inclut des services tels que YARN, mais n'est pas compatible avec le système de fichiers HDFS.
- Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster
core:fs.defaultFS
sur un emplacement de bucket Cloud Storage (gs://BUCKET_NAME
). - Si vous désactivez un composant lors de la création du cluster, désactivez également HDFS.
- Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster
Ne peut pas être converti en cluster standard ni à partir d'un cluster standard.
Nécessite une règle d'autoscaling pour les types de clusters
ZERO_SCALE
.Nécessite de sélectionner des VM flexibles comme type de machine.
Le composant Oozie n'est pas compatible.
Vous ne pouvez pas créer de magasin de caractéristiques à partir de la console Google Cloud .
Facultatif : Configurez une stratégie d'autoscaling.
Vous pouvez configurer une règle d'autoscaling pour définir la mise à l'échelle des nœuds de calcul secondaires pour un cluster à zéro nœud. Dans ce cas, tenez compte des points suivants :
- Définissez le type de cluster sur
ZERO_SCALE
. - Configurez une règle d'autoscaling uniquement pour la configuration des nœuds de calcul secondaires.
Pour en savoir plus, consultez Créer une règle d'autoscaling.
Créer un cluster Dataproc à zéro nœud
Créez un cluster à zéro nœud à l'aide de la gcloud CLI ou de l'API Dataproc.
gcloud
Exécutez la commande gcloud dataproc clusters create
en local dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
Remplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster Dataproc à zéro nœud.
- REGION : région Compute Engine disponible.
- AUTOSCALING_POLICY : ID ou URI de ressource de la règle de scaling automatique.
- BUCKET_NAME : nom de votre bucket Cloud Storage.
- MACHINE_TYPE : type de machine Compute Engine spécifique, tel que
n1-standard-4
,e2-standard-8
. - RANK : définit la priorité d'une liste de types de machines.
REST
Créez un cluster à zéro nœud à l'aide d'une requête cluster.create de l'API REST Dataproc :
- Définissez
ClusterConfig.ClusterType
poursecondaryWorkerConfig
surZERO_SCALE
. - Définissez
AutoscalingConfig.policyUri
avec l'ID de la règle d'autoscalingZERO_SCALE
. - Ajoutez
core:fs.defaultFS:gs://BUCKET_NAME
SoftwareConfig.property. Remplacez BUCKET_NAME par le nom de votre bucket Cloud Storage.
Étapes suivantes
- En savoir plus sur l'autoscaling Dataproc