Metadatos de clústeres

Dataproc establece valores especiales de metadatos para las instancias que se ejecutan en tu clúster:

Clave de metadatosValor
dataproc-bucketNombre del depósito de etapa de pruebas del clúster
dataproc-regionRegión del extremo del clúster
dataproc-worker-countNúmero de nodos trabajadores en el clúster. El valor es 0 para clústeres de un solo nodo.
dataproc-cluster-nameNombre del clúster
dataproc-cluster-uuidUUID del clúster
dataproc-roleFunción de la instancia, que puede ser Master o Worker
dataproc-masterNombre del host del primer nodo principal. El valor es [CLUSTER_NAME]-m en un clúster de nodo único o estándar, o [CLUSTER_NAME]-m-0 en un clúster de alta disponibilidad, en el cual [CLUSTER_NAME] es el nombre de tu clúster.
dataproc-master-additionalLista de nombres de host separados por comas para los nodos principales adicionales en un clúster de alta disponibilidad, por ejemplo, [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 en un clúster que tiene 3 nodos de instancias principales.
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URLEs la versión o URL que apunta a una versión del conector de BigQuery para Spark que se usará en las aplicaciones de Spark, por ejemplo, 0.42.1 o gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar. En los clústeres de Dataproc con la versión de imagen 2.1 y posteriores, se preinstala una versión predeterminada del conector de Spark BigQuery. Para obtener más información, consulta Usa el conector de BigQuery para Spark.

Puedes usar estos valores para personalizar el comportamiento de las acciones de inicialización.

Puedes usar la marca --metadata en el comando gcloud dataproc clusters create para proporcionar tus propios metadatos:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...