Metadatos de clústeres

Dataproc establece valores especiales de metadatos para las instancias que se ejecutan en tu clúster:

Clave de metadatosValor
dataproc-bucketNombre del depósito de etapa de pruebas del clúster
dataproc-regionRegión del extremo del clúster
dataproc-worker-countNúmero de nodos trabajadores en el clúster. El valor es 0 para clústeres de un solo nodo.
dataproc-cluster-nameNombre del clúster
dataproc-cluster-uuidUUID del clúster
dataproc-roleFunción de la instancia, que puede ser Master o Worker
dataproc-masterNombre del host del primer nodo principal. El valor es [CLUSTER_NAME]-m en un clúster de nodo único o estándar, o [CLUSTER_NAME]-m-0 en un clúster de alta disponibilidad, en el cual [CLUSTER_NAME] es el nombre de tu clúster.
dataproc-master-additionalLista de nombres de host separados por comas para los nodos principales adicionales en un clúster de alta disponibilidad, por ejemplo, [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 en un clúster que tiene 3 nodos de instancias principales.
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URLEs la versión o la URL que apunta a una versión del conector de BigQuery de Spark para usar en aplicaciones de Spark, por ejemplo, 0.42.1 o gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar. Una versión predeterminada del conector de BigQuery de Spark está preinstalada en los clústeres de versiones de imágenes 2.1 y posteriores de Dataproc. Para obtener más información, consulta Cómo usar el conector de BigQuery de Spark.

Puedes usar estos valores para personalizar el comportamiento de las acciones de inicialización.

Puedes usar la marca --metadata en el comando gcloud dataproc clusters create para proporcionar tus propios metadatos:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...