集群元数据

Dataproc 会为集群中运行的实例设置特殊元数据值:

元数据键
dataproc-bucket集群的暂存存储分区的名称
dataproc-region集群端点所在的区域
dataproc-worker-count集群中的工作器节点数。对于单节点集群,值为 0
dataproc-cluster-name集群的名称
dataproc-cluster-uuid集群的 UUID
dataproc-role实例的角色(MasterWorker
dataproc-master第一个主节点的主机名。该值为 [CLUSTER_NAME]-m(在标准或单个节点集群中)或 [CLUSTER_NAME]-m-0(在高可用性集群中),其中 [CLUSTER_NAME] 是您的集群名称。
dataproc-master-additional高可用性集群中其他主节点的主机名列表(用英文逗号分隔),例如具有 3 个主节点的集群中的 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL指向 Spark 应用中要使用的 Spark BigQuery 连接器版本的版本或网址,例如 0.42.1gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar。默认的 Spark BigQuery 连接器版本已预安装在 Dataproc 2.1 及更高版本的映像版本集群中。如需了解详情,请参阅使用 Spark BigQuery 连接器

您可以使用这些值来自定义初始化操作的行为。

您可以使用 gcloud dataproc clusters create 命令中的 --metadata 标志来提供自己的元数据:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...