叢集中繼資料

Dataproc 會為叢集中執行的執行個體設定特殊中繼資料值:

中繼資料鍵
dataproc-bucket叢集暫存值區名稱
dataproc-region叢集端點所在地區
dataproc-worker-count叢集中的工作站節點數。值 0 表示單一節點叢集
dataproc-cluster-name叢集名稱
dataproc-cluster-uuid叢集的 UUID
dataproc-role執行個體的角色:MasterWorker
dataproc-master第一個主要節點的主機名稱。在標準或單一節點叢集中,值為 [CLUSTER_NAME]-m;在高可用性叢集中,值為 [CLUSTER_NAME]-m-0,其中 [CLUSTER_NAME] 是叢集名稱。
dataproc-master-additional高可用性叢集中其他主要節點的逗號分隔主機名稱清單,例如在有 3 個主要節點的叢集中,其他主要節點的主機名稱清單為 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL版本或網址,指向要在 Spark 應用程式中使用的 Spark BigQuery 連接器版本,例如 0.42.1gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar。在 Dataproc 2.1 及更新版本的映像檔叢集中,預先安裝預設的 Spark BigQuery 連接器版本。詳情請參閱「使用 Spark BigQuery 連接器」。

您可以使用這些值自訂初始化動作的行為。

您可以在 gcloud dataproc clusters create 指令中使用 --metadata 標記,提供您自己的中繼資料:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...