建立或更新 Dataproc on GKE 虛擬叢集時,您會指定一或多個節點集區,虛擬叢集會使用這些節點集區執行工作 (這個叢集稱為「由」指定節點集區「使用」或「與」指定節點集區「相關聯」的叢集)。如果指定的節點集區不存在於 GKE 叢集,Dataproc on GKE 會在 GKE 叢集上建立節點集區,並採用您指定的設定。如果節點集區存在且是由 Dataproc 建立,系統會驗證該節點集區,確認其設定符合指定設定。
Dataproc on GKE 節點集區設定
您可以在 Dataproc on GKE 虛擬叢集使用的節點集區上指定下列設定 (這些設定是 GKE 節點集區設定的子集):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
注意:
gpuPartitionSize
可在 Dataproc APIGkeNodePoolAcceleratorConfig
中設定。spot
可在 Dataproc API GkeNodeConfig 中設定。
刪除節點集區
刪除 Dataproc on GKE 叢集時,系統不會刪除叢集使用的節點集區。如要刪除 Dataproc on GKE 叢集不再使用的節點集區,請參閱「刪除節點集區」。
節點集區位置
建立或更新虛擬叢集時,您可以指定與 Dataproc on GKE 虛擬叢集相關聯的節點集區區域位置。節點集區區域必須位於相關聯虛擬叢集的區域中。
角色至節點集區的對應
節點集區會為 Spark 驅動程式和執行器工作定義角色,並為所有類型的工作定義預設角色。Dataproc on GKE 叢集必須至少有一個指派 default
角色的節點集區。您可以選擇是否要指派其他角色。
建議:為每個角色類型建立獨立的節點集區,並根據角色需求設定節點類型和大小。
gcloud CLI 虛擬叢集建立範例:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"