適用於 GKE 節點集區的 Dataproc

建立更新 Dataproc on GKE 虛擬叢集時,您會指定一或多個節點集區,虛擬叢集會使用這些節點集區執行工作 (這個叢集稱為「由」指定節點集區「使用」或「與」指定節點集區「相關聯」的叢集)。如果指定的節點集區不存在於 GKE 叢集,Dataproc on GKE 會在 GKE 叢集上建立節點集區,並採用您指定的設定。如果節點集區存在且是由 Dataproc 建立,系統會驗證該節點集區,確認其設定符合指定設定。

Dataproc on GKE 節點集區設定

您可以在 Dataproc on GKE 虛擬叢集使用的節點集區上指定下列設定 (這些設定是 GKE 節點集區設定的子集):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

注意:

刪除節點集區

刪除 Dataproc on GKE 叢集時,系統不會刪除叢集使用的節點集區。如要刪除 Dataproc on GKE 叢集不再使用的節點集區,請參閱「刪除節點集區」。

節點集區位置

建立或更新虛擬叢集時,您可以指定與 Dataproc on GKE 虛擬叢集相關聯的節點集區區域位置。節點集區區域必須位於相關聯虛擬叢集的區域中。

角色至節點集區的對應

節點集區會為 Spark 驅動程式和執行器工作定義角色,並為所有類型的工作定義預設角色。Dataproc on GKE 叢集必須至少有一個指派 default 角色的節點集區。您可以選擇是否要指派其他角色。

建議:為每個角色類型建立獨立的節點集區,並根據角色需求設定節點類型和大小。

gcloud CLI 虛擬叢集建立範例:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"