Dataproc 本機 SSD

如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作者和次要工作者節點。當本機 SSD 提供給叢集時,HDFS 和暫存資料 (例如 Shuffle 輸出) 都會使用本機 SSD 而非啟動永久磁碟。

  • 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
  • 每個本機 SSD 的大小皆為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
  • 每個本機 SSD 都會掛載至 Dataproc 叢集節點的 /mnt/<id>
  • 本機 SSD 會使用 ext4 做為預設檔案系統。

使用本機 SSD

gcloud 指令

使用 gcloud dataproc clusters create 指令搭配 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 標記,將本機 SSD 附加至叢集的主要執行個體、主要和次要工作者節點。

您可以使用 SCSI (Small Computer System Interface) 或 NVME (Non-Volatile Memory Express) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。使用 gcloud dataproc clusters create 指令搭配 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 標記,為主要執行個體、主要工作者和次要工作者節點指定本機 SSD 介面。

範例:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 要求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中設定 numLocalSsds 欄位,即可將本機 SSD 連結至叢集的主要執行個體、主要工作者和次要工作者節點。

您可以使用 SCSI (Small Computer System Interface) 或 NVME (Non-Volatile Memory Express) 介面,將本機 SSD 連接至 Dataproc VM (請參閱「本機 SSD 效能」)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。在 cluster.create API 要求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中設定 localSsdInterface 欄位,指定「SCSI」或「NVME」介面,將本機 SSD 連接至叢集的主要執行個體、主要工作者和次要工作者節點。

控制台

在 Google Cloud 主控台的 Dataproc「Create a cluster」(建立叢集) 頁面「Configure nodes」(設定節點) 面板中建立叢集,並將本機 SSD 連結至主要執行個體、主要工作站和次要工作站節點。