如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作者和次要工作者節點。當本機 SSD 提供給叢集時,HDFS 和暫存資料 (例如 Shuffle 輸出) 都會使用本機 SSD 而非啟動永久磁碟。
- 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
- 每個本機 SSD 的大小皆為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
- 每個本機 SSD 都會掛載至 Dataproc 叢集節點的
/mnt/<id>
。 - 本機 SSD 會使用
ext4
做為預設檔案系統。
使用本機 SSD
gcloud 指令
使用 gcloud dataproc clusters create
指令搭配 --num-master-local-ssds
、--num-workers-local-ssds
和 --num-secondary-worker-local-ssds
標記,將本機 SSD 附加至叢集的主要執行個體、主要和次要工作者節點。
您可以使用 SCSI (Small Computer System Interface) 或 NVME (Non-Volatile Memory Express) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。使用 gcloud dataproc clusters create 指令搭配 --master-local-ssd-interface
、--worker-local-ssd-interface
和 --secondary-worker-local-ssd-interface
標記,為主要執行個體、主要工作者和次要工作者節點指定本機 SSD 介面。
範例:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
REST API
在 cluster.create API 要求的 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中設定 numLocalSsds 欄位,即可將本機 SSD 連結至叢集的主要執行個體、主要工作者和次要工作者節點。
您可以使用 SCSI (Small Computer System Interface) 或 NVME (Non-Volatile Memory Express) 介面,將本機 SSD 連接至 Dataproc VM (請參閱「本機 SSD 效能」)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。在 cluster.create API 要求的 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中設定 localSsdInterface 欄位,指定「SCSI」或「NVME」介面,將本機 SSD 連接至叢集的主要執行個體、主要工作者和次要工作者節點。
控制台
在 Google Cloud 主控台的 Dataproc「Create a cluster」(建立叢集) 頁面「Configure nodes」(設定節點) 面板中建立叢集,並將本機 SSD 連結至主要執行個體、主要工作站和次要工作站節點。