如需作为启动磁盘的补充 本地固态硬盘(本地 SSD) 主节点、主要工作器节点和辅助工作器节点。 为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。
- 与永久性磁盘相比,本地 SSD 的读写速度更快 (请参阅本地 SSD 性能)。
- 每个本地固态硬盘的 375GB 大小是固定的,但您可以将多个本地固态硬盘挂接到 增加 SSD 存储空间(请参阅 本地 SSD 简介。
- 每个本地 SSD 都会装载到 Dataproc 集群节点中的
/mnt/<id>
。 - 本地 SSD 使用
ext4
作为默认文件系统
使用本地 SSD
gcloud 命令
将 gcloud dataproc clusters create 命令与 --num-master-local-ssds
、--num-workers-local-ssds
和 --num-secondary-worker-local-ssds
标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。
您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。
Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。使用
gcloud gclid clusters create
命令替换为 --master-local-ssd-interface
,
--worker-local-ssd-interface
和
--secondary-worker-local-ssd-interface
个标志
为主实例、主实例和辅助实例指定本地 SSD 接口
工作器节点数量。
示例:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
REST API
在 cluster.create API 请求的 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。
您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。
Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。将
localSsdInterface
字段(位于 masterConfig
、workerConfig
和
secondaryWorkerConfig
InstanceGroupConfig
以
cluster.create
指定“SCSI”的 API 请求或“NVME”用于将本地 SSD 连接到集群主服务器的接口;
主要工作器节点和辅助工作器节点。
控制台
创建集群并将本地 SSD 挂接到主实例。 主工作器节点和辅助工作器节点 Dataproc 创建集群页面 Google Cloud 控制台中