Cluster Dataproc dibangun di instance Compute Engine. Jenis mesin menentukan resource hardware virtual yang tersedia untuk instance. Compute Engine menawarkan jenis mesin yang telah ditetapkan dan jenis mesin kustom. Cluster Dataproc dapat menggunakan jenis yang telah ditentukan dan kustom untuk node master dan/atau pekerja.
Cluster Dataproc mendukung jenis mesin standar Compute Engine berikut (ketersediaan jenis mesin bervariasi menurut region):
- Jenis mesin untuk tujuan umum,
yang mencakup jenis mesin N1, N2, N2D, E2, C3, C4, dan N4 (Dataproc
juga mendukung jenis mesin kustom N1, N2, N2D, E2, C3, C4, dan N4).
Batasan:
- Jenis mesin n1-standard-1 tidak didukung untuk image 2.0+ (jenis mesin n1-standard-1 tidak direkomendasikan untuk image pra-2.0—sebaiknya gunakan jenis mesin dengan memori yang lebih tinggi).
- Jenis mesin dengan inti bersama tidak didukung, yang
mencakup jenis mesin yang tidak didukung berikut:
- E2: Jenis mesin dengan inti bersama e2-micro, e2-small, dan e2-medium, serta
- N1: Jenis mesin dengan inti bersama f1-micro dan g1-small.
- Dataproc memilih
hyperdisk-balanced
sebagai jenis disk booting jika jenis mesinnya adalah C4 atau N4.
- Jenis mesin yang dioptimalkan untuk komputasi, yang mencakup jenis mesin C2 dan C2D.
- Jenis mesin yang dioptimalkan untuk memori, yang mencakup jenis mesin M1 dan M2.
- Jenis mesin ARM, yang mencakup jenis mesin C4A.
Jenis mesin kustom
Dataproc mendukung jenis mesin kustom seri N1.
Jenis mesin kustom ideal untuk beban kerja berikut:
- Workload yang tidak sesuai untuk jenis mesin yang telah ditetapkan.
- Workload yang memerlukan lebih banyak daya pemrosesan atau lebih banyak memori, tetapi tidak memerlukan semua upgrade yang disediakan oleh tingkat jenis mesin berikutnya.
Misalnya, jika Anda memiliki workload yang memerlukan daya pemrosesan lebih besar daripada yang disediakan oleh instance n1-standard-4
, tetapi langkah berikutnya, instance n1-standard-8
, menyediakan kapasitas yang terlalu besar. Dengan jenis mesin kustom, Anda dapat membuat cluster Dataproc dengan node master dan/atau pekerja dalam rentang menengah, dengan 6 CPU virtual dan memori 25 GB.
Menentukan jenis mesin kustom
Jenis mesin kustom menggunakan spesifikasi machine type
khusus dan tunduk pada batasan. Misalnya, spesifikasi jenis mesin kustom untuk VM kustom dengan 6 CPU virtual dan memori 22,5 GB adalah custom-6-23040
.
Angka dalam spesifikasi jenis mesin sesuai dengan jumlah CPU virtual (vCPU) dalam mesin (6
) dan jumlah memori (23040
). Jumlah memori dihitung dengan mengalikan jumlah memori dalam gigabyte dengan 1024
(lihat Menyatakan memori dalam GB atau MB). Dalam contoh ini, 22,5 (GB) dikalikan dengan 1024: 22.5 * 1024 = 23040
.
Anda menggunakan sintaksis di atas untuk menentukan jenis mesin kustom dengan cluster Anda. Anda dapat menetapkan jenis mesin untuk node master atau pekerja atau keduanya saat membuat cluster. Jika Anda menetapkan keduanya, node master dapat menggunakan jenis mesin kustom yang berbeda dengan jenis mesin kustom yang digunakan oleh pekerja. Jenis mesin yang digunakan oleh pekerja sekunder mengikuti setelan untuk pekerja utama dan tidak dapat disetel secara terpisah (lihat Pekerja sekunder - VM preemptible dan non-preemptible).
Harga jenis mesin kustom
Harga jenis mesin kustom didasarkan pada resource yang digunakan dalam mesin kustom. Harga Dataproc ditambahkan ke biaya resource komputasi, dan didasarkan pada jumlah total CPU virtual (vCPU) yang digunakan dalam cluster.
Membuat cluster Dataproc dengan jenis mesin yang ditentukan
Konsol
Dari panel Configure nodes di halaman Create a cluster Dataproc di konsol Google Cloud , pilih kelompok mesin, seri, dan jenis untuk master dan worker node cluster.
Perintah gcloud
Jalankan perintah gcloud dataproc clusters create dengan flag berikut untuk membuat cluster Dataproc dengan jenis mesin master dan/atau pekerja:
- Flag
--master-machine-type machine-type
memungkinkan Anda menetapkan jenis mesin standar atau kustom yang digunakan oleh instance VM master di cluster Anda (atau instance master jika Anda membuat cluster HA) - Dengan tanda
--worker-machine-type custom-machine-type
, Anda dapat menetapkan jenis mesin kustom atau bawaan yang digunakan oleh instance VM pekerja di cluster Anda
Contoh:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-6-23040 / --worker-machine-type custom-6-23040 / other args
... properties: distcp:mapreduce.map.java.opts: -Xmx1638m distcp:mapreduce.map.memory.mb: '2048' distcp:mapreduce.reduce.java.opts: -Xmx4915m distcp:mapreduce.reduce.memory.mb: '6144' mapred:mapreduce.map.cpu.vcores: '1' mapred:mapreduce.map.java.opts: -Xmx1638m ...
REST API
Untuk membuat cluster dengan jenis mesin kustom, tetapkan
machineTypeUri
di masterConfig
dan/atau workerConfig
InstanceGroupConfig
di
cluster.create
permintaan API.
Contoh:
POST /v1/projects/my-project-id/regions/is-central1/clusters/ { "projectId": "my-project-id", "clusterName": "test-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-a" }, "masterConfig": { "numInstances": 1, "machineTypeUri": "n1-highmem-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } }, "workerConfig": { "numInstances": 2, "machineTypeUri": "n1-highmem-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } } } }
Membuat cluster Dataproc dengan jenis mesin kustom dan memori yang diperluas
Dataproc mendukung jenis mesin kustom dengan memori tambahan di luar batas 6,5 GB per vCPU (lihat Harga Memori Tambahan).
Konsol
Klik Perluas memori saat menyesuaikan memori Jenis mesin di bagian Master node dan/atau Worker nodes dari panel Configure nodes di halaman Dataproc Create a cluster di konsol Google Cloud .

Perintah gcloud
Untuk membuat cluster dari command line gcloud dengan
CPU kustom dengan memori tambahan, tambahkan akhiran -ext
ke
‑‑master-machine-type
dan/atau
‑‑worker-machine-type
.
Contoh
Contoh command line gcloud berikut membuat cluster Dataproc dengan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-1-51200-ext / --worker-machine-type custom-1-51200-ext / other args
API
Cuplikan JSON contoh berikut <code.instancegroupconfig< code="" dir="ltr" translate="no"></code.instancegroupconfig<> dari permintaan clusters.create Dataproc REST API menentukan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
... "masterConfig": { "numInstances": 1, "machineTypeUri": "custom-1-51200-ext", ... }, "workerConfig": { "numInstances": 2, "machineTypeUri": "custom-1-51200-ext", ... ...
Jenis mesin ARM
Dataproc mendukung pembuatan cluster dengan node yang menggunakan jenis mesin ARM, seperti jenis mesin C4A.
Persyaratan dan batasan:
- Image Dataproc harus kompatibel dengan chipset ARM (saat ini, hanya image Dataproc 2.1-ubuntu20-arm yang kompatibel dengan CHIPSET ARM). Perhatikan bahwa image ini tidak mendukung banyak komponen opsional dan tindakan inisialisasi (lihat versi rilis 2.1.x).
- Karena satu image harus ditentukan untuk cluster, node master, pekerja, dan pekerja sekunder harus menggunakan jenis mesin ARM yang kompatibel dengan image ARM Dataproc yang dipilih.
- Fitur Dataproc yang tidak kompatibel dengan jenis mesin ARM tidak tersedia (misalnya, SSD lokal tidak didukung oleh jenis mesin C4A).
Membuat cluster Dataproc dengan jenis mesin ARM
Konsol
Saat ini, konsol tidak mendukung pembuatan cluster jenis mesin ARM Dataproc. Google Cloud
gcloud
Untuk membuat cluster Dataproc yang menggunakan jenis mesin ARM c4a-standard-4
, jalankan perintah gcloud
berikut secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create cluster-name \ --region=REGION \ --image-version=2.1-ubuntu20-arm \ --master-machine-type=c4a-standard-4 \ --worker-machine-type=c4a-standard-4
Catatan:
REGION: Region tempat cluster akan berada.
Image ARM tersedia mulai dari
2.1.18-ubuntu20-arm
.Lihat dokumentasi referensi gcloud dataproc clusters create untuk mengetahui informasi tentang flag command line tambahan yang dapat Anda gunakan untuk menyesuaikan cluster.
*-arm images
hanya mendukung komponen yang diinstal dan komponen opsional berikut yang tercantum di halaman versi rilis 2.1.x (2 komponen opsional 2.1 lainnya dan semua tindakan inisialisasi yang tercantum di halaman tersebut tidak didukung):- Apache Hive WebHCat
- Docker
- Zookeeper (diinstal di cluster HA; komponen opsional di cluster non-HA)
API
Contoh permintaan Dataproc REST API clusters.create berikut membuat cluster jenis mesin ARM.
POST /v1/projects/my-project-id/regions/is-central1/clusters/ { "projectId": "my-project-id", "clusterName": "sample-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-a" }, "masterConfig": { "numInstances": 1, "machineTypeUri": "c4a-standard-4", "diskConfig": { "bootDiskSizeGb": 500, } }, "workerConfig": { "numInstances": 2, "machineTypeUri": "c4a-standard-4", "diskConfig": { "bootDiskSizeGb": 500, "numLocalSsds": 0 } }, "softwareConfig": { "imageVersion": "2.1-ubuntu20-arm" } } }
Langkah berikutnya
- Pelajari lebih lanjut VM Arm di Compute Engine.
- Pelajari cara membuat VM dengan jenis mesin kustom.
- Pelajari cara membuat dan memulai instance Compute Engine.