Dokumen ini menjelaskan cara membuat cluster skala nol Dataproc.
Cluster skala nol Dataproc memberikan cara yang hemat biaya untuk menggunakan cluster Dataproc. Tidak seperti cluster Dataproc standar yang memerlukan minimal dua pekerja utama, cluster skala nol Dataproc hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.
Cluster skala nol Dataproc ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupiter. Kebijakan ini memberikan peningkatan penggunaan resource melalui penggunaan kebijakan penskalaan otomatis skala nol.
Karakteristik dan batasan
Cluster skala nol Dataproc memiliki kesamaan dengan cluster standar, tetapi memiliki karakteristik dan batasan unik berikut:
- Memerlukan versi image
2.2.53
atau yang lebih baru. - Hanya mendukung pekerja sekunder, bukan pekerja utama.
Mencakup layanan seperti YARN, tetapi tidak mendukung sistem file HDFS.
- Untuk menggunakan Cloud Storage sebagai sistem file default, tetapkan properti cluster
core:fs.defaultFS
ke lokasi bucket Cloud Storage (gs://BUCKET_NAME
). - Jika Anda menonaktifkan komponen selama pembuatan cluster, nonaktifkan juga HDFS.
- Untuk menggunakan Cloud Storage sebagai sistem file default, tetapkan properti cluster
Tidak dapat dikonversi ke atau dari cluster standar.
Memerlukan kebijakan penskalaan otomatis untuk jenis cluster
ZERO_SCALE
.Memerlukan pemilihan VM fleksibel sebagai jenis mesin.
Tidak mendukung komponen Oozie.
Tidak dapat dibuat dari konsol Google Cloud .
Opsional: Mengonfigurasi kebijakan penskalaan otomatis
Anda dapat mengonfigurasi kebijakan penskalaan otomatis untuk menentukan penskalaan kerja sekunder untuk cluster skala nol. Saat melakukannya, perhatikan hal berikut:
- Tetapkan jenis cluster ke
ZERO_SCALE
. - Konfigurasikan kebijakan penskalaan otomatis hanya ke konfigurasi pekerja sekunder.
Untuk mengetahui informasi selengkapnya, lihat Membuat kebijakan penskalaan otomatis.
Membuat cluster skala nol Dataproc
Buat cluster skala nol menggunakan gcloud CLI atau Dataproc API.
gcloud
Jalankan perintah gcloud dataproc clusters create
secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
Ganti kode berikut:
- CLUSTER_NAME: nama cluster skala nol Dataproc.
- REGION: Region Compute Engine yang tersedia.
- AUTOSCALING_POLICY: ID atau URI resource dari kebijakan penskalaan otomatis.
- BUCKET_NAME: nama bucket Cloud Storage Anda.
- MACHINE_TYPE: jenis mesin Compute Engine
tertentu, seperti
n1-standard-4
,e2-standard-8
. - RANK: menentukan prioritas daftar jenis mesin.
REST
Buat cluster skala nol menggunakan permintaan cluster.create Dataproc REST API:
- Tetapkan
ClusterConfig.ClusterType
untuksecondaryWorkerConfig
keZERO_SCALE
. - Tetapkan
AutoscalingConfig.policyUri
dengan ID kebijakan penskalaan otomatisZERO_SCALE
. - Tambahkan
core:fs.defaultFS:gs://BUCKET_NAME
SoftwareConfig.property. Ganti BUCKET_NAME dengan nama bucket Cloud Storage Anda.
Langkah berikutnya
- Pelajari Penskalaan otomatis Dataproc lebih lanjut.