Membuat cluster skala nol Dataproc

Dokumen ini menjelaskan cara membuat cluster zero-scale Dataproc.

Cluster skala nol Dataproc memberikan cara yang hemat biaya untuk menggunakan cluster Dataproc. Tidak seperti cluster Dataproc standar yang memerlukan minimal dua pekerja utama, cluster zero-scale Dataproc hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.

Cluster skala nol Dataproc ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupiter. Kebijakan ini memberikan pemanfaatan resource yang lebih baik melalui penggunaan kebijakan penskalaan otomatis skala nol.

Karakteristik dan batasan

Cluster skala nol Dataproc memiliki kesamaan dengan cluster standar, tetapi memiliki karakteristik dan batasan unik berikut:

  • Memerlukan versi image 2.2.53 atau yang lebih baru.
  • Hanya mendukung pekerja sekunder, bukan pekerja utama.
  • Mencakup layanan seperti YARN, tetapi tidak mendukung sistem file HDFS.

    • Untuk menggunakan Cloud Storage sebagai sistem file default, tetapkan properti cluster core:fs.defaultFS ke lokasi bucket Cloud Storage (gs://BUCKET_NAME).
    • Jika Anda menonaktifkan komponen selama pembuatan cluster, nonaktifkan juga HDFS.
  • Tidak dapat dikonversi ke atau dari cluster standar.

  • Memerlukan kebijakan penskalaan otomatis untuk jenis cluster ZERO_SCALE.

  • Memerlukan pemilihan VM fleksibel sebagai jenis mesin.

  • Tidak mendukung komponen Oozie.

  • Tidak dapat dibuat dari konsol Google Cloud .

Opsional: Mengonfigurasi kebijakan penskalaan otomatis

Anda dapat mengonfigurasi kebijakan penskalaan otomatis untuk menentukan penskalaan pekerja sekunder untuk cluster skala nol. Saat melakukannya, perhatikan hal berikut:

  • Tetapkan jenis cluster ke ZERO_SCALE.
  • Konfigurasi kebijakan penskalaan otomatis hanya untuk konfigurasi pekerja sekunder.

Untuk mengetahui informasi selengkapnya, lihat Membuat kebijakan penskalaan otomatis.

Membuat cluster zero-scale Dataproc

Buat cluster skala nol menggunakan gcloud CLI atau Dataproc API.

gcloud

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster zero-scale Dataproc.
  • REGION: region Compute Engine yang tersedia.
  • AUTOSCALING_POLICY: ID atau URI resource kebijakan penskalaan otomatis.
  • BUCKET_NAME: nama bucket Cloud Storage Anda.
  • MACHINE_TYPE: jenis mesin Compute Engine tertentu, seperti n1-standard-4, e2-standard-8.
  • RANK: menentukan prioritas daftar jenis mesin.

REST

Buat cluster skala nol menggunakan Dataproc REST API cluster.create request:

Langkah berikutnya