Membuat cluster skala nol Dataproc

Dokumen ini menjelaskan cara membuat cluster skala nol Dataproc.

Cluster skala nol Dataproc memberikan cara yang hemat biaya untuk menggunakan cluster Dataproc. Tidak seperti cluster Dataproc standar yang memerlukan minimal dua pekerja utama, cluster skala nol Dataproc hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.

Cluster skala nol Dataproc ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupiter. Kebijakan ini memberikan peningkatan penggunaan resource melalui penggunaan kebijakan penskalaan otomatis skala nol.

Karakteristik dan batasan

Cluster skala nol Dataproc memiliki kesamaan dengan cluster standar, tetapi memiliki karakteristik dan batasan unik berikut:

  • Memerlukan versi image 2.2.53 atau yang lebih baru.
  • Hanya mendukung pekerja sekunder, bukan pekerja utama.
  • Mencakup layanan seperti YARN, tetapi tidak mendukung sistem file HDFS.

    • Untuk menggunakan Cloud Storage sebagai sistem file default, tetapkan properti cluster core:fs.defaultFS ke lokasi bucket Cloud Storage (gs://BUCKET_NAME).
    • Jika Anda menonaktifkan komponen selama pembuatan cluster, nonaktifkan juga HDFS.
  • Tidak dapat dikonversi ke atau dari cluster standar.

  • Memerlukan kebijakan penskalaan otomatis untuk jenis cluster ZERO_SCALE.

  • Memerlukan pemilihan VM fleksibel sebagai jenis mesin.

  • Tidak mendukung komponen Oozie.

  • Tidak dapat dibuat dari konsol Google Cloud .

Opsional: Mengonfigurasi kebijakan penskalaan otomatis

Anda dapat mengonfigurasi kebijakan penskalaan otomatis untuk menentukan penskalaan kerja sekunder untuk cluster skala nol. Saat melakukannya, perhatikan hal berikut:

  • Tetapkan jenis cluster ke ZERO_SCALE.
  • Konfigurasikan kebijakan penskalaan otomatis hanya ke konfigurasi pekerja sekunder.

Untuk mengetahui informasi selengkapnya, lihat Membuat kebijakan penskalaan otomatis.

Membuat cluster skala nol Dataproc

Buat cluster skala nol menggunakan gcloud CLI atau Dataproc API.

gcloud

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster skala nol Dataproc.
  • REGION: Region Compute Engine yang tersedia.
  • AUTOSCALING_POLICY: ID atau URI resource dari kebijakan penskalaan otomatis.
  • BUCKET_NAME: nama bucket Cloud Storage Anda.
  • MACHINE_TYPE: jenis mesin Compute Engine tertentu, seperti n1-standard-4, e2-standard-8.
  • RANK: menentukan prioritas daftar jenis mesin.

REST

Buat cluster skala nol menggunakan permintaan cluster.create Dataproc REST API:

Langkah berikutnya