Jenis mesin yang didukung

Cluster Dataproc dibangun di instance Compute Engine. Jenis mesin menentukan resource hardware virtual yang tersedia untuk instance. Compute Engine menawarkan jenis mesin yang telah ditetapkan dan jenis mesin kustom. Cluster Dataproc dapat menggunakan jenis yang telah ditentukan dan kustom untuk node master dan/atau pekerja.

Cluster Dataproc mendukung jenis mesin standar Compute Engine berikut (ketersediaan jenis mesin bervariasi menurut region):

  • Jenis mesin untuk tujuan umum, yang mencakup jenis mesin N1, N2, N2D, E2, C3, C4, dan N4 (Dataproc juga mendukung jenis mesin kustom N1, N2, N2D, E2, C3, C4, dan N4).

    Batasan:

    • Jenis mesin n1-standard-1 tidak didukung untuk image 2.0+ (jenis mesin n1-standard-1 tidak direkomendasikan untuk image pra-2.0—sebaiknya gunakan jenis mesin dengan memori yang lebih tinggi).
    • Jenis mesin dengan inti bersama tidak didukung, yang mencakup jenis mesin yang tidak didukung berikut:
      • E2: Jenis mesin dengan inti bersama e2-micro, e2-small, dan e2-medium, serta
      • N1: Jenis mesin dengan inti bersama f1-micro dan g1-small.
    • Dataproc memilih hyperdisk-balanced sebagai jenis disk booting jika jenis mesinnya adalah C4 atau N4.
  • Jenis mesin yang dioptimalkan untuk komputasi, yang mencakup jenis mesin C2 dan C2D.
  • Jenis mesin yang dioptimalkan untuk memori, yang mencakup jenis mesin M1 dan M2.
  • Jenis mesin ARM, yang mencakup jenis mesin C4A.

Jenis mesin kustom

Dataproc mendukung jenis mesin kustom seri N1.

Jenis mesin kustom ideal untuk beban kerja berikut:

  • Workload yang tidak sesuai untuk jenis mesin yang telah ditetapkan.
  • Workload yang memerlukan lebih banyak daya pemrosesan atau lebih banyak memori, tetapi tidak memerlukan semua upgrade yang disediakan oleh tingkat jenis mesin berikutnya.

Misalnya, jika Anda memiliki workload yang memerlukan daya pemrosesan lebih besar daripada yang disediakan oleh instance n1-standard-4, tetapi langkah berikutnya, instance n1-standard-8, menyediakan kapasitas yang terlalu besar. Dengan jenis mesin kustom, Anda dapat membuat cluster Dataproc dengan node master dan/atau pekerja dalam rentang menengah, dengan 6 CPU virtual dan memori 25 GB.

Menentukan jenis mesin kustom

Jenis mesin kustom menggunakan spesifikasi machine type khusus dan tunduk pada batasan. Misalnya, spesifikasi jenis mesin kustom untuk VM kustom dengan 6 CPU virtual dan memori 22,5 GB adalah custom-6-23040.

Angka dalam spesifikasi jenis mesin sesuai dengan jumlah CPU virtual (vCPU) dalam mesin (6) dan jumlah memori (23040). Jumlah memori dihitung dengan mengalikan jumlah memori dalam gigabyte dengan 1024 (lihat Menyatakan memori dalam GB atau MB). Dalam contoh ini, 22,5 (GB) dikalikan dengan 1024: 22.5 * 1024 = 23040.

Anda menggunakan sintaksis di atas untuk menentukan jenis mesin kustom dengan cluster Anda. Anda dapat menetapkan jenis mesin untuk node master atau pekerja atau keduanya saat membuat cluster. Jika Anda menetapkan keduanya, node master dapat menggunakan jenis mesin kustom yang berbeda dengan jenis mesin kustom yang digunakan oleh pekerja. Jenis mesin yang digunakan oleh pekerja sekunder mengikuti setelan untuk pekerja utama dan tidak dapat disetel secara terpisah (lihat Pekerja sekunder - VM preemptible dan non-preemptible).

Harga jenis mesin kustom

Harga jenis mesin kustom didasarkan pada resource yang digunakan dalam mesin kustom. Harga Dataproc ditambahkan ke biaya resource komputasi, dan didasarkan pada jumlah total CPU virtual (vCPU) yang digunakan dalam cluster.

Membuat cluster Dataproc dengan jenis mesin yang ditentukan

Konsol

Dari panel Configure nodes di halaman Create a cluster Dataproc di konsol Google Cloud , pilih kelompok mesin, seri, dan jenis untuk master dan worker node cluster.

Perintah gcloud

Jalankan perintah gcloud dataproc clusters create dengan flag berikut untuk membuat cluster Dataproc dengan jenis mesin master dan/atau pekerja:

  • Flag --master-machine-type machine-type memungkinkan Anda menetapkan jenis mesin standar atau kustom yang digunakan oleh instance VM master di cluster Anda (atau instance master jika Anda membuat cluster HA)
  • Dengan tanda --worker-machine-type custom-machine-type, Anda dapat menetapkan jenis mesin kustom atau bawaan yang digunakan oleh instance VM pekerja di cluster Anda

Contoh:

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-6-23040 /
    --worker-machine-type custom-6-23040 /
    other args
Setelah cluster Dataproc dimulai, detail cluster akan ditampilkan di jendela terminal. Berikut adalah contoh sebagian listingan properti cluster yang ditampilkan di jendela terminal:
...
properties:
  distcp:mapreduce.map.java.opts: -Xmx1638m
  distcp:mapreduce.map.memory.mb: '2048'
  distcp:mapreduce.reduce.java.opts: -Xmx4915m
  distcp:mapreduce.reduce.memory.mb: '6144'
  mapred:mapreduce.map.cpu.vcores: '1'
  mapred:mapreduce.map.java.opts: -Xmx1638m
...

REST API

Untuk membuat cluster dengan jenis mesin kustom, tetapkan machineTypeUri di masterConfig dan/atau workerConfig InstanceGroupConfig di cluster.create permintaan API.

Contoh:

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "test-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

Membuat cluster Dataproc dengan jenis mesin kustom dan memori yang diperluas

Dataproc mendukung jenis mesin kustom dengan memori tambahan di luar batas 6,5 GB per vCPU (lihat Harga Memori Tambahan).

Konsol

Klik Perluas memori saat menyesuaikan memori Jenis mesin di bagian Master node dan/atau Worker nodes dari panel Configure nodes di halaman Dataproc Create a cluster di konsol Google Cloud .

Perintah gcloud

Untuk membuat cluster dari command line gcloud dengan CPU kustom dengan memori tambahan, tambahkan akhiran -ext ke ‑‑master-machine-type dan/atau ‑‑worker-machine-type.

Contoh

Contoh command line gcloud berikut membuat cluster Dataproc dengan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-1-51200-ext /
    --worker-machine-type custom-1-51200-ext /
    other args

API

Cuplikan JSON contoh berikut <code.instancegroupconfig< code="" dir="ltr" translate="no"></code.instancegroupconfig<> dari permintaan clusters.create Dataproc REST API menentukan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:

...
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "custom-1-51200-ext",
    ...
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "custom-1-51200-ext",
     ...
...

Jenis mesin ARM

Dataproc mendukung pembuatan cluster dengan node yang menggunakan jenis mesin ARM, seperti jenis mesin C4A.

Persyaratan dan batasan:

  • Image Dataproc harus kompatibel dengan chipset ARM (saat ini, hanya image Dataproc 2.1-ubuntu20-arm yang kompatibel dengan CHIPSET ARM). Perhatikan bahwa image ini tidak mendukung banyak komponen opsional dan tindakan inisialisasi (lihat versi rilis 2.1.x).
  • Karena satu image harus ditentukan untuk cluster, node master, pekerja, dan pekerja sekunder harus menggunakan jenis mesin ARM yang kompatibel dengan image ARM Dataproc yang dipilih.
  • Fitur Dataproc yang tidak kompatibel dengan jenis mesin ARM tidak tersedia (misalnya, SSD lokal tidak didukung oleh jenis mesin C4A).

Membuat cluster Dataproc dengan jenis mesin ARM

Konsol

Saat ini, konsol tidak mendukung pembuatan cluster jenis mesin ARM Dataproc. Google Cloud

gcloud

Untuk membuat cluster Dataproc yang menggunakan jenis mesin ARM c4a-standard-4, jalankan perintah gcloud berikut secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create cluster-name \
    --region=REGION \
    --image-version=2.1-ubuntu20-arm \
    --master-machine-type=c4a-standard-4 \
    --worker-machine-type=c4a-standard-4

Catatan:

  • REGION: Region tempat cluster akan berada.

  • Image ARM tersedia mulai dari 2.1.18-ubuntu20-arm.

  • Lihat dokumentasi referensi gcloud dataproc clusters create untuk mengetahui informasi tentang flag command line tambahan yang dapat Anda gunakan untuk menyesuaikan cluster.

  • *-arm images hanya mendukung komponen yang diinstal dan komponen opsional berikut yang tercantum di halaman versi rilis 2.1.x (2 komponen opsional 2.1 lainnya dan semua tindakan inisialisasi yang tercantum di halaman tersebut tidak didukung):

    • Apache Hive WebHCat
    • Docker
    • Zookeeper (diinstal di cluster HA; komponen opsional di cluster non-HA)

API

Contoh permintaan Dataproc REST API clusters.create berikut membuat cluster jenis mesin ARM.

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "sample-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "c4a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "c4a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "softwareConfig": {
      "imageVersion": "2.1-ubuntu20-arm"
    }
  }
}

Langkah berikutnya