Dataproc menggunakan image untuk mengikat konektor yang berguna dan komponen Apache Spark & Apache Hadoop menjadi satu paket yang dapat di-deploy di cluster Dataproc. Google Cloud Image ini berisi sistem operasi dasar (Debian atau Ubuntu) untuk cluster, beserta komponen inti dan opsional yang diperlukan untuk menjalankan tugas, seperti Spark, Hadoop, dan Hive. Image ini diupgrade secara berkala untuk menyertakan peningkatan dan fitur baru. Dengan pembuatan versi Dataproc, Anda dapat memilih kumpulan versi software saat membuat cluster.
Cara kerja pembuatan versi
Saat dibuat, gambar diberi nomor versi gambar dalam format berikut:
version_major.version_minor.version_sub_minor-os_distribution
Distribusi OS berikut dipertahankan:
Kode Distribusi OS | Distribusi OS |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
Lihat versi gambar lama untuk distribusi OS yang didukung sebelumnya.
Praktik yang direkomendasikan adalah menentukan versi image major.minor
untuk lingkungan produksi atau saat kompatibilitas dengan versi komponen tertentu penting. Distribusi subminor dan OS otomatis
disetel ke rilis mingguan terbaru.
Pilih versi
Saat Anda membuat cluster Dataproc baru, versi image Debian terbaru yang tersedia akan digunakan secara default. Anda dapat memilih versi image Debian, Rocky Linux, atau Ubuntu saat membuat cluster (lihat daftar versi image Dataproc).
Saat menentukan image berbasis Debian, Anda dapat menghilangkan akhiran Kode Distribusi OS, misalnya dengan menentukan 2.0
untuk memilih image 2.0-debian10
.
Sufiks OS harus digunakan untuk memilih image berbasis Rocky Linux atau
Ubuntu, misalnya dengan menentukan 2.0-ubuntu18
.
Perintah gcloud
Saat menggunakan perintah gcloud dataproc clusters create
, Anda dapat menggunakan argumen --image-version
untuk menentukan versi image bagi cluster baru.
Contoh image Debian:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Contoh image Ubuntu:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
Praktik terbaiknya adalah menghilangkan versi subminor sehingga versi subminor terbaru digunakan. Namun, jika perlu, versi subminor dapat ditentukan,
misalnya, 2.0.20
.
Anda dapat memeriksa versi saat ini dengan Google Cloud CLI.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
REST API
Anda dapat menentukan kolom SoftwareConfig
imageVersion
sebagai bagian dari
permintaan API cluster.create.
Contoh
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
Konsol
Buka halaman Dataproc Create a cluster. Panel Set up cluster dipilih. Kolom Jenis image dan Versi di bagian Pembuatan versi menampilkan image yang akan digunakan saat membuat cluster. Tanggal rilis gambar juga ditampilkan. Awalnya, gambar default, versi Debian terbaru yang tersedia, ditampilkan sebagai yang dipilih. Klik Ubah untuk menampilkan daftar gambar yang tersedia. Anda dapat memilih image standar atau kustom untuk digunakan di cluster Anda.
Saat versi baru dibuat
Versi utama baru dibuat secara berkala untuk menggabungkan satu atau beberapa hal berikut:
- Rilis utama untuk:
- Spark, Hadoop, dan komponen Big Data lainnya
- Google Cloud konektor
- Perubahan atau update besar pada fungsi Dataproc
Versi pratinjau baru (dengan akhiran -RC
) dirilis sebelum rilis
versi utama baru:
- Gambar pratinjau tidak ditujukan untuk digunakan dalam beban kerja produksi.
- Versi komponen gambar pratinjau dapat diupgrade ke versi komponen terbaru yang tersedia dalam versi gambar GA pasca-pratinjau.
Versi kecil baru dibuat secara berkala untuk menggabungkan satu atau beberapa hal berikut:
- Rilis dan update minor untuk:
- Spark, Hadoop, dan komponen Big Data lainnya
- Google Cloud konektor
- Perubahan atau update kecil pada fungsi Dataproc
Saat versi minor baru dibuat, image Debian-nya akan menjadi default untuk versi utama, dan merepresentasikan rilis terbaru versi utama.
Versi subminor baru dibuat secara berkala untuk menggabungkan satu atau beberapa hal berikut:
- Patch atau perbaikan untuk komponen dalam gambar
- Upgrade versi subminor komponen
Versi image dan dukungan Dataproc
Versi image minor didukung selama 24 bulan setelah rilis GA (Ketersediaan Umum) awal. Selama periode ini, cluster yang menggunakan versi image ini memenuhi syarat untuk mendapatkan dukungan (untuk menerima perbaikan, buat ulang cluster Anda menggunakan versi image subminor terbaru yang didukung). Setelah periode dukungan berakhir, cluster yang menggunakan versi image tersebut tidak memenuhi syarat untuk mendapatkan dukungan.
Versi gambar lama
Distribusi OS yang sebelumnya didukung
Distribusi OS berikut sebelumnya didukung:
Kode Distribusi OS | Distribusi OS | Patch Terakhir (Akhir dukungan) |
---|---|---|
debian9 | Debian 9 | 10 Juli 2020 |
deb8 | Debian 8 | 26 Oktober 2018 |
Versi gambar tanpa distribusi OS yang jelas
Sebelum 16 Agustus 2018, versi image dibuat dengan Debian 8, dan tidak menyertakan Kode Distribusi OS. Parameter ini ditentukan dalam format berikut:
version_major.version_minor.version_sub_minor
Versi 0.1 dan 0.2
Versi image yang dirilis sebagai rilis alfa atau beta sebelum ketersediaan umum Dataproc versi 1.0
tidak tunduk pada kebijakan dukungan Dataproc.
Catatan penting tentang pembuatan versi
- Versi image berisi komponen berikut:
- Komponen inti yang diinstal di semua cluster, seperti Spark, Hadoop, dan Hive
- Komponen opsional yang Anda tentukan saat membuat cluster
- Cluster Dataproc Anda tidak otomatis diupdate saat versi image baru dirilis.
- Rekomendasi:
- Jalankan cluster dengan versi image subminor terbaru.
Metadata gambar mencakup label
previous-subminor
, yang disetel ketrue
jika cluster tidak menggunakan versi gambar subminor terbaru.- Untuk melihat metadata gambar:
- Jalankan perintah
gcloud compute images list --filter
berikut untuk mencantumkan nama resource image Dataproc.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - Jalankan
gcloud compute images describe
berikut untuk melihat metadata gambar.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Jalankan perintah
- Untuk melihat metadata gambar:
- Uji dan validasi bahwa aplikasi Anda berhasil berjalan di cluster yang dibuat dengan versi image baru, terutama saat menggunakan rilis versi image utama baru.