Perubahan penting di 2.3:
Versi
2.3
adalah image ringan yang hanya berisi komponen inti, sehingga mengurangi eksposur terhadap Common Vulnerabilities and Exposures (CVE). Untuk persyaratan kepatuhan keamanan yang lebih tinggi, gunakan versi image2.3
atau yang lebih baru saat membuat cluster Dataproc.Jika Anda memilih untuk menginstal komponen opsional saat membuat cluster Dataproc dengan image
2.3
, komponen tersebut akan didownload dan diinstal selama pembuatan cluster. Hal ini dapat meningkatkan waktu startup cluster. Untuk menghindari penundaan ini, Anda dapat membuat image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Hal ini dapat dilakukan dengan menjalankangenerate_custom_image.py
dengan tanda--optional-components
.
Catatan:
Berikut adalah komponen opsional dalam image 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook JupyterLab
- Ranger
- Solr
- Zeppelin Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled
dan HDFS Audit Logging diaktifkan secara default di image 2.3.micromamba, bukan conda di versi image sebelumnya, diinstal sebagai bagian dari penginstalan Python.
Masalah penginstalan Docker dan Zeppelin:
- Penginstalan akan gagal jika cluster tidak memiliki akses internet publik. Sebagai solusi, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Anda dapat melakukannya dengan menjalankan
generate_custom_image.py
dengan flag--optional-components
. - Penginstalan dapat gagal jika cluster disematkan ke versi image sub-minor yang lebih lama: Paket diinstal sesuai permintaan dari repositori OSS publik, dan paket mungkin tidak tersedia di upstream untuk mendukung penginstalan.
Sebagai solusi sementara, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya di image kustom. Untuk melakukannya, jalankan
generate_custom_image.py
dengan flag--optional-components
.
- Penginstalan akan gagal jika cluster tidak memiliki akses internet publik. Sebagai solusi, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Anda dapat melakukannya dengan menjalankan