Membuat dan mengamankan cluster metastore Hive

Ringkasan

Saat Anda membuat cluster Dataproc, aplikasi Apache Hive dan komponennya, termasuk metastore Hive, akan diinstal di cluster, dan sandi default akan ditetapkan dalam file hive-site.xml yang ada di node master cluster.

Sebaiknya tentukan sandi metastore Hive Anda sendiri untuk mencapai sasaran berikut:

  • Sebagai langkah keamanan terbaik untuk memastikan Anda mengontrol akses ke metastore Hive lokal dengan memberikan sandi Anda sendiri

  • Untuk menentukan sandi yang diketahui yang mengontrol akses ke metastore Hive eksternal yang digunakan dengan database eksternal yang dibagikan di antara berbagai cluster

Menetapkan sandi metastore Hive

Jalankan perintah Google Cloud CLI Dataproc clusters create berikut untuk membuat cluster Dataproc dan menentukan sandi metastore Hive.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Catatan:

  • Lihat Membuat kunci untuk membuat kunci di Cloud Key Management Service.
  • Sandi metastore Hive hanya disimpan di node master cluster, bukan di node worker.

Untuk informasi tambahan tentang mengamankan cluster Dataproc, lihat Praktik terbaik keamanan Dataproc.

Skenario yang Tidak Didukung

Dataproc tidak mendukung skenario metastore Hive berikut, terlepas dari apakah Anda menggunakan sandi metastore Hive default atau yang disediakan pengguna:

  • Anda menggunakan klien metastore sematan di driver Spark yang berjalan dalam mode cluster, sehingga node pekerja memerlukan sandi Hive. Skenario ini dapat menyebabkan masalah konektivitas dengan database metastore karena koneksi tidak dilakukan melalui proses HiveMetaStore yang berjalan di node master Dataproc.

  • Anda menonaktifkan metastore Hive dan hive-server2 untuk menggunakan database MySQL Anda sendiri. Dalam skenario ini, properti spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore tidak berpengaruh.