Dokumen ini menjelaskan cara membuat data lake Dataplex Universal Catalog. Anda dapat membuat data lake di region mana pun yang mendukung Dataplex Universal Catalog.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Untuk membuat dan mengelola lake Anda, pastikan Anda memiliki peran standar
roles/dataplex.admin
atauroles/dataplex.editor
yang diberikan. Untuk mengetahui informasi selengkapnya, lihat memberikan satu peran.Untuk melampirkan bucket Cloud Storage dari project lain ke lake Anda, berikan peran administrator pada bucket kepada akun layanan Dataplex Universal Catalog berikut dengan menjalankan perintah berikut:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Konfigurasi instance layanan Dataproc Metastore untuk mengekspos endpoint gRPC (bukan endpoint Thrift Metastore default):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Lihat endpoint gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Di konsol Google Cloud , buka Dataplex Universal Catalog.
Buka tampilan Kelola.
Klik
Create .Masukkan Nama tampilan.
ID danau dibuat secara otomatis untuk Anda. Jika mau, Anda dapat memberikan tanda pengenal Anda sendiri. Lihat Konvensi penamaan resource.
Opsional: Masukkan Deskripsi..
Tentukan Region tempat pembuatan lake.
Untuk lake yang dibuat di region tertentu (misalnya,
us-central1
), Anda dapat melampirkan data satu region (us-central1
) dan data multi-region (us multi-region
) bergantung pada setelan zona.Opsional: Tambahkan label ke danau Anda.
Opsional: Di bagian Metastore, klik menu Metastore service, lalu pilih layanan yang Anda buat di bagian Sebelum memulai.
Klik Buat.
LAKE
: nama lake baruLOCATION
: mengacu pada Google Cloud regionk1=v1,k2=v2,k3=v3
: label yang digunakan (jika ada)METASTORE_SERVICE
: layanan Dataproc Metastore, jika dibuat- Pelajari cara Menambahkan zona ke data lake.
- Pelajari cara Menghubungkan aset ke zona.
- Pelajari cara mengamankan danau Anda.
- Pelajari cara mengelola danau Anda.
Kontrol akses
Membuat metastore
Anda dapat mengakses metadata Katalog Universal Dataplex menggunakan Hive Metastore dalam kueri Spark dengan mengaitkan instance layanan Dataproc Metastore dengan lake Katalog Universal Dataplex Anda. Anda harus memiliki Dataproc Metastore yang mendukung gRPC (versi 3.1.2 atau yang lebih tinggi) yang terkait dengan lake Katalog Universal Dataplex.
Membuat data lake
Konsol
gcloud
Untuk membuat lake, gunakan perintah gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Ganti kode berikut:
REST
Untuk membuat lake, gunakan metode lakes.create.