Dokumen ini menjelaskan apa yang dimaksud dengan zona Dataplex Universal Catalog dan cara menambahkannya ke data lake Dataplex Universal Catalog Anda.
Ringkasan
Zona Dataplex Universal Catalog adalah entitas bernama dalam data lake Dataplex Universal Catalog. Grup ini adalah pengelompokan logis data tidak terstruktur, semi-terstruktur, dan terstruktur, yang terdiri dari beberapa aset, seperti bucket Cloud Storage, set data BigQuery, dan tabel BigQuery.
Lake dapat mencakup satu atau beberapa zona. Meskipun zona hanya dapat menjadi bagian dari satu danau, zona tersebut mungkin berisi aset yang mengarah ke resource yang merupakan bagian dari project di luar project induknya.
Anda dapat memilih konfigurasi untuk zona di Dataplex Universal Catalog. Ada dua jenis zona yang dapat Anda pilih: mentah dan pilihan.
Zona mentah
Zona mentah menyimpan data terstruktur, data semi-terstruktur seperti file CSV dan file JSON, serta data tidak terstruktur dalam format apa pun dari sumber eksternal. Zona mentah berguna untuk mengatur data mentah sebelum melakukan transformasi apa pun. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.
Zona mentah mendukung perincian tingkat bucket atau tingkat set data untuk izin baca dan tulis. Tidak ada batasan pada jenis data yang dapat disimpan di zona mentah.
Zona kurasi
Zona kurasi menyimpan data terstruktur. Data dapat disimpan di bucket Cloud Storage atau set data BigQuery.
Format yang didukung untuk bucket Cloud Storage mencakup Parquet, Avro, dan ORC. Zona yang dikurasi berguna untuk mengatur data yang memerlukan pemrosesan sebelum digunakan untuk analisis, atau untuk menyajikan data yang siap dianalisis.
Untuk tabel BigQuery, Anda harus memiliki skema yang ditentukan dengan baik dan partisi gaya Hive. Saat Anda memberikan skema untuk tabel tertentu di zona yang dikurasi, data harus sesuai dengan skema yang ditentukan untuk tabel tanpa perubahan skema. Artinya, data harus kompatibel dengan skema yang ditentukan untuk tabel, dan partisi baru tidak boleh memiliki skema yang bertentangan dengan skema tabel.
Zona yang dikurasi mendukung perincian tingkat bucket Cloud Storage atau tingkat set data BigQuery untuk izin baca dan tulis.
Sebelum memulai
Sebelum dapat menambahkan zona ke data lake, Anda harus memiliki data lake. Jika belum melakukannya, buat data lake.
Sebagian besar perintah gcloud lake
memerlukan lokasi. Anda dapat menentukan lokasi dengan
menetapkan parameter --location
.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan guna menambahkan zona, minta administrator Anda untuk memberi Anda peran IAM Dataplex Administrator (roles/dataplex.admin
) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin
dataplex.lakes.create
,
yang diperlukan untuk
menambahkan zona.
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Menambahkan zona
Anda dapat menambahkan beberapa zona ke data lake. Anda dapat menambahkan satu zona dalam satu waktu, tetapi tetap menggunakan data lake saat zona sedang dibuat.
Untuk menambahkan zona ke lake yang ada, ikuti langkah-langkah berikut:
Konsol
Di konsol Google Cloud , buka Dataplex Universal Catalog.
Buka tampilan Kelola.
Di tampilan Manage, klik nama lake yang ingin Anda tambahi zona.
Di tab Zones, klik
Add zone.Masukkan Nama tampilan untuk zona Anda.
Klik menu Jenis. Pilih Zona Mentah atau Zona Terkurasi. Pelajari lebih lanjut jenis zona yang didukung.
Opsional: Masukkan deskripsi.
Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data satu region dan multi-region tidak dapat digabungkan dalam zona yang sama.
Opsional: Aktifkan penemuan metadata, yang memungkinkan Katalog Universal Dataplex memindai dan mengekstrak metadata dari data di zona Anda secara otomatis:
Klik Setelan penemuan.
Pastikan Aktifkan penemuan metadata dipilih.
Opsional: Di bagian Sertakan pola, cantumkan file yang akan disertakan dalam pemindaian penemuan.
Opsional: Di bagian Pola pengecualian, cantumkan file yang akan dikecualikan dalam pemindaian penemuan. Jika Anda memasukkan pola sertakan dan kecualikan, pola kecualikan diterapkan terlebih dahulu.
Klik menu Pengulangan, lalu pilih frekuensi. Jika Anda memilih Kustom, di kolom Jadwalkan, masukkan jadwal tugas. Jika tidak, nilai Jadwal akan otomatis diisi untuk Anda.
Klik menu Zona waktu, lalu pilih zona waktu.
Klik Buat.
REST
Untuk menambahkan zona, gunakan metode lakes.zones.create.
Mungkin diperlukan waktu beberapa menit untuk membuat zona.
Saat pembuatan zona berhasil, zona akan otomatis memasuki status aktif. Jika gagal, danau akan di-roll back ke status sebelumnya.
Setelah membuat zona, Anda dapat memetakan data yang disimpan di bucket Cloud Storage dan set data BigQuery sebagai aset ke zona Anda. Untuk mengetahui informasi selengkapnya, lihat Menambahkan aset.
Langkah berikutnya
- Pelajari cara mengelola bucket.
- Pelajari cara membuat danau.
- Pelajari Cloud Audit Logs lebih lanjut.