Anda dapat menggunakan Dataplex Universal Catalog untuk membangun arsitektur mesh data. Panduan ini menunjukkan cara menggunakan fitur Dataplex Universal Catalog, seperti lake, zona, dan aset, untuk membangun mesh data.
Mesh data adalah pendekatan organisasi dan teknis yang mendesentralisasi kepemilikan data di antara pemilik data domain. Pemilik ini menyediakan data sebagai produk dengan cara standar dan memfasilitasi komunikasi di antara berbagai bagian organisasi untuk mendistribusikan set data di berbagai lokasi. Pelajari lebih lanjut arsitektur data mesh.
Tujuan
Dalam panduan ini, Anda akan menggunakan entity Dataplex Universal Catalog untuk membangun arsitektur mesh data:
- Buat data lake Dataplex Universal Catalog yang berfungsi sebagai domain untuk mesh data Anda.
- Tambahkan zona ke lake Anda yang merepresentasikan setiap tim dalam setiap domain dan menyediakan kontrak data terkelola.
- Lampirkan aset yang dipetakan ke data yang disimpan di Cloud Storage.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.
Sebelum memulai
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Aktifkan Dataplex Universal Catalog API.
Membuat bucket Cloud Storage
Anda memerlukan bucket Cloud Storage untuk menyimpan aset data dari jaring data.
Untuk membuat bucket Cloud Storage, ikuti petunjuk di bagian membuat bucket Cloud Storage. Saat melakukannya, perhatikan hal berikut:
- Beri nama bucket Anda.
- Untuk Location type, pilih Region, lalu pilih us-central1 (Iowa) dari menu.
Membuat domain
Di konsol Google Cloud , buka halaman Dataplex Universal Catalog.
Buka tampilan Kelola.
Klik Create untuk membuat data lake baru, yang berfungsi sebagai data mesh Anda.
Di kolom Nama tampilan, masukkan
My data mesh
.Untuk Region, pilih
us-central1
.Pilih layanan Dataproc Metastore yang Anda buat dan konfigurasi sebelumnya sebagai metastore terkait.
Klik Buat.
Membuat zona di data lake
Setelah membuat domain dengan membuat data lake Dataplex Universal Catalog, Anda dapat menghosting kontrak data terkelola dan tim individual dalam domain menggunakan zona. Terdapat dua jenis zona:
Zona mentah biasanya digunakan untuk menyimpan data dalam format apa pun dari sumber eksternal di Cloud Storage. Zona mentah berguna untuk data yang memerlukan pemrosesan lebih lanjut sebelum siap digunakan.
Zona yang dikurasi digunakan untuk data terstruktur di Cloud Storage yang harus sesuai dengan format file tertentu, dan disusun dalam tata letak direktori yang kompatibel dengan Hive. Data ini paling berguna untuk data yang siap digunakan dan dianalisis.
Setiap domain (misalnya, sales
, customers
, products
) harus memiliki setidaknya
zona mentah dan zona pilihan.
Zona tambahan digunakan untuk mengelola kontrak data antar-tim atau untuk memberikan perincian yang lebih terperinci bagi tim dalam domain tertentu. Misalnya, pengelolaan inventaris dalam domain produk. Pemilik data dapat mengelola data dalam domain mereka dan mengaksesnya.
Di Google Cloud konsol, buka tampilan Dataplex Universal Catalog Kelola.
Klik nama danau (
My data mesh
) yang ingin Anda tambahi zona.Di tab Zones, klik
Add Zone.Di kolom Nama tampilan, masukkan
My sub domain
. Dataplex Universal Catalog secara otomatis membuat ID untuk zona Anda.Untuk Type, pilih Raw zone.
Klik Buat.
Menghubungkan aset ke zona Anda
Lampirkan aset data ke zona Anda. Aset data, yaitu resource penyimpanan yang berisi data Anda, dapat berupa bucket Cloud Storage atau set data BigQuery. Ini adalah langkah terakhir dalam membuat arsitektur data mesh Anda.
Di tampilan Manage Dataplex Universal Catalog, klik lake yang Anda buat (
My data mesh
).Di tab Zones, klik zona (
My sub domain
) untuk menambahkan aset.Di tab Aset, klik
Tambahkan asetKlik Tambahkan Aset.
Untuk Type, pilih Cloud Storage bucket.
Di kolom Nama tampilan , masukkan
Data mesh asset
. Dataplex Universal Catalog akan otomatis membuat ID aset untuk Anda.Di kolom Bucket, klik Browse.
- Pilih bucket Anda dari daftar.
- Klik Pilih.
Klik Selesai, lalu klik Lanjutkan.
Klik Lanjutkan untuk menerima Setelan lanjutan default.
Klik Kirim.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus project
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Menghapus arsitektur mesh data Anda
Di Google Cloud konsol, buka tampilan Dataplex Universal Catalog Kelola.
Untuk danau yang ingin Anda hapus, klik
Lihat lainnya, lalu klik Hapus.Untuk mengonfirmasi tindakan, masukkan
delete
, lalu klik Hapus danau.
Langkah berikutnya
- Pelajari tugas pemrosesan data
- Pelajari cara menemukan data
- Pelajari cara menggunakan tugas kualitas data