Anda dapat menggunakan Dataplex untuk membangun arsitektur mesh data. Panduan ini menunjukkan cara menggunakan fitur Dataplex, seperti lake, zona, dan aset, untuk mem-build mesh data.
Mesh data adalah pendekatan organisasi dan teknis yang mendesentralisasi kepemilikan data di antara pemilik data domain. Pemilik ini menyediakan data sebagai produk dengan cara standar dan memfasilitasi komunikasi di antara berbagai bagian organisasi untuk mendistribusikan set data di berbagai lokasi. Pelajari arsitektur mesh data lebih lanjut.
Tujuan
Dengan mengikuti panduan ini, Anda akan menggunakan entity Dataplex untuk mem-build arsitektur mesh data:
- Buat Dataplex lake yang akan bertindak sebagai domain untuk mesh data Anda.
- Tambahkan zona ke lake Anda yang akan mewakili setiap tim dalam setiap domain dan memberikan kontrak data terkelola.
- Lampirkan aset yang dipetakan ke data yang tersimpan di Cloud Storage.
Biaya
Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.
Sebelum memulai
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
Aktifkan Dataplex API.
Membuat bucket Cloud Storage
Anda memerlukan bucket Cloud Storage untuk menyimpan aset data mesh data.
Ikuti langkah-langkah untuk membuat bucket Cloud Storage, dan:
- Beri nama bucket Anda.
- Untuk Location type, pilih Region, dan pilih us-central1 (Iowa) dari menu drop-down.
Buat domain
Di konsol Google Cloud, buka halaman Dataplex:
Buka tampilan Manage.
Klik Create untuk membuat lake baru, yang akan berfungsi sebagai mesh data Anda.
Di kolom Nama tampilan, masukkan
My data mesh
.Untuk Region, pilih
us-central1
.Pilih layanan Dataproc Metastore yang sebelumnya Anda buat dan konfigurasi sebagai metastore terkait.
Klik Create.
Membuat zona di danau Anda
Setelah membuat domain dengan membuat Dataplex lake, Anda dapat menghosting kontrak data terkelola dan masing-masing tim di dalam domain dengan menggunakan zona. Ada dua jenis zona:
Zona mentah biasanya digunakan untuk menyimpan data dalam format apa pun dari sumber eksternal di Cloud Storage. Zona mentah berguna untuk data yang memerlukan pemrosesan lebih lanjut sebelum siap digunakan.
Zona pilihan digunakan untuk data terstruktur di Cloud Storage yang harus sesuai dengan format file tertentu, serta diatur dalam tata letak direktori yang kompatibel dengan hive. Jenis data ini paling berguna untuk data yang siap digunakan dan dianalisis.
Setiap domain (misalnya, sales
, customers
, products
) setidaknya harus memiliki zona mentah dan zona pilihan.
Zona tambahan digunakan untuk mengelola kontrak data antartim atau untuk memberikan perincian yang lebih terperinci untuk tim dalam domain tertentu. Misalnya, pengelolaan inventaris dalam domain produk. Pemilik data dapat mengelola data dalam domain mereka dan mengaksesnya.
Di Dataplex di Konsol Google Cloud, buka tampilan Manage.
Klik nama danau (
My data mesh
) yang ingin Anda tambahkan zonanya.Pada tab Zones, klik
Add Zone.Di kolom Nama tampilan, masukkan
My sub domain
. Dataplex akan otomatis membuat ID untuk zona Anda.CATATAN: Nama zona menjadi nama set data BigQuery. Oleh karena itu, semua zona yang dihosting dalam project Google Cloud yang sama harus memiliki ID unik, meskipun berada dalam lake yang berbeda.
Untuk Type, pilih Raw zone.
Klik Create.
Lampirkan aset ke zona Anda
Lampirkan aset data ke zona Anda. Aset data, resource penyimpanan yang berisi data Anda, dapat berupa bucket Cloud Storage atau set data BigQuery. Ini adalah langkah terakhir dalam membuat arsitektur data mesh.
Dalam tampilan Dataplex Manage, klik lake yang Anda buat (
My data mesh
).Di tab Zones, klik zona (
My sub domain
) yang akan ditambahi aset.Di tab Aset, klik
Tambahkan asetKlik Tambahkan Aset.
Untuk Type, pilih Cloud Storage bucket.
Di kolom Display name , masukkan
Data mesh asset
. Dataplex akan otomatis membuat ID aset untuk Anda.Di kolom Bucket, klik Browse.
- Pilih bucket Anda dari daftar.
- Klik Pilih.
Klik Selesai, lalu klik Lanjutkan.
Klik Continue untuk menerima Advanced settings default.
Klik Submit untuk menambahkan bucket Cloud Storage sebagai aset data ke zona Anda.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus project
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus arsitektur mesh data Anda
Di Dataplex di Konsol Google Cloud, buka tampilan Manage.
Untuk danau yang ingin Anda hapus, klik
Lihat lainnya, lalu klik Hapus.Konfirmasi tindakan dengan memasukkan
delete
, lalu klik Hapus danau.
Langkah selanjutnya
- Pelajari tugas pemrosesan data
- Pelajari cara menemukan data
- Pelajari cara menggunakan tugas kualitas data