Silsilah data membantu Anda melacak cara data berpindah melalui sistem Anda. Anda dapat melihat asal, tujuan, dan transformasi yang diterapkan pada aset data.
Anda dapat melihat informasi silsilah di konsol Google Cloud untuk aset Dataplex Universal Catalog, BigQuery, dan Vertex AI, atau Anda dapat mengambilnya menggunakan Data Lineage API.
Alasan Anda memerlukan urutan data
Set data besar sering kali memerlukan transformasi data ke dalam berbagai format untuk proyek tertentu, seperti file teks, tabel, laporan, dasbor, dan model.
Misalnya, toko online mungkin memiliki pipeline data dengan alur berikut:
Tugas Dataflow membaca peristiwa pembelian mentah dari topik Pub/Sub, detail produk dari file Cloud Storage, dan informasi pelanggan dari tabel BigQuery. Tugas ini menggabungkan informasi ini dan membuat tabel
purchases
di BigQuery.Tugas BigQuery berikutnya mengubah tabel
purchases
untuk membuat tabel yang lebih kecil dan diagregasi, sepertiregion
ataubrand
, dan menghitung kolom baru, sepertitotal_profit
.Analis menggunakan tabel ini untuk membuat laporan dan dasbor di Looker.
Skenario umum ini dapat menimbulkan beberapa tantangan:
Konsumen data tidak memiliki metode layanan mandiri untuk memverifikasi apakah data berasal dari sumber yang tepercaya.
Engineer data kesulitan menemukan akar penyebab masalah karena mereka tidak dapat melacak semua transformasi data secara andal. Misalnya, jika seorang analis menemukan error di kolom
total_profit
, akan sulit untuk melacak asal error tersebut.Engineer dan analis data tidak dapat sepenuhnya menilai potensi dampak dari mengubah atau menghapus tabel. Misalnya, sebelum menghentikan penggunaan kolom
product_id
, mereka harus mengidentifikasi semua kolom hilir yang bergantung untuk menghindari kerusakan laporan.Pengelola data tidak memiliki visibilitas tentang cara data sensitif digunakan di seluruh organisasi, sehingga sulit untuk memastikan kepatuhan terhadap persyaratan peraturan.
Silsilah data menyelesaikan masalah ini dengan memberikan peta visual yang jelas tentang perjalanan data Anda. Dengan asal-usul data, Anda dapat melakukan hal berikut:
Pahami cara data diperoleh dan diubah menggunakan grafik urutan data.
Melacak error dalam entri dan operasi data hingga ke akar penyebabnya.
Aktifkan pengelolaan perubahan yang lebih baik melalui analisis dampak untuk menghindari periode nonaktif atau error yang tidak terduga, memahami dependensi, dan berkolaborasi dengan pemangku kepentingan.
Alur kerja silsilah data
Alur kerja asal data mencakup langkah-langkah berikut:
Sumber data dan penyerapan: informasi silsilah dari sumber data Anda memulai seluruh proses. Untuk mengetahui informasi selengkapnya, lihat Sumber asal-usul.
Google Cloud layanan: saat Data Lineage API diaktifkan, layanan yang didukung seperti BigQuery dan Dataflow akan otomatis melaporkan peristiwa silsilah setiap kali data dipindahkan atau diubah.
Sumber kustom: untuk sistem apa pun yang tidak didukung secara otomatis oleh integrasiGoogle Cloud , Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual. Sebaiknya impor peristiwa yang diformat sesuai dengan standar OpenLineage.
Platform silsilah: platform pusat ini menyerap, memodelkan, dan menyimpan semua data silsilah. Untuk mengetahui informasi selengkapnya, lihat Model dan perincian informasi silsilah.
Data Lineage API: API ini bertindak sebagai titik entri tunggal untuk semua informasi silsilah yang masuk. Model ini menggunakan model data hierarkis yang terdiri dari tiga konsep inti: proses, eksekusi, dan peristiwa.
Pemrosesan dan penyimpanan: platform memproses data yang masuk dan menyimpannya dalam database yang andal dan dioptimalkan untuk kueri.
Pengalaman pengguna: Anda dapat berinteraksi dengan informasi silsilah yang disimpan dengan dua cara utama:
Eksplorasi visual: di konsol Google Cloud , layanan frontend mengambil dan merender data silsilah sebagai grafik atau daftar interaktif. Fitur ini didukung untuk Katalog Universal Dataplex, BigQuery, dan Vertex AI (untuk model, set data, tampilan feature store, dan grup fitur). Cara ini ideal untuk menjelajahi perjalanan data Anda secara visual. Untuk informasi selengkapnya, lihat Tampilan asal di konsol. Google Cloud
Akses terprogram: menggunakan klien API, Anda dapat berkomunikasi langsung dengan Data Lineage API untuk mengotomatiskan pengelolaan silsilah. Dengan begitu, Anda dapat menulis informasi silsilah dari sumber kustom. Selain itu, Anda dapat membaca dan membuat kueri data silsilah yang disimpan untuk digunakan di aplikasi lain atau untuk membuat laporan kustom.
Sumber silsilah
Anda dapat mengisi informasi silsilah di Dataplex Universal Catalog dengan cara berikut:
- Secara otomatis dari layanan Google Cloud terintegrasi
- Secara manual, dengan menggunakan Data Lineage API untuk sumber kustom
- Dengan mengimpor peristiwa dari OpenLineage
Pelacakan silsilah data otomatis
Saat Anda mengaktifkan Data Lineage API, Google Cloud sistem yang mendukung silsilah data akan mulai melaporkan pergerakan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai sumber data.
BigQuery
Saat Anda mengaktifkan silsilah data di project BigQuery, Katalog Universal Dataplex akan otomatis mencatat informasi silsilah untuk hal berikut:
Tabel baru yang dibuat sebagai hasil dari tugas BigQuery berikut:
- Tugas penyalinan
- Tugas pemuatan yang menggunakan URI Cloud Storage
- Tugas kueri yang menggunakan bahasa definisi data (DDL) berikut di GoogleSQL:
Tabel yang ada saat Anda menggunakan pernyataan bahasa pengolahan data (DML) berikut di GoogleSQL:
SELECT
sehubungan dengan salah satu jenis tabel yang tercantum:INSERT SELECT
MERGE
UPDATE
DELETE
Tugas penyalinan, kueri, dan pemuatan BigQuery ditampilkan sebagai proses.
Untuk melihat detail proses, di grafik silsilah, klik
.
Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.
Layanan lainnya
Penelusuran data mendukung integrasi dengan layananGoogle Cloud berikut:
Asal-usul data untuk sumber data kustom
Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.
Dataplex Universal Catalog dapat membuat grafik silsilah untuk silsilah yang dicatat secara manual jika Anda menggunakan
fullyQualifiedName
yang cocok dengan nama yang sepenuhnya
memenuhi syarat dari entri Dataplex Universal Catalog yang ada. Jika ingin merekam
asal-usul untuk sumber data kustom, Anda harus membuat
entri kustom terlebih dahulu.
Setiap proses untuk sumber data kustom dapat berisi kunci sql
dalam daftar atribut. Nilai kunci ini digunakan untuk merender sorotan kode di panel detail grafik asal data. Pernyataan SQL ditampilkan sebagaimana
diberikan. Anda bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql
peka huruf besar/kecil.
OpenLineage
Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex Universal Catalog dan melihat peristiwa ini di konsol Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Mengintegrasikan dengan OpenLineage.
Batasan
Berikut adalah batasan untuk asal data:
Semua informasi silsilah dipertahankan dalam sistem hanya selama 30 hari.
Informasi asal data tetap ada setelah Anda menghapus sumber data terkait. Misalnya, jika Anda menghapus tabel BigQuery, Anda masih dapat melihat silsilahnya melalui API dan konsol hingga 30 hari.
Batasan silsilah tingkat kolom
Silsilah tingkat kolom memiliki batasan tambahan berikut:
Silsilah tingkat kolom tidak dikumpulkan untuk tugas pemuatan BigQuery atau untuk rutin.
Silsilah tingkat kolom upstream tidak dikumpulkan untuk tabel eksternal.
Silsilah tingkat kolom tidak dikumpulkan jika tugas membuat lebih dari 1.500 link tingkat kolom. Dalam kasus ini, hanya silsilah tingkat tabel yang dikumpulkan.
Tidak ada API untuk membuat, membaca, memperbarui, menghapus, atau menelusuri asal data tingkat kolom.
Dukungan untuk tabel berpartisi terbatas, karena kolom partisi seperti
_PARTITIONDATE
dan_PARTITIONTIME
tidak dikenali dalam grafik silsilah.Batasan konsol:
Penelusuran grafik silsilah dibatasi hingga kedalaman 20 tingkat dan 10.000 link di setiap arah.
Silsilah tingkat kolom hanya diambil dari region tempat tabel root berada. Tidak ada dukungan untuk silsilah lintas-region dalam tampilan grafik.
Harga
Katalog Universal Dataplex menggunakan SKU pemrosesan premium untuk menagih biaya silsilah data. Untuk informasi selengkapnya, lihat Harga.
Untuk memisahkan biaya silsilah data dari biaya lainnya di SKU pemrosesan premium Dataplex Universal Catalog, di laporan Penagihan Cloud, gunakan label
goog-dataplex-workload-type
dengan nilaiLINEAGE
.Jika Anda memanggil Data Lineage API
Origin
sourceType
dengan nilai selainCUSTOM
, hal ini akan menimbulkan biaya tambahan.
Langkah berikutnya
Pelajari cara melacak asal data untuk salinan tabel BigQuery dan tugas kueri.
Pelajari cara menggunakan asal-usul data dengan Google Cloud sistem.
Pelajari tampilan asal di konsol Google Cloud .
Pelajari Data Lineage API.
Untuk informasi administratif, lihat Pertimbangan silsilah dan logging audit silsilah data.