Urutan data membantu Anda memahami cara data bergerak melalui sistem Anda dengan melacak hubungan antara aset data dan proses yang mentransformasinya. Anda dapat melihat informasi silsilah ini sebagai grafik dan daftar di konsol Google Cloud .
Dokumen ini memberikan ringkasan model informasi lineage data, detail tentang perincian lineage tingkat tabel dan kolom, serta petunjuk tentang cara menggunakan tampilan grafik dan daftar untuk menjelajahi lineage data.
Model informasi silsilah data
Silsilah adalah catatan data yang diubah dari sumber ke target. Data Lineage API mengumpulkan informasi ini dan menyusunnya ke dalam model data hierarkis yang menggunakan konsep proses, eksekusi, dan peristiwa.
- Proses: definisi transformasi data.
- Jalankan: eksekusi proses.
- Peristiwa: catatan pergerakan data selama proses berjalan.
Proses
Proses adalah definisi operasi transformasi data untuk sistem tertentu. Untuk silsilah BigQuery, proses adalah tugas dari jenis tugas yang didukung. Semua eksekusi kueri SQL yang sama ditautkan ke satu proses, yang memungkinkan Anda melacak setiap instance tempat logika transformasi tertentu digunakan.
Misalnya, kueri SQL berikut adalah proses. Kueri ini membuat tabel dengan menghitung jumlah total perjalanan untuk setiap vendor dari dua tabel sumber.
CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
AS
SELECT
vendor_id,
COUNT(*) AS number_of_trips
FROM
(
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
UNION ALL
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY
vendor_id;
Format nama resource REST untuk proses adalah
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID
.
Contoh: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6
Untuk mengetahui informasi selengkapnya tentang resource process
, lihat
Referensi resource proses.
Jalankan
Operasi adalah eksekusi tunggal suatu proses. Proses dapat memiliki beberapa eksekusi.
Setiap eksekusi adalah operasi unik yang dicirikan oleh startTime
, endTime
, dan
status akhir, seperti COMPLETED
, FAILED
, atau ABORTED
.
Misalnya, menjalankan kueri SQL dari bagian Proses pada pukul 09.00 akan membuat jalankan tertentu. Menjalankan kueri yang sama lagi pada pukul 10.00 AM akan membuat run baru yang berbeda. Kedua proses berjalan ditautkan ke proses induk yang sama.
Format nama resource REST untuk run menunjukkan bahwa run adalah turunan dari proses:
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID
.
Contoh: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1
Untuk mengetahui informasi selengkapnya tentang resource run
, lihat
Referensi resource run.
Acara
Peristiwa mewakili titik waktu saat transformasi data memindahkan data antara entitas sumber dan target. Peristiwa adalah rekaman terperinci dari pergerakan data tertentu yang menghubungkan tabel sumber dan target untuk proses tertentu. Peristiwa juga dapat memiliki beberapa sumber dan target.
Misalnya, jika eksekusi Anda menjalankan kueri SQL yang dibahas di bagian
Proses, peristiwa silsilah mencatat bahwa tabel sumber
nyc_green_trips_2021
dan nyc_green_trips_2022
digunakan untuk
membuat tabel target total_green_trips_22_21
.
Peristiwa silsilah berisi daftar link yang menentukan sumber dan target. Peristiwa digunakan untuk membuat grafik silsilah. Meskipun konsol Google Cloud menampilkan grafik silsilah ini, konsol tidak menampilkan peristiwa individual secara langsung. Anda dapat membuat, membaca, dan menghapus, tetapi tidak memperbarui peristiwa menggunakan Data Lineage API.
Setiap link dalam peristiwa menentukan satu jalur aliran data dari entity sumber ke entity target. Entitas adalah referensi ke aset data, seperti tabel BigQuery, dan diidentifikasi berdasarkan Nama yang Sepenuhnya Memenuhi Syarat (FQN). Satu peristiwa dapat berisi beberapa link, yang umum dalam operasi seperti penggabungan tabel di mana beberapa sumber berkontribusi pada satu target.
Untuk mengetahui detail tentang cara peristiwa mendukung silsilah tingkat kolom, lihat Silsilah tingkat kolom.
Perincian silsilah
Penelusuran data memungkinkan Anda melacak asal dan jalur transformasi data di tingkat tabel dan kolom.
Silsilah tingkat tabel
Silsilah tingkat tabel memberikan ringkasan umum tentang pipeline data Anda dengan menunjukkan hubungan antar-tabel secara keseluruhan. Gunakan silsilah tingkat tabel untuk tugas tingkat makro seperti berikut:
Penemuan data. Analis yang membuat dasbor baru dapat menggunakan silsilah tingkat tabel untuk melacak tabel ringkasan kembali ke sumbernya dan mengonfirmasi bahwa data berasal dari database yang tepercaya.
Perencanaan migrasi. Administrator database yang berencana memigrasikan database inti dapat menggunakan silsilah tingkat tabel untuk mengidentifikasi setiap laporan dan dasbor hilir yang bergantung padanya.
Audit dan tata kelola. Pengelola data dapat menggunakan silsilah tingkat tabel dan tingkat kolom untuk memeriksa cara data dari tabel yang berisi informasi identitas pribadi (PII) mengalir melalui pipeline.
Silsilah tingkat kolom
Silsilah tingkat kolom memberikan tampilan yang lebih terperinci dengan melacak alur data antar-kolom. Dalam tampilan ini, link dalam peristiwa silsilah mewakili hubungan antara kolom sumber dan kolom target. Setiap link tingkat kolom ini memiliki jenis dependensi yang menjelaskan transformasi:
Nilai
Exact copy
: disalin antar-kolom.Other
: jenis dependensi lain antar-kolom.
Gunakan silsilah tingkat kolom untuk tugas seperti berikut:
Analisis akar masalah. Jika seorang analis data menemukan nilai yang salah dalam kolom, dia dapat menggunakan silsilah tingkat kolom untuk melacaknya kembali ke kolom sumber guna menemukan penyebab utamanya.
Analisis dampak. Sebelum seorang engineer data menghentikan penggunaan kolom, dia dapat menggunakan silsilah tingkat kolom untuk menemukan setiap kolom hilir yang bergantung padanya.
Verifikasi sumber data untuk metrik. Analis data dapat menggunakan asal-usul tingkat kolom untuk mengidentifikasi kolom sumber mana yang digunakan untuk menghitung metrik tanpa menguraikan kueri SQL yang kompleks.
Silsilah tingkat kolom dikumpulkan secara otomatis untuk jenis tugas BigQuery berikut:
Tampilan silsilah di konsol Google Cloud
Silsilah data di konsol memungkinkan Anda berinteraksi dengan informasi silsilah dengan dua cara: Anda dapat menjelajahi grafik silsilah di beberapa region yang tersedia, atau Anda dapat menggunakan panel Penjelajah silsilah untuk mendapatkan tampilan yang lebih terfokus dalam region tertentu. Google Cloud Anda juga dapat beralih antara tampilan Grafik dan tampilan Daftar untuk menganalisis alur data pada berbagai tingkat detail.
Tampilan silsilah hanya tersedia untuk entri Katalog Universal Dataplex, aset BigQuery, dan resource Vertex AI (model, set data, tampilan feature store, dan grup fitur).
Untuk melihat berbagai tampilan yang dibahas di halaman ini, lihat Menggunakan silsilah data dengan Google Cloud sistem.
Tampilan grafik silsilah
Tampilan Grafik memvisualisasikan alur dan hubungan aset data di seluruh sistem dan region, sehingga membantu Anda memahami arsitektur data, melacak asal dan tujuan, serta mengidentifikasi pola. Grafik silsilah ini, yang dibuat oleh layanan Data Lineage API untuk entri Katalog Universal Dataplex tertentu, menunjukkan cara data ditransformasikan dari waktu ke waktu, menampilkan alur hulu, hilir, atau keduanya dari entri root yang dipilih.
Data Lineage API secara otomatis menerima informasi aset dari sistem yang didukung dan melalui panggilan API untuk sumber kustom.
Elemen utama dalam grafik dijelaskan sebagai berikut:
Node. Merepresentasikan entity data. Dalam tampilan tingkat tabel, sebuah node menampilkan nama tabel dan kolomnya. Dalam tampilan tingkat kolom, setiap node mewakili tabel dan kolom tertentu.
Tepi. Garis yang menghubungkan node dan merepresentasikan proses yang terjadi di antara keduanya. Tampilan tepi bergantung pada tampilan silsilah:
- Dalam tampilan tingkat tabel, tepi memiliki ikon untuk menunjukkan transformasi data.
- Dalam tampilan tingkat kolom, tepi memiliki label untuk menunjukkan transformasi data. Misalnya, label tepi mungkin bertuliskan
Exact copy
untuk mendeskripsikan cara kolom sumber disalin ke kolom target.
Ikon dan label proses. Muncul di tepi untuk memberikan informasi selengkapnya tentang transformasi.
- Ikon. Menunjukkan proses transformasi. Saat Anda menjelajahi grafik secara manual, ikon di tepi merepresentasikan sistem sumber proses (misalnya, BigQuery atau Vertex AI). Jika ada beberapa proses yang terlibat, ikon 'beberapa proses' akan ditampilkan. Jika sistem sumber proses tidak diketahui, ikon roda gigi akan digunakan. Saat Anda menerapkan filter, ikon roda gigi digunakan untuk semua proses.
- Label. Dalam tampilan silsilah tingkat kolom, label menjelaskan jenis
dependensi antar-kolom:
Exact copy
atauOther
.
Mempelajari grafik silsilah secara manual
Saat membuka tab Silsilah, Anda akan melihat tampilan Grafik default. Tampilan default memberikan ringkasan tingkat tinggi di seluruh sistem dan region, dengan perluasan grafik manual dan inkremental yang dapat memuat lima node sekaligus. Ikon proses di tepi mewakili sistem sumber atau menunjukkan beberapa proses.

Menerapkan filter untuk tampilan silsilah yang terfokus
Untuk memfilter data silsilah untuk analisis yang berfokus dalam wilayah tertentu, gunakan panel Penjelajah silsilah. Berikut beberapa kriteria yang dapat Anda gunakan untuk beralih ke tampilan fokus:
- Nama kolom: Memfilter silsilah menurut nama kolom untuk melihat detail tingkat kolom.
- Arah: Menampilkan silsilah hulu atau hilir, atau keduanya.
- Rentang waktu: Memfilter silsilah berdasarkan waktu mulai atau berakhir tertentu.
- Jenis dependensi: Memfilter silsilah tingkat kolom berdasarkan jenis dependensi.
Contoh opsi yang tersedia mencakup
All
atauExact copy
.

Tampilan fokus akan otomatis memperluas grafik hingga tiga level, memuat semua silsilah yang cocok dengan kriteria filter. Fitur ini mendukung silsilah tingkat tabel dan tingkat kolom, termasuk visualisasi jalur dari node yang dipilih kembali ke root. Dalam tampilan terfokus ini, ikon roda gigi generik digunakan untuk semua proses.

Untuk melihat silsilah tingkat kolom, Anda dapat mengikuti salah satu metode berikut:
Dalam tampilan Grafik yang difokuskan, klik ikon kolom pada tabel untuk beralih ke silsilah tingkat kolom.
Ikon kolom Dalam tampilan Grafik default atau tampilan Grafik yang difokuskan, terapkan nama kolom di panel Penjelajah silsilah.

Untuk menghapus semua filter dan kembali ke tampilan default, klik
reset.Detail node
Untuk melihat detail node, klik node. Panel samping akan muncul dan menampilkan informasi mendetail tentang aset data yang dipilih. Misalnya, dalam tampilan silsilah tingkat tabel, mengklik sebuah node akan menampilkan informasi seperti nama lengkap aset, jenis, dan atribut relevan lainnya.

Audit dan histori eksekusi
Grafik silsilah lengkap adalah hasil dari banyak tugas yang berbeda, dengan setiap tugas membuat link tertentu dalam grafik. Beberapa eksekusi dicatat sebagai proses baru, tetapi tidak mengubah tampilan statis grafik.
Untuk melihat detail setiap eksekusi ini, klik tepi dengan proses pada grafik. Di panel Kueri yang muncul, klik tab Eksekusi.

Memeriksa logika transformasi
Untuk memahami logika bisnis transformasi tanpa menelusuri kode, Anda dapat melihat kueri SQL persis yang dijalankan. Untuk melihat kode SQL, klik tepi dengan proses pada grafik. Di panel samping yang muncul, klik tab Detail.
Visualisasi jalur silsilah
Visualisasi jalur silsilah membantu Anda melacak jalur dari node yang dipilih dalam grafik kembali ke entri root. Saat Anda memilih node dan mengklik Visualize path, grafik hanya akan menandai node dan proses yang membentuk jalur silsilah langsung ke entri root.
Untuk melihat visualisasi jalur silsilah, di panel Lineage explorer, terapkan filter untuk membuat tampilan Grafik yang terfokus. Kemudian, dalam tampilan Grafik yang difokuskan, pilih sebuah node. Di panel detail untuk node yang dipilih, klik Visualize Path.
Visualisasi jalur silsilah tersedia untuk silsilah tingkat tabel dan tingkat kolom. Anda juga dapat menggunakan visualisasi jalur silsilah dalam tampilan Daftar.

Tampilan daftar silsilah
Tampilan Daftar menawarkan representasi silsilah yang terstruktur dan berbentuk tabel, yang disinkronkan dengan tampilan Grafik. Bagian ini memfasilitasi pengurutan, pemfilteran, dan download aset data. Tampilan ini ideal untuk menganalisis hubungan sumber-target, merinci aset yang terlibat, dan mengekspor data silsilah.
Tampilan Daftar tersedia untuk silsilah tingkat tabel dan tingkat kolom. Anda dapat beralih antara tampilan daftar mendetail dan sederhana berikut.
Tampilan daftar yang disederhanakan: tampilan ini berguna untuk mendapatkan daftar ringkas dan unik dari semua aset yang terlibat dalam silsilah. Kolom seperti Sistem, Project, Entitas, FQN (Nama yang Sepenuhnya Memenuhi Syarat), Arah, dan Kedalaman membantu Anda melihat semua aset data dalam asal-usul, tempat aset tersebut berada, sumber aslinya, dan jaraknya dari aset pusat yang sedang dianalisis. Diagram ini ideal untuk memberikan ringkasan tingkat tinggi tentang semua entitas yang berpartisipasi dalam alur data. Ini adalah tampilan default.
Tampilan daftar mendetail: tampilan ini dirancang untuk menganalisis hubungan sumber-target individual. Dengan menyediakan kolom terpisah untuk Sumber dan Target, Anda dapat melihat setiap link transformasi data tertentu. Tampilan ini ideal untuk tugas yang memerlukan pemahaman mendalam tentang cara data berpindah di antara pasangan aset tertentu, seperti mengaudit aliran data individual, memahami dependensi antar-tabel, atau mengekspor catatan silsilah mendetail untuk setiap koneksi.
Tampilan daftar perincian tingkat tabel
Tampilan ini menunjukkan hubungan antar tabel secara keseluruhan. Gunakan filter yang disediakan untuk memilih kolom yang Anda perlukan.

Luaskan bagian berikut untuk melihat kolom yang tersedia di tampilan daftar tingkat tabel.
Kolom yang tersedia dalam tampilan daftar tingkat tabel yang disederhanakan
- Sistem: sistem tempat aset data berada. Contohnya mencakup BigQuery.
- Project: ID project Google Cloud yang berisi aset data.
- Entitas: nama aset data. Contohnya mencakup nama tabel.
- FQN: Nama yang Sepenuhnya Memenuhi Syarat (Fully Qualified Name/FQN) dari entity atau kolom sumber asli.
- Arah: menunjukkan apakah aset yang tercantum berada di hulu (sumber) atau di hilir (target) dalam alur silsilah.
- Kedalaman: jumlah langkah silsilah dari aset pusat yang dianalisis.
Kolom yang tersedia dalam tampilan daftar tingkat tabel mendetail
- Sistem sumber: sistem tempat aset data sumber berada. Contohnya mencakup BigQuery.
- Project sumber: ID project Google Cloud yang berisi aset data sumber.
- Sumber: nama aset data sumber. Contohnya mencakup nama tabel.
- FQN Sumber: FQN entitas sumber.
- Sistem target: sistem tempat aset data target berada. Contohnya mencakup BigQuery.
- Project target: ID project Google Cloud yang berisi aset data target.
- Target: nama aset data target. Contohnya mencakup nama tabel.
- FQN Target: FQN entitas target.
- Arah: menunjukkan apakah aset yang tercantum berada di hulu (sumber) atau di hilir (target) dalam alur silsilah.
- Kedalaman: jumlah langkah silsilah dari aset pusat yang dianalisis.
Tampilan daftar silsilah tingkat kolom
Tampilan ini menunjukkan hubungan antara setiap kolom dalam tabel sumber dan tabel target. Gunakan filter yang disediakan untuk memilih kolom yang Anda perlukan.

Luaskan bagian berikut untuk melihat kolom yang tersedia di tampilan daftar tingkat kolom.
Kolom yang tersedia dalam tampilan daftar tingkat kolom yang disederhanakan
- Sistem: sistem tempat aset data berada. Contohnya mencakup BigQuery.
- Project: ID project Google Cloud yang berisi aset data.
- Entitas: nama aset data. Contohnya mencakup nama tabel.
- Kolom: kolom tertentu yang dipilih di panel Lineage Explorer dalam entitas.
- FQN: Nama yang Sepenuhnya Memenuhi Syarat (FQN) dari entity atau kolom sumber asli.
- Arah: menunjukkan apakah aset yang tercantum berada di hulu (sumber) atau di hilir (target) dalam alur silsilah.
- Kedalaman: jumlah langkah silsilah dari aset pusat yang dianalisis.
Kolom yang tersedia dalam tampilan daftar tingkat kolom yang mendetail
- Sistem sumber: sistem tempat aset data sumber berada.
- Project sumber: Google Cloud project ID yang berisi aset data sumber.
- FQN Sumber: FQN kolom sumber.
- Sistem target: sistem tempat aset data target berada.
- Project target: ID project Google Cloud yang berisi aset data target.
- Target FQN: FQN kolom target.
- Arah: menunjukkan apakah aliran data bersifat upstream atau downstream.
- Jenis dependensi: menjelaskan sifat hubungan antara kolom.
- Kedalaman: jumlah langkah silsilah dari aset pusat yang dianalisis.
Langkah berikutnya
Pelajari sumber silsilah.
Pelajari cara melacak asal data untuk salinan tabel BigQuery dan tugas kueri.
Pelajari cara menggunakan asal-usul data dengan Google Cloud sistem.