Urutan data memungkinkan Anda melacak bagaimana data bergerak melalui sistem: dari mana data berasal, tempat data diteruskan, dan transformasi yang diterapkan pada data.
Mengapa Anda memerlukan silsilah data?
Menangani set data besar sering kali melibatkan transformasi data menjadi entitas yang disesuaikan dengan kebutuhan project tertentu: file teks, tabel, laporan, dasbor, model.
Misalnya, bayangkan Anda memiliki toko online tempat Anda mencatat setiap pembelian dalam satu tabel SQL. Untuk mempermudah analis Anda menggunakan data, Anda mulai menjalankan tugas yang mengekstrak informasi dari satu tabel ini dan menghasilkan tabel yang lebih kecil menurut wilayah, merek, atau harga penjualan. Kemudian, analis Anda mulai melakukan hal yang sama: mereka melakukan transformasi lebih lanjut, menggabungkan tabel yang lebih kecil ini dengan sumber data lain untuk menghasilkan lebih banyak tabel.
Hal ini dapat menjadi tantangan besar bagi pemangku kepentingan Anda:
- Konsumen data tidak dapat menggunakan alat layanan mandiri untuk memahami apakah data berasal dari sumber yang kredibel.
- Engineer data tidak dapat menemukan penyebab masalah karena tidak ada cara yang andal untuk melacak semua transformasi data.
- Engineer dan analis data tidak dapat sepenuhnya menilai kemungkinan dampak sebelum mengubah atau menghapus tabel.
- Pengelola data tidak dapat memahami cara data sensitif digunakan di seluruh organisasi dan memverifikasi kepatuhan terhadap persyaratan peraturan.
Silsilah data adalah solusi yang memberikan cara praktis untuk melakukan hal berikut:
- Pahami cara data diperoleh dan diubah dengan bantuan grafik silsilah.
- Lacak error yang terkait dengan entri dan operasi data hingga ke penyebab utamanya.
- Aktifkan pengelolaan perubahan yang lebih baik melalui analisis dampak: hindari periode nonaktif atau error yang tidak terduga, pahami entri dependen, dan berkolaborasi dengan pemangku kepentingan yang relevan.
Model informasi silsilah data
Dalam bentuk dasarnya, silsilah adalah catatan data yang ditransformasikan dari sumber ke target. Data Lineage API mengumpulkan informasi tersebut dan menyusunnya ke dalam model data hierarkis menggunakan konsep proses, eksekusi, dan peristiwa.
Proses
Proses adalah definisi operasi transformasi data yang didukung untuk
sistem tertentu. Dalam konteks silsilah BigQuery,
process
adalah salah satu jenis tugas yang didukung.
Jalankan
Operasi adalah eksekusi proses. Proses dapat memiliki beberapa kali berjalan.
Run berisi detail seperti waktu mulai dan berakhir, status, atau atribut tambahan.
Untuk mengetahui informasi selengkapnya, lihat
referensi resource run
.
Acara
Peristiwa mewakili titik waktu saat operasi transformasi data terjadi dan menghasilkan perpindahan data antara entitas sumber dan target.
Peristiwa berisi daftar link yang menentukan entri mana yang menjadi sumber dan mana yang menjadi target dalam peristiwa tertentu. Meskipun peristiwa digunakan untuk menghitung grafik silsilah, peristiwa tidak diekspos secara langsung di konsol Google Cloud . Anda dapat membuat, membaca, dan menghapusnya (tetapi tidak memperbaruinya) menggunakan Data Lineage API.
Contoh
Pertimbangkan contoh berikut saat data disalin antar-tabel BigQuery:

Cara data berpindah antar-tabel dijelaskan oleh proses silsilah
(diwakili pada grafik oleh ikon
): bisa berupa kueri SQL
CREATE TABLE AS SELECT
atau pernyataan INSERT
.
Setiap eksekusi pernyataan SQL tersebut akan merupakan run individual.
Run berisi peristiwa yang mencatat tabel mana yang digunakan sebagai sumber dan
tabel mana yang digunakan sebagai target. Dalam contoh ini, tabel
customer_year
dan customers
adalah sumber
untuk tabel target top_customer
.
Grafik silsilah
Grafik silsilah merepresentasikan informasi yang dikumpulkan oleh Data Lineage API untuk entri Katalog Universal Dataplex tertentu. Grafik silsilah menampilkan silsilah yang berada di hulu atau hilir dari satu entri root. Root mengacu pada entri yang silsilahnya Anda lihat.

Katalog Universal Dataplex berfungsi dengan Data Lineage API untuk mengidentifikasi entri yang nama lengkapnya cocok dengan entitas yang dikenali oleh urutan data. Untuk entri Katalog Universal Dataplex yang cocok, Anda dapat mengakses tab Silsilah di halaman detailnya dan melihat grafik.
Grafik silsilah menampilkan dua jenis elemen:
Tombol persegi panjang lebar yang merepresentasikan entitas yang terlibat dalam pembuatan informasi silsilah sebagai sumber atau target peristiwa silsilah.
Tombol persegi yang lebih kecil yang merepresentasikan proses yang bertanggung jawab untuk membuat atau memperbarui entitas sumber atau target. Tombol proses menggunakan ikon khusus untuk sistem sumber yang melaporkannya ke Data Lineage API. Misalnya, tugas BigQuery menggunakan ikon
.
Visualisasi jalur silsilah
Visualisasi jalur silsilah membantu Anda memahami link silsilah antara dua resource yang dipilih. (Berbeda dengan grafik silsilah, yang menunjukkan silsilah yang berada di hulu atau hilir dari satu entri root, yang berpotensi untuk beberapa sumber atau target.)
Anda memilih resource root dan resource target, dan konsolGoogle Cloud menampilkan link silsilah antara kedua resource. Resource dan proses lain yang tidak berada di jalur antara dua resource disembunyikan dari visualisasi jalur.

Tampilan daftar silsilah
Tampilan daftar silsilah menampilkan informasi silsilah mendetail untuk entitas dalam satu tabel.
Dibandingkan dengan grafik silsilah, yang lebih baik untuk melihat grafik silsilah yang relatif kecil, tampilan daftar silsilah memungkinkan Anda melihat informasi silsilah untuk entitas dengan banyak koneksi.
Gambar berikut menunjukkan contoh tampilan daftar silsilah di konsolGoogle Cloud . Daftar berikut menjelaskan gambar secara lebih mendetail.

Setiap baris dalam tabel mewakili satu link silsilah antara dua entri. Dalam grafik, nama ini digambarkan sebagai link silsilah antara dua entri, termasuk node proses di antaranya. Misalnya,
Source
danTarget
adalah node aset, dengan kemungkinan beberapa node proses di antaranya.Opsi Arah menentukan bagian alur data yang akan ditampilkan dalam daftar, dalam kaitannya dengan aset root:
Hulu: menampilkan informasi silsilah untuk entri yang merupakan sumber data untuk entri yang dipilih. Pada grafik silsilah, entri ini adalah entri yang muncul di sebelah kiri entri yang dipilih.
Downstream: menampilkan informasi silsilah untuk entri yang menggunakan atau berasal dari entri yang dipilih. Pada grafik silsilah, entri ini adalah entri yang muncul di sebelah kanan entri yang dipilih.
Opsi Rentang Waktu memungkinkan Anda memfilter informasi silsilah berdasarkan waktu terjadinya silsilah:
Waktu Mulai: menampilkan silsilah yang terjadi setelah waktu mulai.
Waktu Berakhir: menampilkan silsilah yang terjadi sebelum waktu berakhir.
Kedalaman mengacu pada seberapa jauh sumber atau resource turunan dari resource root. Tampilan daftar menampilkan hingga 1.000 link silsilah, dengan kedalaman maksimum dari root adalah 10 link silsilah. Jika ada silsilah di luar rentang ini, Anda akan diberi tahu. Anda dapat melihat silsilah di luar rentang ini dengan memilih nama entitas lain dalam tampilan daftar.
Panel Detail menampilkan informasi untuk sumber link, target link, dan untuk semua proses yang membuat link ini.
Anda dapat menyesuaikan kolom yang ditampilkan dalam tabel dan memfilter hasil. Anda juga dapat mengekspor hasilnya ke file CSV.
Pelacakan silsilah data otomatis
Saat Anda mengaktifkan Data Lineage API, Google Cloud sistem yang mendukung silsilah data mulai melaporkan pergerakan data mereka. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai sumber data. Untuk mengetahui informasi selengkapnya tentang setiap produk yang didukung, lihat bagian berikut.
BigQuery
Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Katalog Universal Dataplex mencatat informasi silsilah secara otomatis untuk:
Tabel baru sebagai hasil dari tugas BigQuery berikut:
- Tugas penyalinan
- Tugas pemuatan yang menggunakan Cloud Storage URI untuk memuat data dalam format yang diizinkan dari Cloud Storage
- Tugas kueri yang menggunakan bahasa definisi data (DDL) berikut di GoogleSQL:
Tabel yang ada sebagai hasil dari penggunaan pernyataan bahasa pengolahan data (DML) berikut di GoogleSQL:
- SELECT terkait dengan salah satu jenis tabel yang tercantum:
- INSERT SELECT
- GABUNGKAN
- UPDATE
- DELETE
Tugas penyalinan, kueri, dan pemuatan BigQuery ditampilkan sebagai proses. Untuk melihat detail proses,
di grafik silsilah, klik
.
Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.
Layanan lainnya
Penelusuran data mendukung integrasi dengan layananGoogle Cloud berikut:
Asal data untuk sumber data kustom
Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.
Dataplex Universal Catalog dapat membuat grafik silsilah untuk silsilah yang dicatat secara manual jika Anda menggunakan
fullyQualifiedName
yang cocok dengan nama yang sepenuhnya
memenuhi syarat dari entri Dataplex Universal Catalog yang ada. Jika Anda ingin merekam silsilah untuk sumber data kustom, buat entri kustom terlebih dahulu.
Setiap proses untuk sumber data kustom dapat berisi sql
kunci dalam daftar atribut. Nilai kunci tersebut akan digunakan untuk merender sorotan kode di panel detail grafik asal data. Pernyataan SQL akan ditampilkan seperti yang diberikan. Pengguna bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql
peka huruf besar/kecil.
OpenLineage
Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Katalog Universal Dataplex dan menampilkan peristiwa ini di konsol Google Cloud . Untuk mengetahui detailnya, lihat Mengintegrasikan dengan OpenLineage.
Batasan
- Semua informasi silsilah dipertahankan dalam sistem hanya selama 30 hari.
- Informasi asal tetap ada setelah Anda menghapus sumber data terkaitnya. Artinya, jika Anda menghapus tabel BigQuery dan entri Dataplex Universal Catalog-nya, Anda tetap dapat membaca silsilah tabel tersebut menggunakan API hingga 30 hari.
Mengakses silsilah data
Untuk mengetahui informasi selengkapnya tentang cara mengakses silsilah data, lihat Menggunakan silsilah data dengan sistem Google Cloud dan Data Lineage API.
Harga
Katalog Universal Dataplex menggunakan SKU pemrosesan premium untuk menagih biaya silsilah data. Untuk informasi selengkapnya, lihat Harga.
Untuk memisahkan biaya silsilah data dari biaya lainnya di SKU pemrosesan premium Dataplex Universal Catalog, di laporan Penagihan Cloud, gunakan label
goog-dataplex-workload-type
dengan nilaiLINEAGE
.Jika Anda memanggil Data Lineage API
Origin
sourceType
dengan nilai selainCUSTOM
, hal ini akan menimbulkan biaya tambahan.
Langkah berikutnya
Pelajari cara melacak silsilah data untuk tugas kueri dan salinan tabel BigQuery.
Pelajari cara menggunakan asal-usul data dengan sistem Google Cloud .
Untuk informasi administratif, lihat pertimbangan silsilah data dan logging audit silsilah data.