Tentang silsilah data

Silsilah data membantu Anda melacak cara data berpindah melalui sistem Anda. Anda dapat melihat asal, tujuan, dan transformasi yang diterapkan pada aset data.

Anda dapat melihat informasi silsilah di konsol Google Cloud untuk aset Dataplex Universal Catalog, BigQuery, dan Vertex AI, atau Anda dapat mengambilnya menggunakan Data Lineage API.

Alasan Anda memerlukan urutan data

Set data besar sering kali memerlukan transformasi data ke dalam berbagai format untuk proyek tertentu, seperti file teks, tabel, laporan, dasbor, dan model.

Misalnya, toko online mungkin memiliki pipeline data dengan alur berikut:

  1. Tugas Dataflow membaca peristiwa pembelian mentah dari topik Pub/Sub, detail produk dari file Cloud Storage, dan informasi pelanggan dari tabel BigQuery. Tugas ini menggabungkan informasi ini dan membuat tabel purchases di BigQuery.

  2. Tugas BigQuery berikutnya mengubah tabel purchases untuk membuat tabel yang lebih kecil dan diagregasi, seperti region atau brand, dan menghitung kolom baru, seperti total_profit.

  3. Analis menggunakan tabel ini untuk membuat laporan dan dasbor di Looker.

Skenario umum ini dapat menimbulkan beberapa tantangan:

  • Konsumen data tidak memiliki metode layanan mandiri untuk memverifikasi apakah data berasal dari sumber yang tepercaya.

  • Engineer data kesulitan menemukan akar penyebab masalah karena mereka tidak dapat melacak semua transformasi data secara andal. Misalnya, jika seorang analis menemukan error di kolom total_profit, akan sulit untuk melacak asal error tersebut.

  • Engineer dan analis data tidak dapat sepenuhnya menilai potensi dampak dari mengubah atau menghapus tabel. Misalnya, sebelum menghentikan penggunaan kolom product_id, mereka harus mengidentifikasi semua kolom hilir yang bergantung untuk menghindari kerusakan laporan.

  • Pengelola data tidak memiliki visibilitas tentang cara data sensitif digunakan di seluruh organisasi, sehingga sulit untuk memastikan kepatuhan terhadap persyaratan peraturan.

Silsilah data menyelesaikan masalah ini dengan memberikan peta visual yang jelas tentang perjalanan data Anda. Dengan asal-usul data, Anda dapat melakukan hal berikut:

  • Pahami cara data diperoleh dan diubah menggunakan grafik urutan data.

  • Melacak error dalam entri dan operasi data hingga ke akar penyebabnya.

  • Aktifkan pengelolaan perubahan yang lebih baik melalui analisis dampak untuk menghindari periode nonaktif atau error yang tidak terduga, memahami dependensi, dan berkolaborasi dengan pemangku kepentingan.

Alur kerja silsilah data

Alur kerja asal data mencakup langkah-langkah berikut:

  1. Sumber data dan penyerapan: informasi silsilah dari sumber data Anda memulai seluruh proses. Untuk mengetahui informasi selengkapnya, lihat Sumber asal-usul.

    • Google Cloud layanan: saat Data Lineage API diaktifkan, layanan yang didukung seperti BigQuery dan Dataflow akan otomatis melaporkan peristiwa silsilah setiap kali data dipindahkan atau diubah.

    • Sumber kustom: untuk sistem apa pun yang tidak didukung secara otomatis oleh integrasiGoogle Cloud , Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual. Sebaiknya impor peristiwa yang diformat sesuai dengan standar OpenLineage.

  2. Platform silsilah: platform pusat ini menyerap, memodelkan, dan menyimpan semua data silsilah. Untuk mengetahui informasi selengkapnya, lihat Model dan perincian informasi silsilah.

    • Data Lineage API: API ini bertindak sebagai titik entri tunggal untuk semua informasi silsilah yang masuk. Model ini menggunakan model data hierarkis yang terdiri dari tiga konsep inti: proses, eksekusi, dan peristiwa.

    • Pemrosesan dan penyimpanan: platform memproses data yang masuk dan menyimpannya dalam database yang andal dan dioptimalkan untuk kueri.

  3. Pengalaman pengguna: Anda dapat berinteraksi dengan informasi silsilah yang disimpan dengan dua cara utama:

    • Eksplorasi visual: di konsol Google Cloud , layanan frontend mengambil dan merender data silsilah sebagai grafik atau daftar interaktif. Fitur ini didukung untuk Katalog Universal Dataplex, BigQuery, dan Vertex AI (untuk model, set data, tampilan feature store, dan grup fitur). Cara ini ideal untuk menjelajahi perjalanan data Anda secara visual. Untuk informasi selengkapnya, lihat Tampilan asal di konsol. Google Cloud

    • Akses terprogram: menggunakan klien API, Anda dapat berkomunikasi langsung dengan Data Lineage API untuk mengotomatiskan pengelolaan silsilah. Dengan begitu, Anda dapat menulis informasi silsilah dari sumber kustom. Selain itu, Anda dapat membaca dan membuat kueri data silsilah yang disimpan untuk digunakan di aplikasi lain atau untuk membuat laporan kustom.

Sumber silsilah

Anda dapat mengisi informasi silsilah di Dataplex Universal Catalog dengan cara berikut:

  • Secara otomatis dari layanan Google Cloud terintegrasi
  • Secara manual, dengan menggunakan Data Lineage API untuk sumber kustom
  • Dengan mengimpor peristiwa dari OpenLineage

Pelacakan silsilah data otomatis

Saat Anda mengaktifkan Data Lineage API, Google Cloud sistem yang mendukung silsilah data akan mulai melaporkan pergerakan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai sumber data.

BigQuery

Saat Anda mengaktifkan silsilah data di project BigQuery, Katalog Universal Dataplex akan otomatis mencatat informasi silsilah untuk hal berikut:

Tugas penyalinan, kueri, dan pemuatan BigQuery ditampilkan sebagai proses.

Untuk melihat detail proses, di grafik silsilah, klik .

Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.

Layanan lainnya

Penelusuran data mendukung integrasi dengan layananGoogle Cloud berikut:

Asal-usul data untuk sumber data kustom

Anda dapat menggunakan Data Lineage API untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.

Dataplex Universal Catalog dapat membuat grafik silsilah untuk silsilah yang dicatat secara manual jika Anda menggunakan fullyQualifiedName yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Dataplex Universal Catalog yang ada. Jika ingin merekam asal-usul untuk sumber data kustom, Anda harus membuat entri kustom terlebih dahulu.

Setiap proses untuk sumber data kustom dapat berisi kunci sql dalam daftar atribut. Nilai kunci ini digunakan untuk merender sorotan kode di panel detail grafik asal data. Pernyataan SQL ditampilkan sebagaimana diberikan. Anda bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql peka huruf besar/kecil.

OpenLineage

Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex Universal Catalog dan melihat peristiwa ini di konsol Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Mengintegrasikan dengan OpenLineage.

Batasan

Berikut adalah batasan untuk asal data:

  • Semua informasi silsilah dipertahankan dalam sistem hanya selama 30 hari.

  • Informasi asal data tetap ada setelah Anda menghapus sumber data terkait. Misalnya, jika Anda menghapus tabel BigQuery, Anda masih dapat melihat silsilahnya melalui API dan konsol hingga 30 hari.

Batasan silsilah tingkat kolom

Silsilah tingkat kolom memiliki batasan tambahan berikut:

  • Silsilah tingkat kolom tidak dikumpulkan untuk tugas pemuatan BigQuery atau untuk rutin.

  • Silsilah tingkat kolom upstream tidak dikumpulkan untuk tabel eksternal.

  • Silsilah tingkat kolom tidak dikumpulkan jika tugas membuat lebih dari 1.500 link tingkat kolom. Dalam kasus ini, hanya silsilah tingkat tabel yang dikumpulkan.

  • Tidak ada API untuk membuat, membaca, memperbarui, menghapus, atau menelusuri asal data tingkat kolom.

  • Dukungan untuk tabel berpartisi terbatas, karena kolom partisi seperti _PARTITIONDATE dan _PARTITIONTIME tidak dikenali dalam grafik silsilah.

  • Batasan konsol:

    • Penelusuran grafik silsilah dibatasi hingga kedalaman 20 tingkat dan 10.000 link di setiap arah.

    • Silsilah tingkat kolom hanya diambil dari region tempat tabel root berada. Tidak ada dukungan untuk silsilah lintas-region dalam tampilan grafik.

Harga

  • Katalog Universal Dataplex menggunakan SKU pemrosesan premium untuk menagih biaya silsilah data. Untuk informasi selengkapnya, lihat Harga.

  • Untuk memisahkan biaya silsilah data dari biaya lainnya di SKU pemrosesan premium Dataplex Universal Catalog, di laporan Penagihan Cloud, gunakan label goog-dataplex-workload-type dengan nilai LINEAGE.

  • Jika Anda memanggil Data Lineage API Origin sourceType dengan nilai selain CUSTOM, hal ini akan menimbulkan biaya tambahan.

Langkah berikutnya