Silsilah data adalah fitur Dataflow yang memungkinkan Anda melacak cara data berpindah melalui sistem: tempat asalnya, tempat data diteruskan, dan transformasi yang diterapkan pada data.
Setiap pipeline yang Anda jalankan menggunakan Dataflow memiliki beberapa aset data terkait. Silsilah aset data mencakup asalnya, apa yang terjadi pada aset tersebut, dan tempat aset tersebut dipindahkan dari waktu ke waktu. Dengan silsilah data, Anda dapat melacak pergerakan aset data secara menyeluruh, dari asal hingga tujuan akhir.
Saat Anda mengaktifkan lineage data untuk tugas Dataflow, Dataflow akan merekam peristiwa lineage dan memublikasikannya ke Data Lineage API Dataplex.
Untuk mengakses informasi silsilah melalui Dataplex, lihat Menggunakan silsilah data dengan Google Cloud sistem.
Sebelum memulai
Siapkan project Anda:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
Di Dataflow, Anda juga perlu mengaktifkan garis keturunan di tingkat tugas. Lihat Mengaktifkan silsilah data di Dataflow dalam dokumen ini.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:
-
Pelihat Katalog Dataplex (
roles/dataplex.catalogViewer
) pada project resource Dataplex -
Data Lineage Viewer (
roles/datalineage.viewer
) pada project tempat Anda menggunakan Dataflow -
Pelihat Dataflow (
roles/dataflow.viewer
) pada project tempat Anda menggunakan Dataflow
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk mengetahui informasi selengkapnya tentang peran silsilah data, lihat Peran standar untuk silsilah data.
Dukungan dan batasan
Lineage data di Dataflow memiliki batasan berikut:
- Lineage data didukung di Apache Beam SDK versi 2.63.0 dan yang lebih baru.
- Anda harus mengaktifkan silsilah data berdasarkan per tugas.
- Pengambilan data tidak langsung. Diperlukan waktu beberapa menit agar data urutan tugas Dataflow muncul di Dataplex.
Sumber dan sink berikut didukung:
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
Template dataflow yang menggunakan sumber dan sink ini juga otomatis merekam dan memublikasikan peristiwa lineage.
Mengaktifkan silsilah data di Dataflow
Anda harus mengaktifkan garis keturunan di tingkat tugas. Untuk mengaktifkan silsilah data,
gunakan enable_lineage
opsi layanan Dataflow
sebagai berikut:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Gunakan
perintah gcloud dataflow jobs run
dengan opsi additional-experiments
. Jika Anda menggunakan Template Fleksibel, gunakan perintah gcloud dataflow flex-template run
.
--additional-experiments=enable_lineage=true
Secara opsional, Anda dapat menentukan salah satu atau kedua parameter berikut dengan opsi layanan:
process_id
: ID unik yang digunakan Dataplex untuk mengelompokkan eksekusi tugas. Jika tidak ditentukan, nama tugas akan digunakan.process_name
: Nama yang dapat dibaca manusia untuk proses garis keturunan data. Jika tidak ditentukan, nama tugas dengan awalan"Dataflow "
akan digunakan.
Tentukan opsi ini sebagai berikut:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Melihat silsilah di Dataplex
Lineage data memberikan informasi tentang hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat melihat informasi silsilah data di konsol Google Cloud dalam bentuk grafik atau satu tabel. Anda juga dapat mengambil informasi silsilah data dari Data Lineage API dalam bentuk data JSON.
Untuk mengetahui informasi selengkapnya, lihat Menggunakan silsilah data dengan Google Cloud sistem.
Menonaktifkan silsilah data di Dataflow
Jika garis keturunan data diaktifkan untuk tugas tertentu dan Anda ingin menonaktifkannya, batalkan tugas yang ada dan jalankan versi baru tugas tanpa
opsi layanan enable_lineage
.
Penagihan
Penggunaan lineage data di Dataflow tidak memengaruhi tagihan Dataflow, tetapi dapat menimbulkan tagihan tambahan pada tagihan Dataplex. Untuk mengetahui informasi selengkapnya, lihat Pertimbangan silsilah data dan Harga Dataplex.
Langkah berikutnya
- Pelajari silsilah data lebih lanjut.
- Pelajari cara menggunakan lineage data.