Menggunakan silsilah data di Dataflow

Silsilah data adalah fitur Dataflow yang memungkinkan Anda melacak cara data bergerak melalui sistem: dari mana data berasal, ke mana data diteruskan, dan transformasi apa yang diterapkan pada data.

Setiap pipeline yang Anda jalankan menggunakan Dataflow memiliki beberapa aset data terkait. Silsilah aset data mencakup asalnya, apa yang terjadi pada aset data tersebut, dan ke mana aset data tersebut berpindah dari waktu ke waktu. Dengan urutan data, Anda dapat melacak pergerakan aset data secara menyeluruh, dari asal hingga tujuan akhir.

Saat Anda mengaktifkan silsilah data untuk tugas Dataflow, Dataflow akan merekam peristiwa silsilah dan memublikasikannya ke Data Lineage API Dataplex Universal Catalog.

Untuk mengakses informasi silsilah melalui Dataplex Universal Catalog, lihat Menggunakan silsilah data dengan sistem Google Cloud .

Sebelum memulai

Siapkan project Anda:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.

    Enable the APIs

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.

    Enable the APIs

  6. Di Dataflow, Anda juga perlu mengaktifkan silsilah di tingkat tugas. Lihat Mengaktifkan silsilah data di Dataflow dalam dokumen ini.

    Peran yang diperlukan

    Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:

    Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

    Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

    Untuk mengetahui informasi selengkapnya tentang peran silsilah data, lihat Peran standar untuk silsilah data.

    Dukungan dan batasan

    Linieritas data di Dataflow memiliki batasan berikut:

    • Silsilah data didukung di Apache Beam SDK versi 2.63.0 dan yang lebih baru.
    • Anda harus mengaktifkan silsilah data berdasarkan per tugas.
    • Pengambilan data tidak dilakukan secara instan. Data silsilah tugas Dataflow dapat memerlukan waktu beberapa menit untuk muncul di Dataplex Universal Catalog.
    • Sumber dan sink berikut didukung:

      • Apache Kafka
      • BigQuery
      • Bigtable
      • Cloud Storage
      • JDBC (Java Database Connectivity)
      • Pub/Sub
      • Spanner

      Template Dataflow yang menggunakan sumber dan tujuan ini juga otomatis merekam dan memublikasikan peristiwa silsilah.

    Mengaktifkan silsilah data di Dataflow

    Anda harus mengaktifkan silsilah di tingkat tugas. Untuk mengaktifkan silsilah data, gunakan enable_lineage opsi layanan Dataflow sebagai berikut:

    Java

    --dataflowServiceOptions=enable_lineage=true
    

    Python

    --dataflow_service_options=enable_lineage=true
    

    Go

    --dataflow_service_options=enable_lineage=true
    

    gcloud

    Gunakan perintah gcloud dataflow jobs run dengan opsi additional-experiments. Jika Anda menggunakan Template Flex, gunakan perintah gcloud dataflow flex-template run.

    --additional-experiments=enable_lineage=true
    

    Secara opsional, Anda dapat menentukan satu atau kedua parameter berikut dengan opsi layanan:

    • process_id: ID unik yang digunakan Dataplex Universal Catalog untuk mengelompokkan jalannya tugas. Jika tidak ditentukan, nama tugas akan digunakan.
    • process_name: Nama yang mudah dibaca untuk proses silsilah data. Jika tidak ditentukan, nama tugas yang diawali dengan "Dataflow " akan digunakan.

    Tentukan opsi ini sebagai berikut:

    Java

    --dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Python

    --dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Go

    --dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    gcloud

    --additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Melihat silsilah di Katalog Universal Dataplex

    Silsilah data memberikan informasi tentang hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat melihat informasi asal data di konsol Google Cloud dalam bentuk grafik atau tabel tunggal. Anda juga dapat mengambil informasi silsilah data dari Data Lineage API dalam bentuk data JSON.

    Untuk mengetahui informasi selengkapnya, lihat Menggunakan silsilah data dengan sistem Google Cloud .

    Menonaktifkan silsilah data di Dataflow

    Jika asal-usul data diaktifkan untuk tugas tertentu dan Anda ingin menonaktifkannya, batalkan tugas yang ada dan jalankan versi baru tugas tanpa opsi layanan enable_lineage.

    Penagihan

    Penggunaan silsilah data di Dataflow tidak memengaruhi tagihan Dataflow Anda, tetapi dapat menimbulkan biaya tambahan pada tagihan Katalog Universal Dataplex Anda. Untuk mengetahui informasi selengkapnya, lihat Pertimbangan silsilah data dan Harga Katalog Universal Dataplex.

    Langkah berikutnya