Ringkasan tugas kualitas data

Tugas kualitas data Katalog Universal Dataplex memungkinkan Anda menentukan dan menjalankan pemeriksaan kualitas data di seluruh tabel di BigQuery dan Cloud Storage. Tugas kualitas data Katalog Universal Dataplex juga memungkinkan Anda menerapkan kontrol data reguler di lingkungan BigQuery.

Kapan harus membuat tugas kualitas data Dataplex Universal Catalog

Tugas kualitas data Katalog Universal Dataplex dapat membantu Anda dengan hal berikut:

  • Memvalidasi data sebagai bagian dari pipeline produksi data.
  • Memantau secara rutin kualitas set data berdasarkan ekspektasi Anda.
  • Membuat laporan kualitas data untuk persyaratan peraturan.

Manfaat

  • Spesifikasi yang dapat disesuaikan. Anda dapat menggunakan sintaksis YAML yang sangat fleksibel untuk mendeklarasikan aturan kualitas data.
  • Implementasi serverless. Katalog Universal Dataplex tidak memerlukan penyiapan infrastruktur apa pun.
  • Zero-copy dan bentang bawah otomatis. Pemeriksaan YAML dikonversi ke SQL dan didorong ke BigQuery, sehingga tidak ada data yang disalin.
  • Pemeriksaan kualitas data yang dapat dijadwalkan. Anda dapat menjadwalkan pemeriksaan kualitas data melalui penjadwal serverless di Dataplex Universal Catalog, atau menggunakan Dataplex API melalui penjadwal eksternal seperti Cloud Composer untuk integrasi pipeline.
  • Pengalaman terkelola. Katalog Universal Dataplex menggunakan mesin kualitas data open source, CloudDQ, untuk menjalankan pemeriksaan kualitas data. Namun, Katalog Universal Dataplex memberikan pengalaman terkelola yang lancar untuk menjalankan pemeriksaan kualitas data Anda.

Cara kerja tugas kualitas data

Diagram berikut menunjukkan cara kerja tugas kualitas data Katalog Universal Dataplex:

gambar

  • Input dari pengguna
    • Spesifikasi YAML: Sekumpulan yang berisi satu atau beberapa file YAML yang menentukan aturan kualitas data berdasarkan sintaksis spesifikasi. Anda menyimpan file YAML di bucket Cloud Storage di project Anda. Pengguna dapat menjalankan beberapa aturan secara bersamaan, dan aturan tersebut dapat diterapkan ke berbagai tabel BigQuery, termasuk tabel di berbagai set data atau project Google Cloud. Spesifikasi mendukung operasi inkremental hanya untuk memvalidasi data baru. Untuk membuat spesifikasi YAML, lihat Membuat file spesifikasi.
    • Tabel hasil BigQuery: Tabel yang ditentukan pengguna tempat penyimpanan hasil validasi kualitas data. Project Google Cloud tempat tabel ini berada dapat menjadi project yang berbeda dengan project yang menggunakan tugas kualitas data Dataplex Universal Catalog.
  • Tabel untuk divalidasi
    • Dalam spesifikasi YAML, Anda harus menentukan tabel mana yang ingin divalidasi untuk aturan tertentu, yang juga dikenal sebagai binding aturan. Tabel tersebut dapat berupa tabel native BigQuery atau tabel eksternal BigQuery di Cloud Storage. Spesifikasi YAML memungkinkan Anda menentukan tabel di dalam atau di luar zona Katalog Universal Dataplex.
    • Tabel BigQuery dan Cloud Storage yang divalidasi dalam satu operasi dapat menjadi bagian dari project yang berbeda.
  • Tugas kualitas data Katalog Universal Dataplex: Tugas kualitas data Katalog Universal Dataplex dikonfigurasi dengan biner CloudDQ PySpark bawaan yang dikelola serta menggunakan spesifikasi YAML dan tabel hasil BigQuery sebagai input. Serupa dengan tugas Katalog Universal Dataplex lainnya, tugas kualitas data Katalog Universal Dataplex berjalan di lingkungan Spark serverless, mengonversi spesifikasi YAML menjadi kueri BigQuery, lalu menjalankan kueri tersebut pada tabel yang ditentukan dalam file spesifikasi.

Harga

Saat menjalankan tugas kualitas data Katalog Universal Dataplex, Anda akan dikenai biaya atas penggunaan BigQuery dan Dataproc Serverless (Batch).

  • Tugas kualitas data Katalog Universal Dataplex mengonversi file spesifikasi menjadi kueri BigQuery dan menjalankannya di project pengguna. Lihat bagian Harga BigQuery.

  • Dataplex Universal Catalog menggunakan Spark untuk menjalankan program driver CloudDQ open source yang telah dibuat sebelumnya dan dikelola Google untuk mengonversi spesifikasi pengguna ke kueri BigQuery. Lihat Harga Dataproc Serverless.

Penggunaan Dataplex Universal Catalog untuk mengatur data atau penggunaan penjadwal serverless di Dataplex Universal Catalog untuk menjadwalkan pemeriksaan kualitas data tidak akan dikenai biaya. Lihat Harga Katalog Universal Dataplex.

Langkah berikutnya