Memindai masalah kualitas data

Dokumen ini menjelaskan cara menggunakan BigQuery dan Dataplex Universal Catalog secara bersamaan untuk memastikan bahwa data memenuhi ekspektasi kualitas Anda. Kualitas data otomatis Dataplex Universal Catalog memungkinkan Anda menentukan dan mengukur kualitas data di tabel BigQuery. Anda dapat mengotomatiskan pemindaian data, memvalidasi data terhadap aturan yang ditentukan, dan mencatat pemberitahuan jika data Anda tidak memenuhi persyaratan kualitas.

Untuk mengetahui informasi selengkapnya tentang kualitas data otomatis, lihat Ringkasan kualitas data otomatis.

Sebelum memulai

  1. Enable the Dataplex API.

    Enable the API

  2. Opsional: Jika Anda ingin Dataplex Universal Catalog membuat rekomendasi untuk aturan kualitas data berdasarkan hasil pemindaian profil data, buat dan jalankan pemindaian profil data.

Peran yang diperlukan

  • Untuk menjalankan pemindaian kualitas data pada tabel BigQuery, Anda memerlukan izin untuk membaca tabel BigQuery dan izin untuk membuat tugas BigQuery di project yang digunakan untuk memindai tabel.

  • Jika tabel BigQuery dan pemindaian kualitas data berada di project yang berbeda, Anda harus memberikan izin baca ke akun layanan Dataplex Universal Catalog dari project yang berisi pemindaian kualitas data untuk tabel BigQuery yang sesuai.

  • Jika aturan kualitas data merujuk ke tabel tambahan, akun layanan project pemindaian harus memiliki izin baca pada tabel yang sama.

  • Untuk mendapatkan izin yang diperlukan untuk mengekspor hasil pemindaian ke tabel BigQuery, minta administrator Anda untuk memberikan peran IAM BigQuery Data Editor (roles/bigquery.dataEditor) kepada akun layanan Dataplex Universal Catalog di set data dan tabel hasil. Hal ini memberikan izin berikut:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Jika data BigQuery diatur di lake Katalog Universal Dataplex, berikan peran IAM Dataplex Metadata Reader (roles/dataplex.metadataReader) dan Dataplex Viewer (roles/dataplex.viewer) ke akun layanan Katalog Universal Dataplex. Atau, Anda memerlukan semua izin berikut:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Jika Anda memindai tabel eksternal BigQuery dari Cloud Storage, berikan peran Storage Object Viewer (roles/storage.objectViewer) untuk bucket kepada akun layanan Dataplex Universal Catalog. Atau, tetapkan izin berikut ke akun layanan Dataplex Universal Catalog:

    • storage.buckets.get
    • storage.objects.get
  • Jika ingin memublikasikan hasil pemindaian kualitas data sebagai metadata Katalog Universal Dataplex, Anda harus diberi peran IAM Editor Data BigQuery (roles/bigquery.dataEditor) untuk tabel, dan izin dataplex.entryGroups.useDataQualityScorecardAspect pada grup entri @bigquery di lokasi yang sama dengan tabel. Atau, Anda harus diberi peran Dataplex Catalog Editor (roles/dataplex.catalogEditor) untuk grup entri @bigquery di lokasi yang sama dengan tabel.

    Atau, Anda memerlukan semua izin berikut:

    • bigquery.tables.get - di atas meja
    • bigquery.tables.update - di atas meja
    • bigquery.tables.updateData - di atas meja
    • bigquery.tables.delete - di atas meja
    • dataplex.entryGroups.useDataQualityScorecardAspect - di grup entri @bigquery

    Atau, Anda memerlukan semua izin berikut:

    • dataplex.entries.update - di grup entri @bigquery
    • dataplex.entryGroups.useDataQualityScorecardAspect - di grup entri @bigquery
  • Jika Anda perlu mengakses kolom yang dilindungi oleh kebijakan akses tingkat kolom BigQuery, tetapkan izin akun layanan Dataplex Universal Catalog untuk kolom tersebut. Pengguna yang membuat atau memperbarui pemindaian data juga memerlukan izin untuk kolom.

  • Jika kebijakan akses tingkat baris BigQuery diaktifkan untuk tabel, Anda hanya dapat memindai baris yang terlihat oleh akun layanan Dataplex Universal Catalog. Perhatikan bahwa hak akses pengguna perorangan tidak dievaluasi untuk kebijakan tingkat baris.

Peran pemindaian data yang diperlukan

Untuk menggunakan kualitas data otomatis, minta administrator Anda untuk memberi Anda salah satu peran IAM berikut:

  • Akses penuh ke resource DataScan: Administrator Dataplex DataScan (roles/dataplex.dataScanAdmin)
  • Untuk membuat resource DataScan: Pembuat Dataplex DataScan (roles/dataplex.dataScanCreator) di project
  • Akses tulis ke resource DataScan: Editor Dataplex DataScan (roles/dataplex.dataScanEditor)
  • Akses baca ke resource DataScan, tidak termasuk aturan dan hasil: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer)
  • Akses baca ke resource DataScan, termasuk aturan dan hasil: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer)

Tabel berikut mencantumkan izin DataScan:

Nama izin Memberikan izin untuk melakukan hal berikut:
dataplex.datascans.create Membuat DataScan
dataplex.datascans.delete Menghapus DataScan
dataplex.datascans.get Melihat metadata operasional seperti ID atau jadwal, tetapi bukan hasil dan aturan
dataplex.datascans.getData Melihat detail DataScan termasuk aturan dan hasil
dataplex.datascans.list Daftar DataScan
dataplex.datascans.run Jalankan DataScan
dataplex.datascans.update Memperbarui deskripsi DataScan
dataplex.datascans.getIamPolicy Melihat izin IAM saat ini pada pemindaian
dataplex.datascans.setIamPolicy Menetapkan izin IAM pada pemindaian

Membuat pemindaian kualitas data

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik Buat pemindaian kualitas data.

  3. Di jendela Define scan, isi kolom berikut:

    1. Opsional: Masukkan Nama tampilan.

    2. Masukkan ID. Lihat konvensi penamaan resource.

    3. Opsional: Masukkan Deskripsi..

    4. Di kolom Table, klik Browse. Pilih tabel yang akan dipindai, lalu klik Pilih. Hanya tabel BigQuery standar yang didukung.

      Untuk tabel dalam set data multi-region, pilih region tempat pemindaian data akan dibuat.

      Untuk menjelajahi tabel yang disusun dalam data lake Dataplex Universal Catalog, klik Jelajahi dalam Data Lake Dataplex.

    5. Di kolom Cakupan, pilih Inkremental atau Seluruh data.

      • Jika Anda memilih Inkremental: Di kolom Stempel waktu, pilih kolom berjenis DATE atau TIMESTAMP dari tabel BigQuery yang bertambah saat data baru ditambahkan, dan yang dapat digunakan untuk mengidentifikasi data baru. Kolom ini dapat berupa kolom yang mempartisi tabel.
    6. Untuk memfilter data, centang kotak Filter baris. Berikan filter baris yang terdiri dari ekspresi SQL valid yang dapat digunakan sebagai bagian dari klausa WHERE dalam sintaksis GoogleSQL. Contohnya, col1 >= 0 Filter dapat berupa kombinasi dari beberapa kondisi kolom. Misalnya, col1 >= 0 AND col2 < 10.

    7. Untuk mengambil sampel data, di daftar Ukuran sampling, pilih persentase sampling. Pilih nilai persentase yang berkisar antara 0,0% dan 100,0% dengan maksimal 3 digit desimal. Untuk set data yang lebih besar, pilih persentase pengambilan sampel yang lebih rendah. Misalnya, untuk tabel 1 PB, jika Anda memasukkan nilai antara 0,1% dan 1,0%, pemindaian kualitas data akan mengambil sampel data antara 1-10 TB. Untuk pemindaian data inkremental, pemindaian kualitas data menerapkan pengambilan sampel pada penambahan terbaru.

    8. Untuk memublikasikan hasil pemindaian kualitas data sebagai metadata Dataplex Universal Catalog, centang kotak Publikasikan hasil ke BigQuery dan Katalog Dataplex.

      Anda dapat melihat hasil pemindaian terbaru di tab Kualitas data di halaman BigQuery dan Dataplex Universal Catalog untuk tabel sumber. Untuk mengizinkan pengguna mengakses hasil pemindaian yang dipublikasikan, lihat bagian Memberikan akses ke hasil pemindaian profil data dalam dokumen ini.

    9. Di bagian Jadwalkan, pilih salah satu opsi berikut:

      • Ulangi: Jalankan pemindaian kualitas data sesuai jadwal: per jam, harian, mingguan, bulanan, atau kustom. Tentukan seberapa sering pemindaian berjalan dan pada pukul berapa. Jika Anda memilih kustom, gunakan format cron untuk menentukan jadwal.

      • Sesuai permintaan: Jalankan pemindaian kualitas data sesuai permintaan.

    10. Klik Lanjutkan.

  4. Di jendela Aturan kualitas data, tentukan aturan yang akan dikonfigurasi untuk pemindaian kualitas data ini.

    1. Klik Tambahkan aturan, lalu pilih dari opsi berikut.

      • Rekomendasi berbasis profil: Buat aturan dari rekomendasi berdasarkan pemindaian pembuatan profil data yang ada.

        1. Pilih kolom: Pilih kolom untuk mendapatkan rekomendasi aturan.

        2. Pilih project pemindaian: Jika pemindaian pembuatan profil data berada di project yang berbeda dengan project tempat Anda membuat pemindaian kualitas data, pilih project untuk menarik pemindaian profil.

        3. Pilih hasil profil: Pilih satu atau beberapa hasil profil, lalu klik OKE. Tindakan ini akan mengisi daftar aturan yang disarankan yang dapat Anda gunakan sebagai titik awal.

        4. Centang kotak untuk aturan yang ingin Anda tambahkan, lalu klik Pilih. Setelah dipilih, aturan akan ditambahkan ke daftar aturan saat ini. Kemudian, Anda dapat mengedit aturan.

      • Jenis aturan bawaan: Buat aturan dari aturan standar. Lihat daftar aturan yang telah ditentukan sebelumnya.

        1. Pilih kolom: Pilih kolom untuk memilih aturan.

        2. Pilih jenis aturan: Pilih jenis aturan yang ingin Anda pilih, lalu klik Oke. Jenis aturan yang muncul bergantung pada kolom yang Anda pilih.

        3. Centang kotak untuk aturan yang ingin Anda tambahkan, lalu klik Pilih. Setelah dipilih, aturan akan ditambahkan ke daftar aturan saat ini. Kemudian, Anda dapat mengedit aturan.

      • Aturan pemeriksaan baris SQL: Buat aturan SQL kustom untuk diterapkan ke setiap baris.

        1. Di Dimensi, pilih satu dimensi.

        2. Di Nilai minimum lulus, pilih persentase catatan yang harus lulus pemeriksaan.

        3. Di Nama kolom, pilih kolom.

        4. Di kolom Berikan ekspresi SQL, masukkan ekspresi SQL yang dievaluasi ke true (lulus) atau false (gagal) boolean. Untuk mengetahui informasi selengkapnya, lihat Jenis aturan SQL kustom yang didukung dan contoh dalam Menentukan aturan kualitas data.

        5. Klik Tambahkan.

      • Aturan pemeriksaan agregat SQL: Buat aturan kondisi tabel SQL kustom.

        1. Di Dimensi, pilih satu dimensi.

        2. Di Nama kolom, pilih kolom.

        3. Di kolom Berikan ekspresi SQL, masukkan ekspresi SQL yang dievaluasi ke true (lulus) atau false (gagal) boolean. Untuk mengetahui informasi selengkapnya, lihat Jenis aturan SQL kustom yang didukung dan contoh dalam Menentukan aturan kualitas data.

        4. Klik Tambahkan.

      • Aturan pernyataan SQL: Buat aturan pernyataan SQL kustom untuk memeriksa status data yang tidak valid.

        1. Di Dimensi, pilih satu dimensi.

        2. Opsional: Di Nama kolom, pilih kolom.

        3. Di kolom Berikan pernyataan SQL, masukkan pernyataan SQL yang menampilkan baris yang cocok dengan status tidak valid. Jika ada baris yang ditampilkan, aturan ini akan gagal. Hapus titik koma di akhir pernyataan SQL. Untuk mengetahui informasi selengkapnya, lihat Jenis aturan SQL kustom yang didukung dan contoh dalam Menentukan aturan kualitas data.

        4. Klik Tambahkan.

    2. Opsional: Untuk setiap aturan kualitas data, Anda dapat menetapkan nama aturan kustom yang akan digunakan untuk pemantauan dan pemberitahuan, serta deskripsi. Untuk melakukannya, edit aturan dan tentukan detail berikut:

      • Nama aturan: Masukkan nama aturan kustom hingga 63 karakter. Nama aturan dapat mencakup huruf (a-z, A-Z), digit (0-9), dan tanda hubung (-), serta harus diawali dengan huruf dan diakhiri dengan angka atau huruf.
      • Deskripsi: Masukkan deskripsi aturan dengan panjang maksimum 1.024 karakter.
    3. Ulangi langkah-langkah sebelumnya untuk menambahkan aturan tambahan ke pemindaian kualitas data. Setelah selesai, klik Lanjutkan.

  5. Opsional: Ekspor hasil pemindaian ke tabel standar BigQuery. Di bagian Ekspor hasil pemindaian ke tabel BigQuery, lakukan hal berikut:

    1. Di kolom Select BigQuery dataset, klik Browse. Pilih set data BigQuery untuk menyimpan hasil pemindaian kualitas data.

    2. Di kolom Tabel BigQuery, tentukan tabel untuk menyimpan hasil pemindaian kualitas data. Jika Anda menggunakan tabel yang sudah ada, pastikan tabel tersebut kompatibel dengan skema tabel ekspor. Jika tabel yang ditentukan tidak ada, Dataplex Universal Catalog akan membuatnya untuk Anda.

  6. Opsional: Tambahkan label. Label adalah key-value pair yang memungkinkan Anda mengelompokkan objek terkait secara bersamaan atau dengan resource Google Cloud lainnya.

  7. Opsional: Siapkan laporan notifikasi email untuk memberi tahu orang lain tentang status dan hasil tugas pemindaian kualitas data. Di bagian Laporan notifikasi, klik Tambahkan ID email dan masukkan hingga lima alamat email. Kemudian, pilih skenario yang ingin Anda kirimkan laporannya:

    • Skor kualitas (<=): mengirim laporan saat tugas berhasil dengan skor kualitas data yang lebih rendah dari target skor yang ditentukan. Masukkan skor kualitas target antara 0 dan 100.
    • Kegagalan tugas: mengirim laporan saat tugas itu sendiri gagal, terlepas dari hasil kualitas data.
    • Penyelesaian tugas (berhasil atau gagal): mengirim laporan saat tugas berakhir, terlepas dari hasil kualitas data.
  8. Klik Buat.

    Setelah pemindaian dibuat, Anda dapat menjalankannya kapan saja dengan mengklik Jalankan sekarang.

gcloud

Untuk membuat pemindaian kualitas data, gunakan perintah gcloud dataplex datascans create data-quality.

Jika data sumber diatur dalam data lake Dataplex Universal Catalog, sertakan tanda --data-source-entity:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Jika data sumber tidak diatur dalam data lake Dataplex Universal Catalog, sertakan flag --data-source-resource:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian kualitas data.
  • LOCATION: Google Cloud region tempat pemindaian kualitas data akan dibuat.
  • DATA_QUALITY_SPEC_FILE: Jalur ke file JSON atau YAML yang berisi spesifikasi untuk pemindaian kualitas data. File dapat berupa file lokal atau jalur Cloud Storage dengan awalan gs://. Gunakan file ini untuk menentukan aturan kualitas data untuk pemindaian. Anda juga dapat menentukan detail tambahan dalam file ini, seperti filter, persentase pengambilan sampel, dan tindakan pasca-pemindaian seperti mengekspor ke BigQuery atau mengirim laporan notifikasi email. Lihat dokumentasi untuk representasi JSON dan contoh representasi YAML.
  • DATA_SOURCE_ENTITY: Entitas Dataplex Universal Catalog yang berisi data untuk pemindaian kualitas data. Contoh, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: Nama resource yang berisi data untuk pemindaian kualitas data. Contoh, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Untuk membuat pemindaian kualitas data, gunakan metode dataScans.create.

Jika Anda ingin membuat aturan untuk pemindaian kualitas data menggunakan rekomendasi aturan yang didasarkan pada hasil pemindaian pembuatan profil data, dapatkan rekomendasi dengan memanggil metode dataScans.jobs.generateDataQualityRules pada pemindaian pembuatan profil data.

Menjalankan pemindaian kualitas data

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik pemindaian kualitas data yang akan dijalankan.

  3. Klik Jalankan sekarang.

gcloud

Untuk menjalankan pemindaian kualitas data, gunakan perintah gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Ganti variabel berikut:

  • LOCATION: Region Google Cloud tempat pemindaian kualitas data dibuat.
  • DATASCAN: Nama pemindaian kualitas data.

REST

Untuk menjalankan pemindaian kualitas data, gunakan metode dataScans.run.

Lihat hasil pemindaian kualitas data

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian kualitas data.

    • Bagian Ringkasan menampilkan informasi tentang tugas terbaru, termasuk waktu pemindaian dijalankan, jumlah kumpulan data yang dipindai di setiap tugas, apakah semua pemeriksaan kualitas data lulus, dan jika ada kegagalan, jumlah pemeriksaan kualitas data yang gagal.

    • Bagian Konfigurasi pemindaian kualitas data menampilkan detail tentang pemindaian.

  3. Untuk melihat informasi mendetail tentang tugas, seperti skor kualitas data yang menunjukkan persentase aturan yang lulus, aturan yang gagal, dan log tugas, klik tab Histori tugas. Kemudian, klik ID tugas.

gcloud

Untuk melihat hasil tugas pemindaian kualitas data, gunakan perintah gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ganti variabel berikut:

  • JOB: ID tugas dari tugas pemindaian kualitas data.
  • LOCATION: Region Google Cloud tempat pemindaian kualitas data dibuat.
  • DATASCAN: Nama pemindaian kualitas data yang menjadi bagian dari tugas ini.
  • --view=FULL: Untuk melihat hasil tugas pemindaian, tentukan FULL.

REST

Untuk melihat hasil pemindaian kualitas data, gunakan metode dataScans.get.

Lihat hasil yang dipublikasikan

Jika hasil pemindaian kualitas data dipublikasikan sebagai metadata Dataplex Universal Catalog, Anda dapat melihat hasil pemindaian terbaru di halaman BigQuery dan Dataplex Universal Catalog di konsolGoogle Cloud , pada tab Kualitas data tabel sumber.

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih tabel yang hasil pemindaian kualitas datanya ingin Anda lihat.

  3. Klik tab Kualitas data.

    Hasil terbaru yang dipublikasikan ditampilkan.

Lihat hasil pemindaian historis

Dataplex Universal Catalog menyimpan histori pemindaian kualitas data dari 300 tugas terakhir atau selama satu tahun terakhir, mana saja yang terjadi lebih dulu.

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian kualitas data.

  3. Klik tab Histori tugas.

    Tab Histori tugas memberikan informasi tentang tugas sebelumnya, seperti jumlah catatan yang dipindai di setiap tugas, status tugas, waktu tugas dijalankan, dan apakah setiap aturan lulus atau gagal.

  4. Untuk melihat informasi mendetail tentang tugas, klik salah satu tugas di kolom ID Tugas.

gcloud

Untuk melihat tugas pemindaian kualitas data historis, gunakan perintah gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Ganti variabel berikut:

  • LOCATION: Region Google Cloud tempat pemindaian kualitas data dibuat.
  • DATASCAN: Nama pemindaian kualitas data untuk melihat histori tugas.

REST

Untuk melihat tugas pemindaian kualitas data historis, gunakan metode dataScans.jobs.list.

Memberikan akses ke hasil pemindaian kualitas data

Agar pengguna di organisasi Anda dapat melihat hasil pemindaian, lakukan hal berikut:

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik pemindaian kualitas data yang hasilnya ingin Anda bagikan.

  3. Klik tab Izin.

  4. Lakukan tindakan berikut:

    • Untuk memberikan akses ke akun utama, klik Grant access. Berikan peran Dataplex DataScan DataViewer kepada akun utama yang terkait.
    • Untuk menghapus akses dari akun utama, pilih akun utama yang ingin Anda hapus peran Dataplex DataScan DataViewer-nya. Klik Hapus akses, lalu konfirmasi saat diminta.

Memecahkan masalah kegagalan kualitas data

Anda dapat menyetel pemberitahuan untuk kegagalan kualitas data menggunakan log di Cloud Logging. Untuk mengetahui informasi selengkapnya, termasuk contoh kueri, lihat artikel Menyetel pemberitahuan di Cloud Logging.

Untuk setiap tugas dengan aturan tingkat baris yang gagal, Dataplex Universal Catalog menyediakan kueri untuk mendapatkan data yang gagal. Jalankan kueri ini untuk melihat catatan yang tidak cocok dengan aturan Anda.

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian kualitas data yang rekamannya ingin Anda pecahkan masalahnya.

  3. Klik tab Histori tugas.

  4. Klik ID tugas dari tugas yang mengidentifikasi kegagalan kualitas data.

  5. Di jendela hasil tugas yang terbuka, di bagian Rules, cari kolom Query to get failed records. Klik Salin kueri ke papan klip untuk aturan yang gagal.

  6. Jalankan kueri di BigQuery untuk melihat kumpulan data yang menyebabkan tugas gagal.

gcloud

Tidak didukung.

REST

  1. Untuk mendapatkan tugas yang mengidentifikasi kegagalan kualitas data, gunakan metode dataScans.get.

    Dalam objek respons, kolom failingRowsQuery menampilkan kueri.

  2. Jalankan kueri di BigQuery untuk melihat kumpulan data yang menyebabkan tugas gagal.

Mengelola pemindaian kualitas data untuk tabel tertentu

Langkah-langkah dalam dokumen ini menunjukkan cara mengelola pemindaian kualitas data di seluruh project Anda menggunakan halaman BigQuery Penyiapan metadata > Profil & kualitas data di konsolGoogle Cloud .

Anda juga dapat membuat dan mengelola pemindaian kualitas data saat bekerja dengan tabel tertentu. Di konsol Google Cloud , pada halaman BigQuery untuk tabel, gunakan tab Kualitas data. Lakukan tindakan berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

    Di panel Explorer, pilih tabel.

  2. Klik tab Kualitas data.

  3. Bergantung pada apakah tabel memiliki pemindaian kualitas data yang hasilnya dipublikasikan sebagai metadata Dataplex Universal Catalog, Anda dapat menggunakan pemindaian kualitas data tabel dengan cara berikut:

    • Hasil pemindaian kualitas data dipublikasikan: hasil pemindaian terbaru ditampilkan di halaman.

      Untuk mengelola pemindaian kualitas data untuk tabel ini, klik Pemindaian kualitas data, lalu pilih salah satu opsi berikut:

      • Buat pemindaian baru: buat pemindaian kualitas data baru. Untuk mengetahui informasi selengkapnya, lihat bagian Membuat pemindaian kualitas data dalam dokumen ini. Saat Anda membuat pemindaian dari halaman detail tabel, tabel akan dipilih sebelumnya.

      • Jalankan sekarang: jalankan pemindaian.

      • Edit konfigurasi pemindaian: edit setelan termasuk nama tampilan, filter, dan jadwal.

        Untuk mengedit aturan kualitas data, di tab Kualitas data, klik tab Aturan. Klik Ubah aturan. Perbarui aturan, lalu klik Simpan.

      • Mengelola izin pemindaian: mengontrol siapa yang dapat mengakses hasil pemindaian. Untuk mengetahui informasi selengkapnya, lihat bagian Memberikan akses ke hasil pemindaian kualitas data dalam dokumen ini.

      • Lihat hasil historis: lihat informasi mendetail tentang tugas pemindaian kualitas data sebelumnya. Untuk mengetahui informasi selengkapnya, lihat bagian Melihat hasil pemindaian kualitas data dan Melihat hasil pemindaian historis dalam dokumen ini.

      • Lihat semua pemindaian: melihat daftar pemindaian kualitas data yang berlaku untuk tabel ini.

    • Hasil pemindaian kualitas data tidak dipublikasikan: pilih dari opsi berikut:

      • Buat pemindaian kualitas data: membuat pemindaian kualitas data baru. Untuk mengetahui informasi selengkapnya, lihat bagian Membuat pemindaian kualitas data dalam dokumen ini. Saat Anda membuat pemindaian dari halaman detail tabel, tabel akan dipilih sebelumnya.

      • Melihat pemindaian yang ada: melihat daftar pemindaian kualitas data yang berlaku untuk tabel ini.

Melihat pemindaian kualitas data untuk tabel

Untuk melihat pemindaian kualitas data yang berlaku untuk tabel tertentu, lakukan hal berikut:

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Filter daftar menurut nama tabel dan jenis pemindaian.

Memperbarui pemindaian kualitas data

Anda dapat mengedit berbagai setelan untuk pemindaian kualitas data yang ada, seperti nama tampilan, filter, jadwal, dan aturan kualitas data.

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian kualitas data.

  3. Untuk mengedit setelan termasuk nama tampilan, filter, dan jadwal, klik Edit. Edit nilai, lalu klik Simpan.

  4. Untuk mengedit aturan kualitas data, di halaman detail pemindaian, klik tab Aturan saat ini. Klik Ubah aturan. Perbarui aturan, lalu klik Simpan.

gcloud

Untuk memperbarui deskripsi pemindaian kualitas data, gunakan perintah gcloud dataplex datascans update data-quality:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ganti kode berikut:

  • DATASCAN: Nama pemindaian kualitas data yang akan diperbarui.
  • LOCATION: Region Google Cloud tempat pemindaian kualitas data dibuat.
  • DESCRIPTION: Deskripsi baru untuk pemindaian kualitas data.

REST

Untuk mengedit pemindaian kualitas data, gunakan metode dataScans.patch.

Menghapus pemindaian kualitas data

Konsol

  1. Di konsol Google Cloud , pada halaman Penataan metadata BigQuery, buka tab Pembuatan profil & kualitas data.

    Buka Pemrofilan & kualitas data

  2. Klik hasil pemindaian yang ingin Anda hapus.

  3. Klik Hapus, lalu konfirmasi saat diminta.

gcloud

Untuk menghapus pemindaian kualitas data, gunakan perintah gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian kualitas data yang akan dihapus.
  • LOCATION: Region Google Cloud tempat pemindaian kualitas data dibuat.

REST

Untuk menghapus pemindaian kualitas data, gunakan metode dataScans.delete.

Langkah berikutnya