Membuat dan menggunakan pemindaian profil data

Halaman ini menunjukkan cara membuat dan mengelola pemindaian profil data. Pembuatan profil data memungkinkan Anda mengidentifikasi karakteristik statistik umum kolom dalam tabel BigQuery. Informasi ini membantu Anda memahami dan menganalisis data secara lebih efektif.

Untuk mengetahui informasi selengkapnya tentang pemindaian profil data Katalog Universal Dataplex, lihat Tentang pembuatan profil data.

Sebelum memulai

Enable the Dataplex API.

Enable the API

Peran yang diperlukan

Untuk membuat profil tabel BigQuery, Anda memerlukan izin berikut:

  • Untuk menjalankan pemindaian profil data pada tabel BigQuery, Anda memerlukan izin untuk membaca tabel BigQuery dan izin untuk membuat tugas BigQuery di project yang digunakan untuk memindai tabel.

  • Jika tabel BigQuery dan pemindaian profil data berada di project yang berbeda, Anda harus memberikan izin baca ke akun layanan Dataplex Universal Catalog pada tabel BigQuery yang sesuai.

  • Jika data BigQuery diatur dalam lake Dataplex Universal Catalog, untuk membuat pemindaian profil data, Anda memerlukan peran Dataplex Universal Catalog roles/dataplex.metadataReader dan roles/dataplex.viewer. Hal ini memberikan izin berikut:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Jika Anda memindai tabel eksternal BigQuery dari Cloud Storage, tetapkan peran Storage Object Viewer (roles/storage.objectViewer) atau izin berikut di bucket ke akun layanan Dataplex Universal Catalog:

    • storage.buckets.get
    • storage.objects.get
  • Jika Anda ingin memublikasikan hasil pemindaian profil data di halaman Katalog Universal BigQuery dan Dataplex di konsolGoogle Cloud untuk tabel sumber, Anda harus diberi peran Editor Data BigQuery (roles/bigquery.dataEditor) di tabel tersebut. Atau, Anda memerlukan semua izin berikut:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Untuk mengekspor hasil pemindaian ke tabel BigQuery, akun layanan Dataplex Universal Catalog Anda memerlukan peran BigQuery Data Editor (roles/bigquery.dataEditor). Hal ini memberikan izin berikut:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Jika Anda perlu mengakses kolom yang dilindungi oleh kebijakan akses tingkat kolom BigQuery, tetapkan izin akun layanan Dataplex Universal Catalog pada kolom tersebut. Pengguna yang membuat atau memperbarui pemindaian data juga memerlukan izin pada kolom.

  • Jika kebijakan akses tingkat baris BigQuery diaktifkan untuk tabel, Anda hanya dapat memindai baris yang terlihat oleh akun layanan Dataplex Universal Catalog. Perhatikan bahwa hak akses pengguna perorangan tidak dievaluasi untuk kebijakan tingkat baris.

Peran dan izin pemindaian data

Untuk menggunakan pembuatan profil data, minta administrator Anda untuk memberi Anda salah satu peran IAM berikut:

  • roles/dataplex.dataScanAdmin: Akses penuh ke resource DataScan.
  • roles/dataplex.dataScanEditor: Akses tulis ke resource DataScan.
  • roles/dataplex.dataScanViewer: Akses baca ke resource DataScan, tidak termasuk hasilnya.
  • roles/dataplex.dataScanDataViewer: Akses baca ke resource DataScan, termasuk hasilnya.

Tabel berikut mencantumkan izin pemindaian data:

Nama izin Memberikan izin untuk melakukan hal berikut:
dataplex.datascans.create Membuat DataScan
dataplex.datascans.delete Menghapus DataScan
dataplex.datascans.get Melihat detail DataScan yang tidak termasuk dalam hasil
dataplex.datascans.getData Lihat detail DataScan termasuk hasil
dataplex.datascans.list Daftar DataScan
dataplex.datascans.run Jalankan DataScan
dataplex.datascans.update Memperbarui deskripsi DataScan
dataplex.datascans.getIamPolicy Melihat izin IAM saat ini pada pemindaian
dataplex.datascans.setIamPolicy Menetapkan izin IAM pada pemindaian

Membuat pemindaian profil data

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik Buat pemindaian profil data.

  3. Opsional: Masukkan Nama tampilan.

  4. Masukkan ID. Lihat Konvensi penamaan resource.

  5. Opsional: Masukkan Deskripsi..

  6. Di kolom Table, klik Browse. Pilih tabel yang akan dipindai, lalu klik Pilih.

    Untuk tabel dalam set data multi-region, pilih region tempat pemindaian data akan dibuat.

    Untuk menjelajahi tabel yang disusun dalam data lake Dataplex Universal Catalog, klik Jelajahi dalam Data Lake Dataplex.

  7. Di kolom Cakupan, pilih Inkremental atau Seluruh data.

    • Jika Anda memilih Data inkremental, di kolom Stempel waktu, pilih kolom berjenis DATE atau TIMESTAMP dari tabel BigQuery yang bertambah saat data baru ditambahkan, dan yang dapat digunakan untuk mengidentifikasi data baru. Untuk tabel yang dipartisi pada kolom jenis DATE atau TIMESTAMP, sebaiknya gunakan kolom partisi sebagai kolom stempel waktu.
  8. Opsional: Untuk memfilter data, lakukan salah satu hal berikut:

    • Untuk memfilter menurut baris, klik kotak centang Filter baris. Masukkan ekspresi SQL yang valid yang dapat digunakan dalam klausa WHERE dalam sintaksis GoogleSQL. Misalnya: col1 >= 0.

      Filter dapat berupa kombinasi kondisi SQL di beberapa kolom. Misalnya: col1 >= 0 AND col2 < 10.

    • Untuk memfilter menurut kolom, centang kotak Filter kolom.

      • Untuk menyertakan kolom dalam pemindaian profil, di kolom Sertakan kolom, klik Jelajahi. Pilih kolom yang akan disertakan, lalu klik Pilih.

      • Untuk mengecualikan kolom dari pemindaian profil, di kolom Kecualikan kolom, klik Jelajahi. Pilih kolom yang akan dikecualikan, lalu klik Pilih.

  9. Untuk menerapkan sampling ke pemindaian profil data, di daftar Ukuran sampling, pilih persentase sampling. Pilih nilai persentase yang berkisar antara 0,0% dan 100,0% dengan maksimal 3 digit desimal.

    • Untuk set data yang lebih besar, pilih persentase pengambilan sampel yang lebih rendah. Misalnya, untuk tabel 1 PB, jika Anda memasukkan nilai antara 0,1% dan 1,0%, profil data akan mengambil sampel data antara 1-10 TB.

    • Harus ada minimal 100 data dalam data yang diambil sampelnya untuk menampilkan hasil.

    • Untuk pemindaian data inkremental, pemindaian profil data menerapkan pengambilan sampel ke penambahan terbaru.

  10. Opsional: Publikasikan hasil pemindaian profil data di halaman Katalog Universal BigQuery dan Dataplex di konsolGoogle Cloud untuk tabel sumber. Centang kotak Publikasikan hasil ke BigQuery dan UI Katalog Dataplex.

    Anda dapat melihat hasil pemindaian terbaru di tab Profil data di halaman BigQuery dan Dataplex Universal Catalog untuk tabel sumber. Untuk mengizinkan pengguna mengakses hasil pemindaian yang dipublikasikan, lihat bagian Memberikan akses ke hasil pemindaian profil data dalam dokumen ini.

    Opsi publikasi mungkin tidak tersedia dalam kasus berikut:

    • Anda tidak memiliki izin yang diperlukan pada tabel.
    • Pemindaian kualitas data lain ditetapkan untuk memublikasikan hasil.
  11. Di bagian Jadwalkan, pilih salah satu opsi berikut:

    • Ulangi: Jalankan pemindaian profil data sesuai jadwal: per jam, harian, mingguan, bulanan, atau kustom. Tentukan seberapa sering pemindaian harus dijalankan dan pada pukul berapa. Jika Anda memilih kustom, gunakan format cron untuk menentukan jadwal.

    • On-demand: Jalankan pemindaian profil data sesuai permintaan.

  12. Klik Lanjutkan.

  13. Opsional: Ekspor hasil pemindaian ke tabel standar BigQuery. Di bagian Ekspor hasil pemindaian ke tabel BigQuery, lakukan hal berikut:

    1. Di kolom Select BigQuery dataset, klik Browse. Pilih set data BigQuery untuk menyimpan hasil pemindaian profil data.

    2. Di kolom Tabel BigQuery, tentukan tabel untuk menyimpan hasil pemindaian profil data. Jika Anda menggunakan tabel yang sudah ada, pastikan tabel tersebut kompatibel dengan skema tabel ekspor. Jika tabel yang ditentukan tidak ada, Dataplex Universal Catalog akan membuatnya untuk Anda.

  14. Opsional: Tambahkan label. Label adalah key-value pair yang memungkinkan Anda mengelompokkan objek terkait secara bersamaan atau dengan resource Google Cloud lainnya.

  15. Untuk membuat pemindaian, klik Buat.

    Jika Anda menyetel jadwal ke on-demand, Anda juga dapat menjalankan pemindaian sekarang dengan mengklik Jalankan pemindaian.

gcloud

Untuk membuat pemindaian profil data, gunakan perintah gcloud dataplex datascans create data-profile.

Jika data sumber disusun dalam data lake Dataplex Universal Catalog, sertakan flag --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Jika data sumber tidak diatur dalam data lake Dataplex Universal Catalog, sertakan flag --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pembuatan pemindaian profil data.
  • DATA_SOURCE_ENTITY: Entitas Katalog Universal Dataplex yang berisi data untuk pemindaian profil data. Contoh, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: Nama resource yang berisi data untuk pemindaian profil data. Contoh, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Untuk membuat pemindaian profil data, gunakan metode dataScans.create.

Mengekspor skema tabel

Jika Anda ingin mengekspor hasil pemindaian profil data ke tabel BigQuery yang ada, pastikan tabel tersebut kompatibel dengan skema tabel berikut:

Nama kolom Jenis data kolom Nama sub-kolom (jika ada) Jenis data sub-bidang Mode Contoh
data_profile_scan struct/record resource_name string nullable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string nullable test-project
location string nullable us-central1
data_scan_id string nullable test-datascan
data_source struct/record resource_name string nullable

Kasus entitas: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Kasus tabel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string nullable test-project
dataplex_entity_project_number integer nullable 123456789012
dataplex_lake_id string nullable

(Hanya valid jika sumbernya adalah entitas)

test-lake

dataplex_zone_id string nullable

(Hanya valid jika sumbernya adalah entitas)

test-zone

dataplex_entity_id string nullable

(Hanya valid jika sumbernya adalah entitas)

test-entity

table_project_id string nullable dataplex-table
table_project_number int64 nullable 345678901234
dataset_id string nullable

(Hanya valid jika sumbernya adalah tabel)

test-dataset

table_id string nullable

(Hanya valid jika sumbernya adalah tabel)

test-table

data_profile_job_id string nullable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string nullable ondemand/schedule
incremental boolean nullable true/false
sampling_percent float nullable

(0-100)

20.0 (menunjukkan 20%)

row_filter string nullable col1 >= 0 AND col2 < 10
column_filter json nullable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json nullable {"key1":value1}
job_start_time timestamp nullable 2023-01-01 00:00:00 UTC
job_end_time timestamp nullable 2023-01-01 00:00:00 UTC
job_rows_scanned integer nullable 7500
column_name string nullable column-1
column_type string nullable string
column_mode string nullable repeated
percent_null float nullable

(0,0-100,0)

20.0 (menunjukkan 20%)

percent_unique float nullable

(0,0-100,0)

92.5

min_string_length integer nullable

(Hanya valid jika jenis kolom adalah string)

10

max_string_length integer nullable

(Hanya valid jika jenis kolom adalah string)

4

average_string_length float nullable

(Hanya valid jika jenis kolom adalah string)

7.2

min_value float nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
max_value float nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
average_value float nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
standard_deviation float nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
quartile_lower integer nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
quartile_median integer nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
quartile_upper integer nullable (Hanya valid jika jenis kolom adalah numerik - bilangan bulat/float)
top_n struct/record - repeated value string nullable "4009"
count integer nullable 20
percent float nullable 10 (menunjukkan 10%)

Penyiapan ekspor tabel

Saat Anda mengekspor ke tabel BigQueryExport, ikuti panduan berikut:

  • Untuk kolom resultsTable, gunakan format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Gunakan tabel standar BigQuery.
  • Jika tabel tidak ada saat pemindaian dibuat atau diperbarui, Dataplex Universal Catalog akan membuat tabel untuk Anda.
  • Secara default, tabel dipartisi pada kolom job_start_time setiap hari.
  • Jika Anda ingin tabel dipartisi dalam konfigurasi lain atau jika Anda tidak ingin partisi, buat ulang tabel dengan skema dan konfigurasi yang diperlukan, lalu berikan tabel yang telah dibuat sebelumnya sebagai tabel hasil.
  • Pastikan tabel hasil berada di lokasi yang sama dengan tabel sumber.
  • Jika VPC-SC dikonfigurasi di project, tabel hasil harus berada di perimeter VPC-SC yang sama dengan tabel sumber.
  • Jika tabel diubah selama tahap eksekusi pemindaian, tugas yang sedang berjalan saat ini akan diekspor ke tabel hasil sebelumnya dan perubahan tabel akan berlaku mulai dari tugas pemindaian berikutnya.
  • Jangan mengubah skema tabel. Jika Anda memerlukan kolom yang disesuaikan, buat tampilan pada tabel.
  • Untuk mengurangi biaya, tetapkan waktu habis masa berlaku pada partisi berdasarkan kasus penggunaan Anda. Untuk mengetahui informasi selengkapnya, lihat cara menetapkan masa berlaku partisi.

Membuat beberapa pemindaian profil data

Anda dapat mengonfigurasi pemindaian profil data untuk beberapa tabel dalam set data BigQuery secara bersamaan menggunakan konsol Google Cloud .

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik Buat pemindaian profil data.

  3. Pilih opsi Beberapa pemindaian profil data.

  4. Masukkan awalan ID. Katalog Universal Dataplex otomatis membuat ID pemindaian menggunakan awalan yang diberikan dan akhiran unik.

  5. Masukkan Deskripsi untuk semua pemindaian profil data.

  6. Di kolom Dataset, klik Jelajahi. Pilih set data untuk memilih tabel. Klik Select.

  7. Jika set data bersifat multi-regional, pilih Region tempat pembuatan pemindaian profil data.

  8. Konfigurasi setelan umum untuk pemindaian:

    1. Di kolom Cakupan, pilih Inkremental atau Seluruh data.

    2. Untuk menerapkan sampling ke pemindaian profil data, di daftar Ukuran sampling, pilih persentase sampling.

      Pilih nilai persentase antara 0,0% dan 100,0% dengan hingga 3 digit desimal.

    3. Opsional: Publikasikan hasil pemindaian profil data di halaman Katalog Universal BigQuery dan Dataplex di konsolGoogle Cloud untuk tabel sumber. Centang kotak Publikasikan hasil ke BigQuery dan UI Katalog Dataplex.

      Anda dapat melihat hasil pemindaian terbaru di tab Profil data di halaman BigQuery dan Dataplex Universal Catalog untuk tabel sumber. Untuk mengizinkan pengguna mengakses hasil pemindaian yang dipublikasikan, lihat bagian Memberi akses ke hasil pemindaian profil data dalam dokumen ini.

    4. Di bagian Jadwalkan, pilih salah satu opsi berikut:

      • Ulangi: Jalankan pemindaian profil data sesuai jadwal: per jam, harian, mingguan, bulanan, atau kustom. Tentukan seberapa sering pemindaian harus dijalankan dan pada pukul berapa. Jika Anda memilih kustom, gunakan format cron untuk menentukan jadwal.

      • On-demand: Jalankan pemindaian profil data sesuai permintaan.

  9. Klik Lanjutkan.

  10. Di kolom Choose tables, klik Browse. Pilih satu atau beberapa tabel yang akan dipindai, lalu klik Pilih.

  11. Klik Lanjutkan.

  12. Opsional: Ekspor hasil pemindaian ke tabel standar BigQuery. Di bagian Ekspor hasil pemindaian ke tabel BigQuery, lakukan hal berikut:

    1. Di kolom Select BigQuery dataset, klik Browse. Pilih set data BigQuery untuk menyimpan hasil pemindaian profil data.

    2. Di kolom Tabel BigQuery, tentukan tabel untuk menyimpan hasil pemindaian profil data. Jika Anda menggunakan tabel yang sudah ada, pastikan tabel tersebut kompatibel dengan skema tabel ekspor. Jika tabel yang ditentukan tidak ada, Katalog Universal Dataplex akan membuatnya untuk Anda.

      Dataplex Universal Catalog menggunakan tabel hasil yang sama untuk semua pemindaian profil data.

  13. Opsional: Tambahkan label. Label adalah key-value pair yang memungkinkan Anda mengelompokkan objek terkait secara bersamaan atau dengan resource Google Cloud lainnya.

  14. Untuk membuat pemindaian, klik Buat.

    Jika menyetel jadwal ke on-demand, Anda juga dapat menjalankan pemindaian sekarang dengan mengklik Jalankan pemindaian.

Menjalankan pemindaian profil data

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik pemindaian profil data yang akan dijalankan.
  3. Klik Jalankan sekarang.

gcloud

Untuk menjalankan pemindaian profil data, gunakan perintah gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.

REST

Untuk menjalankan pemindaian profil data, gunakan metode dataScans.run.

Melihat hasil pemindaian profil data

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian profil data.

    • Bagian Ringkasan menampilkan informasi tentang tugas terbaru, termasuk waktu pemindaian dijalankan, jumlah rekaman tabel yang dipindai, dan status tugas.

    • Bagian Konfigurasi pemindaian profil data menampilkan detail tentang pemindaian.

  3. Untuk melihat informasi mendetail tentang tugas, seperti kolom tabel yang dipindai, statistik tentang kolom yang ditemukan dalam pemindaian, dan log tugas, klik tab Histori tugas. Kemudian, klik ID tugas.

gcloud

Untuk melihat hasil tugas pemindaian profil data, gunakan perintah gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ganti variabel berikut:

  • JOB: ID tugas pemindaian profil data.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DATASCAN: Nama pemindaian profil data yang menjadi bagian dari pekerjaan.
  • --view=FULL: Untuk melihat hasil tugas pemindaian, tentukan FULL.

REST

Untuk melihat hasil pemindaian profil data, gunakan metode dataScans.get.

Lihat hasil yang dipublikasikan

Jika hasil pemindaian profil data dipublikasikan ke halaman BigQuery dan Dataplex Universal Catalog di konsol Google Cloud , Anda dapat melihat hasil pemindaian terbaru di tab Profil data tabel sumber.

  1. Di konsol Google Cloud , buka halaman Penelusuran Dataplex Universal Catalog.

    Buka Penelusuran

  2. Telusuri, lalu pilih tabel.

  3. Klik tab Profil data.

    Hasil terbaru yang dipublikasikan ditampilkan.

Melihat tugas pemindaian profil data terbaru

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian profil data.

  3. Klik tab Hasil tugas terbaru.

    Tab Hasil tugas terbaru, jika ada setidaknya satu proses yang berhasil diselesaikan, memberikan informasi tentang tugas terbaru. Tab ini mencantumkan kolom tabel yang dipindai dan statistik tentang kolom yang ditemukan dalam pemindaian.

gcloud

Untuk melihat pemindaian profil data yang berhasil terbaru, gunakan perintah gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data yang akan dilihat untuk tugas terbaru.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • --view=FULL: Untuk melihat hasil tugas pemindaian, tentukan FULL.

REST

Untuk melihat tugas pemindaian terbaru, gunakan metode dataScans.get.

Lihat hasil pemindaian historis

Dataplex Universal Catalog menyimpan histori pemindaian profil data dari 300 tugas terakhir atau selama satu tahun terakhir, mana saja yang lebih dulu.

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian profil data.

  3. Klik tab Histori tugas.

    Tab Histori tugas memberikan informasi tentang tugas sebelumnya, seperti jumlah catatan yang dipindai di setiap tugas, status tugas, dan waktu tugas dijalankan.

  4. Untuk melihat informasi mendetail tentang tugas, klik salah satu tugas di kolom ID Tugas.

gcloud

Untuk melihat tugas pemindaian profil data historis, gunakan perintah gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ganti variabel berikut:

  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DATASCAN: Nama pemindaian profil data untuk melihat pekerjaan.

REST

Untuk melihat tugas pemindaian profil data historis, gunakan metode dataScans.jobs.list.

Memberikan akses ke hasil pemindaian profil data

Agar pengguna di organisasi Anda dapat melihat hasil pemindaian, lakukan hal berikut:

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik pemindaian kualitas data yang hasilnya ingin Anda bagikan.

  3. Klik tab Izin.

  4. Lakukan tindakan berikut:

    • Untuk memberikan akses ke akun utama, klik Grant access. Berikan peran Dataplex DataScan DataViewer kepada akun utama yang terkait.
    • Untuk menghapus akses dari akun utama, pilih akun utama yang ingin Anda hapus peran Dataplex DataScan DataViewer-nya. Klik Hapus akses, lalu konfirmasi saat diminta.

Mengelola pemindaian profil data untuk tabel tertentu

Langkah-langkah dalam dokumen ini menunjukkan cara mengelola pemindaian profil data di seluruh project Anda dengan menggunakan halaman Pembuatan profil & kualitas data Dataplex Universal Catalog di konsol Google Cloud .

Anda juga dapat membuat dan mengelola pemindaian profil data saat bekerja dengan tabel tertentu. Di konsol Google Cloud , pada halaman Katalog Universal Dataplex untuk tabel, gunakan tab Profil data. Lakukan tindakan berikut:

  1. Di konsol Google Cloud , buka halaman Penelusuran Dataplex Universal Catalog.

    Buka Penelusuran

    Telusuri, lalu pilih tabel.

  2. Klik tab Profil data.

  3. Bergantung pada apakah tabel memiliki pemindaian profil data yang hasilnya dipublikasikan, Anda dapat menggunakan pemindaian profil data tabel dengan cara berikut:

    • Hasil pemindaian profil data dipublikasikan: hasil pemindaian terbaru yang dipublikasikan ditampilkan di halaman.

      Untuk mengelola pemindaian profil data untuk tabel ini, klik Pemindaian profil data, lalu pilih salah satu opsi berikut:

      • Buat pemindaian baru: membuat pemindaian profil data baru. Untuk mengetahui informasi selengkapnya, lihat bagian Membuat pemindaian profil data dalam dokumen ini. Saat Anda membuat pemindaian dari halaman detail tabel, tabel akan dipilih sebelumnya.

      • Jalankan sekarang: jalankan pemindaian.

      • Edit konfigurasi pemindaian: edit setelan termasuk nama tampilan, filter, ukuran pengambilan sampel, dan jadwal.

      • Mengelola izin pemindaian: mengontrol siapa yang dapat mengakses hasil pemindaian. Untuk mengetahui informasi selengkapnya, lihat bagian Memberikan akses ke hasil pemindaian profil data dalam dokumen ini.

      • Lihat hasil historis: melihat informasi mendetail tentang tugas pemindaian profil data sebelumnya. Untuk mengetahui informasi selengkapnya, lihat bagian Melihat hasil pemindaian profil data dan Melihat hasil pemindaian historis dalam dokumen ini.

      • Lihat semua pemindaian: melihat daftar pemindaian profil data yang berlaku untuk tabel ini.

    • Hasil pemindaian profil data tidak dipublikasikan: klik menu di samping Profil data cepat, lalu pilih salah satu opsi berikut:

      • Menyesuaikan pembuatan profil data: buat pemindaian profil data baru. Untuk mengetahui informasi selengkapnya, lihat bagian Membuat pemindaian profil data dalam dokumen ini. Saat Anda membuat pemindaian dari halaman detail tabel, tabel akan dipilih sebelumnya.

      • Lihat profil sebelumnya: melihat daftar pemindaian profil data yang berlaku untuk tabel ini.

Memperbarui pemindaian profil data

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik nama pemindaian profil data.

  3. Klik Edit, lalu edit nilai.

  4. Klik Simpan.

gcloud

Untuk memperbarui pemindaian profil data, gunakan perintah gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data yang akan diperbarui.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.
  • DESCRIPTION: Deskripsi baru untuk pemindaian profil data.

REST

Untuk mengedit pemindaian profil data, gunakan metode dataScans.patch.

Menghapus pemindaian profil data

Konsol

  1. Di konsol Google Cloud , buka halaman Pembuatan profil & kualitas data Dataplex Universal Catalog.

    Buka Pemrofilan & kualitas data

  2. Klik hasil pemindaian yang ingin Anda hapus.

  3. Klik Hapus, lalu konfirmasi saat diminta.

gcloud

Untuk menghapus pemindaian profil data, gunakan perintah gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Ganti variabel berikut:

  • DATASCAN: Nama pemindaian profil data yang akan dihapus.
  • LOCATION: Region Google Cloud tempat pemindaian profil data dibuat.

REST

Untuk menghapus pemindaian profil data, gunakan metode dataScans.delete.

Apa langkah selanjutnya?