Memberi tag pada tabel BigQuery menggunakan Data Catalog
Panduan memulai ini membantu Anda menyelesaikan tugas-tugas berikut:
Membuat set data dan tabel BigQuery.
Buat template tag dengan skema yang menentukan lima kolom tag dari jenis yang berbeda. Di antaranya adalah
string
,double
,boolean
,enumerated
, danrichtext
.Cari entri Data Catalog untuk tabel Anda.
Di konsol Google Cloud, buat metadata bisnis untuk entri Anda yang menyertakan ringkasan, data steward, dan tag.
Data Catalog memungkinkan Anda menelusuri dan memberi tag pada entri seperti tabel BigQuery dengan metadata. Beberapa contoh metadata yang dapat Anda gunakan untuk pemberian tag antara lain tag publik dan pribadi, penyimpanan data, dan ringkasan rich text.
Sebelum memulai
- Siapkan project Anda.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Aktifkan API Data Catalog and BigQuery.
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Aktifkan API Data Catalog and BigQuery.
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
Menambahkan entri data publik ke project Anda
Entri Data Catalog mencakup resource data seperti set data BigQuery atau topik Pub/Sub.
Tambahkan set data publik ke project Anda.
Di konsol Google Cloud, buka halaman BigQuery.
Di bagian Explorer, klik + ADD DATA, lalu pilih Public datasets dari daftar.
Di panel Marketplace, telusuri
New York taxi trips
, lalu klik hasil penelusuran yang relevan.Klik View Dataset.
Membuat {i>dataset<i} dan tabel
Membuat set data.
Di Konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih project tempat Anda ingin membuat set data.
Klik ikon
Tindakan dan klik Buat set data.Di halaman Create dataset, isi detail berikut:
- Untuk Dataset ID, masukkan
demo_dataset
. - Untuk Lokasi data, pilih
us (multiple regions in United States)
. - Aktifkan akhir masa berlaku tabel dan tentukan jumlah hari.
- Untuk Enkripsi, biarkan opsi Kunci enkripsi yang dikelola Google dipilih.
Klik Create dataset.
- Untuk Dataset ID, masukkan
Salin tabel yang dapat diakses secara publik ke
demo_dataset
.Di Konsol Google Cloud, buka halaman BigQuery.
Di panel Penjelajah, telusuri tabel
tlc_yellow_trips
(klik Perluas penelusuran ke semua project jika diperlukan), lalu pilih salah satu tabel, sepertitlc_yellow_trips_2017
. Lalu klik Copy.Di panel Copy table, isi informasi berikut:
- Di menu drop-down Project name, pilih project Anda.
- Di menu drop-down Dataset name, pilih
demo_dataset
. - Untuk Nama tabel, masukkan
trips
, lalu klik Salin.
Di panel Explorer, konfirmasi bahwa tabel
trips
tercantum didemo_dataset
.
Anda akan menambahkan tag Data Catalog ke tabel di bagian berikutnya.
Buat template tag publik dan lampirkan tag untuk entri Anda
Anda harus menjadi pemilik set data untuk melampirkan tag ke tabel dalam set data tersebut. Untuk informasi lebih lanjut tentang tag publik dan pribadi, lihat Tag publik dan pribadi.
Di template tag, kolom tag bersifat opsional. Anda tidak perlu memberikan nilai untuk kolom saat melampirkan tag ke entri Data Catalog. Namun, jika template menentukan kolom sebagai wajib diisi, Anda harus memberikan nilai untuk kolom tersebut. Jika nilai tidak diberikan, error akan muncul.
Anda dapat menggunakan huruf kecil dan garis bawah untuk menentukan nama kolom. Kolom template tag yang dibuat dalam contoh ini hanyalah kolom demo dan tidak diperbarui atau disinkronkan secara otomatis dengan BigQuery.
Konsol
Buka halaman Dataplex > Template Tag.
Klik Buat template tag dan masukkan detail berikut:
- Masukkan Nama template sebagai
Demo Tag Template
. - Pertahankan lokasi default.
- Pertahankan visibilitas template tag sebagai Publik.
Klik Tambahkan kolom untuk menambahkan 5 kolom. Gunakan tabel berikut dan kosongkan Deskripsi kolom.
Nama tampilan kolom ID kolom Kolom wajib diisi Jenis Sumber aset data sumber Ya String Baris dalam aset num_rows Tidak Ganda Memiliki PII has_pii Tidak Boolean Jenis PII pii_type Tidak Dihitung Tambahkan nilai
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
, danNONE
.Konteks context Tidak Richtext
- Masukkan Nama template sebagai
Klik Create.
Halaman Detail template mencantumkan semua informasi tentang template tag.
Untuk melampirkan tag ke
demo_dataset
, buka halaman penelusuran Dataplex.Di kotak penelusuran, masukkan
demo_dataset
. Di hasil penelusuran, Anda melihat set datademo_dataset
dan tabeltrips
.Klik tabel
trips
. Halaman detail tabel BigQuery akan terbuka.Klik Attach tags.
Di panel Lampirkan tag, masukkan detail berikut:
- Pilih target sebagai
trips
. - Pilih template tag sebagai
Demo Tag Template
. - Untuk nilai tag, masukkan detail berikut:
- Sumber aset data:
Copied from tlc_yellow_trips_2017
- Jumlah baris dalam aset data:
113496874
- Memiliki PII:
FALSE
- Jenis PII:
NONE
- Sumber aset data:
Klik Save.
Kolom tag kini tercantum di bagian Tag dalam detail tabel BigQuery.
- Pilih target sebagai
gcloud
Jalankan perintah gcloud data-catalog tag-templates create yang ditampilkan di bawah ini untuk membuat template tag dengan lima kolom tag berikut:
-
display_name:
Sumber aset dataid:
sumberrequired:
BENARtype:
String -
display_name:
Jumlah baris dalam aset dataid:
num_rowsrequired:
FALSEtype:
Ganda -
display_name:
Memiliki PIIid:
has_piirequired:
SALAHtype:
Boolean -
display_name:
Jenis PIIid:
pii_typerequired:
FALSEtype:
Dihitungvalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- NONE
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di panduan memulai Katalog Data menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Data Catalog Go.
Untuk mengautentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di panduan memulai Katalog Data menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Data Catalog Java.
Untuk mengautentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di panduan memulai Katalog Data menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Data Catalog Node.js.
Untuk mengautentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di panduan memulai Katalog Data menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Data Catalog Python.
Untuk mengautentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
BARIS REST & CMD
REST
Jika Anda tidak memiliki akses ke library Klien Cloud untuk bahasa Anda atau ingin menguji API menggunakan permintaan REST, lihat contoh berikut dan lihat dokumentasi Data Catalog REST API.
1. Buat template tag.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: project ID Google Cloud Anda
Metode HTTP dan URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Meminta isi JSON:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Cari Data Catalog entry-id
untuk tabel BigQuery Anda.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: Project ID Google Cloud
Metode HTTP dan URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Meminta isi JSON:
Request body is empty.
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Buat tag dari template dan lampirkan ke tabel BigQuery.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: Project ID Google Cloud
- entry-id: ID entri Data Catalog untuk tabel perjalanan Set data Demo (ditampilkan dalam hasil pencarian di langkah sebelumnya).
Metode HTTP dan URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Meminta isi JSON:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Buat gambaran umum untuk entri Anda
Dalam konsol Google Cloud, Anda dapat menggunakan rich text untuk mendeskripsikan entri dalam project Data Catalog Anda.
Untuk membuat ringkasan tabel
trips
, buka halaman penelusuran Dataplex.Di kotak penelusuran, masukkan
demo_dataset
.Di hasil penelusuran, Anda melihat set data
demo_dataset
dan tabeltrips
.Klik tabel
trips
.Halaman detail tabel BigQuery akan terbuka.
Klik Tambahkan ringkasan, lalu masukkan beberapa teks. Anda juga dapat menyertakan gambar dan teks berformat multimedia.
Klik Save.
Menambahkan penjaga data untuk entri Anda
Di dalam konsol Google Cloud, Anda dapat menambahkan satu atau beberapa pengelola data ke entri dalam project Data Catalog Anda. Penjaga data untuk entri data dapat dihubungi untuk meminta informasi lebih lanjut tentang entri data.
Guna membuat ringkasan untuk tabel
trips
, ulangi 3 langkah pertama dari bagian sebelumnya.Klik ikon Edit Steward dan tambahkan satu atau beberapa alamat email.
Anda dapat menambahkan pengguna dengan akun email non-Google.
Klik Save.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus set data
Jika perlu, buka halaman BigQuery.
Di panel Penjelajah, telusuri set data
demo_dataset
yang telah Anda buat.Klik opsi
Tindakan, lalu klik Hapus set data.Konfirmasi tindakan penghapusan Anda.
Menghapus template tag
Buka halaman Data Catalog > Templates.
Pilih Template Tag Demo.
Di baris, klik opsi
Tindakan dan klik Hapus template ini.Konfirmasi tindakan penghapusan Anda.
Langkah selanjutnya
Pelajari Data Catalog di Ringkasan Data Catalog.
Pelajari metadata teknis dan metadata bisnis.
Pelajari template tag, tag publik, dan tag pribadi di Tag dan template tag.
Jelajahi Ringkasan API dan Library Klien.