Memberi tag pada tabel BigQuery menggunakan Data Catalog
Panduan memulai ini membantu Anda menyelesaikan tugas berikut:
Buat set data dan tabel BigQuery.
Buat template tag dengan skema yang menentukan lima kolom tag dari jenis yang berbeda. Parameter tersebut adalah
string
,double
,boolean
,enumerated
, danrichtext
.Cari entri Data Catalog untuk tabel Anda.
Di konsol Google Cloud, buat metadata bisnis untuk entri Anda yang mencakup ringkasan, pengelola data, dan tag.
Data Catalog memungkinkan Anda menelusuri dan memberi tag pada entri seperti tabel BigQuery dengan metadata. Beberapa contoh metadata yang dapat Anda gunakan untuk pemberian tag mencakup tag publik dan pribadi, pengelola data, dan ringkasan teks kaya.
Sebelum memulai
- Siapkan project Anda.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Menambahkan entri data publik ke project Anda
Entri Data Catalog mencakup resource data seperti set data BigQuery atau topik Pub/Sub.
Tambahkan set data publik ke project Anda.
Di konsol Google Cloud, buka halaman BigQuery.
Di bagian Penjelajah, klik Tambahkan data, lalu pilih Set data publik dari daftar.
Di panel Marketplace, telusuri
New York taxi trips
, lalu klik hasil penelusuran yang relevan.Klik View Dataset.
Membuat set data dan tabel
Membuat set data.
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, pilih project tempat Anda ingin membuat set data.
Klik ikon
Actions, lalu klik Create dataset.Di halaman Create dataset, isi detail berikut:
- Untuk Dataset ID, masukkan
demo_dataset
. - Untuk Data location, pilih
us (multiple regions in United States)
. - Aktifkan masa berlaku tabel dan tentukan jumlah hari.
- Untuk Encryption, biarkan opsi Google-managed encryption key dipilih.
Klik Create dataset.
- Untuk Dataset ID, masukkan
Salin tabel yang dapat diakses secara publik ke
demo_dataset
.Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, telusuri tabel
tlc_yellow_trips
(klik Perluas penelusuran ke semua project jika diperlukan) dan pilih salah satunya, sepertitlc_yellow_trips_2017
. Kemudian, klik Salin.Di panel Copy table, isi informasi berikut:
- Dalam menu drop-down Project name, pilih project Anda.
- Di menu drop-down Dataset name, pilih
demo_dataset
. - Untuk Table name, masukkan
trips
, lalu klik Copy.
Di panel Explorer, pastikan tabel
trips
tercantum didemo_dataset
.
Anda akan menambahkan tag Data Catalog ke tabel di bagian berikutnya.
Membuat template tag publik dan melampirkan tag untuk entri Anda
Anda harus menjadi pemilik set data untuk melampirkan tag ke tabel dalam set data. Untuk mengetahui informasi selengkapnya tentang tag publik dan pribadi, lihat Tag publik dan pribadi.
Dalam template tag, kolom tag bersifat opsional. Anda tidak perlu memberikan nilai untuk kolom saat melampirkan tag ke entri Katalog Data. Namun, jika template menentukan kolom sebagai wajib diisi, Anda harus memberikan nilai untuk kolom tersebut. Jika nilai tidak diberikan, error akan dihasilkan.
Anda dapat menggunakan huruf kecil dan garis bawah untuk menentukan nama kolom. Kolom template tag yang dibuat dalam contoh ini adalah kolom demo dan tidak diperbarui secara otomatis atau disinkronkan dengan BigQuery.
Konsol
Buka halaman Dataplex > Template Tag.
Klik Create tag template dan masukkan detail berikut:
- Masukkan Nama template sebagai
Demo Tag Template
. - Mempertahankan lokasi default.
- Pertahankan visibilitas template tag sebagai Publik.
Klik Tambahkan kolom untuk menambahkan 5 kolom. Gunakan tabel berikut dan biarkan Deskripsi kolom kosong.
Nama tampilan kolom ID kolom Kolom wajib diisi Jenis Sumber aset data sumber Ya String Baris dalam aset num_rows Tidak Ganda Memiliki PII has_pii Tidak Boolean Jenis PII pii_type Tidak Dihitung Tambahkan nilai
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
, danNONE
.Konteks konteks Tidak Richtext
- Masukkan Nama template sebagai
Klik Buat.
Halaman Template details mencantumkan semua informasi tentang template tag.
Untuk melampirkan tag ke
demo_dataset
, buka halaman penelusuran Dataplex.Untuk Pilih platform penelusuran, pilih Data Catalog sebagai mode penelusuran.
Di kotak penelusuran, masukkan
demo_dataset
. Dalam hasil penelusuran, Anda akan melihat set datademo_dataset
dan tabeltrips
.Klik tabel
trips
. Halaman BigQuery table details akan terbuka.Klik Attach tags.
Di panel Attach tags, masukkan detail berikut:
- Pilih target sebagai
trips
. - Pilih template tag sebagai
Demo Tag Template
. - Untuk nilai tag, masukkan detail berikut:
- Sumber aset data:
Copied from tlc_yellow_trips_2017
- Jumlah baris dalam aset data:
113496874
- Memiliki PII:
FALSE
- Jenis PII:
NONE
- Sumber aset data:
Klik Save.
Kolom tag kini tercantum di bagian Tag di detail tabel BigQuery.
- Pilih target sebagai
gcloud
Jalankan perintah gcloud data-catalog tag-templates create yang ditampilkan di bawah untuk membuat template tag dengan lima kolom tag berikut:
-
display_name:
Sumber aset dataid:
sourcerequired:
BENARtype:
String -
display_name:
Jumlah baris dalam aset dataid:
num_rowsrequired:
SALAHtype:
Ganda -
display_name:
Memiliki PIIid:
has_piirequired:
SALAHtype:
Boolean -
display_name:
Jenis PIIid:
pii_typerequired:
SALAHtype:
Dihitungvalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- TIDAK ADA
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di panduan memulai Data Catalog menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Katalog Data.
Untuk melakukan autentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di panduan memulai Data Catalog menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Katalog Data.
Untuk melakukan autentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di panduan memulai Data Catalog menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Katalog Data.
Untuk melakukan autentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di panduan memulai Data Catalog menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Katalog Data.
Untuk melakukan autentikasi ke Data Catalog, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
REST & CMD LINE
REST
Jika Anda tidak memiliki akses ke library Klien Cloud untuk bahasa Anda atau ingin menguji API menggunakan permintaan REST, lihat contoh berikut dan lihat dokumentasi Data Catalog REST API.
Buat template tag.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: Google Cloud project ID Anda
Metode HTTP dan URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Meminta isi JSON:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
Mencari entry-id
Data Catalog untuk tabel BigQuery Anda
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: Google Cloud project ID
Metode HTTP dan URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Meminta isi JSON:
Request body is empty.
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
Membuat tag dari template dan melampirkannya ke tabel BigQuery
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: Google Cloud project ID
- entry-id: ID entri Data Catalog untuk tabel perjalanan Set Data Demo (ditampilkan dalam hasil pencarian di langkah sebelumnya).
Metode HTTP dan URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Meminta isi JSON:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Membuat ringkasan untuk entri Anda
Dalam Konsol Google Cloud, Anda dapat menggunakan teks kaya untuk mendeskripsikan entri dalam project Katalog Data.
Untuk membuat ringkasan tabel
trips
, buka halaman penelusuran Dataplex.Untuk Pilih platform penelusuran, pilih Data Catalog sebagai mode penelusuran.
Di kotak penelusuran, masukkan
demo_dataset
.Dalam hasil penelusuran, Anda akan melihat set data
demo_dataset
dan tabeltrips
.Klik tabel
trips
.Halaman BigQuery table details akan terbuka.
Klik Tambahkan ringkasan, lalu masukkan beberapa teks. Anda juga dapat menyertakan gambar dan teks berformat lengkap.
Klik Save.
Menambahkan pengelola data untuk entri Anda
Dalam konsol Google Cloud, Anda dapat menambahkan satu atau beberapa pengelola data ke entri dalam project Katalog Data. Pengelola data untuk entri data dapat dihubungi untuk meminta informasi selengkapnya tentang entri data.
Untuk membuat ringkasan tabel
trips
, ulangi 3 langkah pertama dari bagian sebelumnya.Klik ikon Edit Pengelola, lalu tambahkan satu atau beberapa alamat email.
Anda dapat menambahkan pengguna dengan akun email non-Google.
Klik Save.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Menghapus set data
Jika perlu, buka halaman BigQuery.
Di panel Explorer, telusuri set data
demo_dataset
yang Anda buat.Klik opsi
Actions, lalu klik Delete dataset.Konfirmasi tindakan penghapusan Anda.
Menghapus template tag
Buka halaman Data Catalog > Templates.
Pilih Template Tag Demo.
Di baris, klik opsi
Actions, lalu klik Delete this template.Konfirmasi tindakan penghapusan Anda.
Langkah selanjutnya
Pelajari Data Catalog lebih lanjut.
Pelajari metadata teknis dan metadata bisnis.
Pelajari template tag, tag publik, dan tag pribadi di Tag dan template tag.