Mengelola persiapan data
Dokumen ini menjelaskan cara mengelola penyiapan data di BigQuery, termasuk memberikan peran Identity and Access Management (IAM) yang diperlukan dan mengelola metadata di Katalog Universal Dataplex.
Persiapan data adalah resource BigQuery yang didukung oleh Dataform.
Sebelum memulai
- Pastikan Anda telah mengaktifkan Gemini for Google Cloud API.
- Untuk mengelola metadata penyiapan data di Dataplex Universal Catalog, pastikan Dataplex API diaktifkan di project Google Cloud Anda.
Peran yang diperlukan
Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin yang diberikan oleh peran Identity and Access Management (IAM) berikut.
Mendapatkan akses pengguna untuk penyiapan data
Untuk mendapatkan izin yang Anda perlukan untuk menyiapkan data di BigQuery, minta administrator Anda untuk memberi Anda peran IAM berikut:
-
Pengguna BigQuery Studio (
roles/bigquery.studioUser
) di project -
Pengguna Gemini untuk Google Cloud (
roles/cloudaicompanion.user
) di project -
Akses tabel sumber:
BigQuery Data Viewer (
roles/bigquery.dataViewer
) pada tabel, set data, atau project
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Untuk mengetahui informasi selengkapnya tentang IAM untuk set data di BigQuery, lihat Memberikan akses ke resource.Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Mendapatkan akses untuk mengelola metadata
Untuk mendapatkan izin yang Anda perlukan untuk mengelola metadata penyiapan data di
Dataplex Universal Catalog, pastikan Anda memiliki
peran Dataplex Universal Catalog yang diperlukan
dan izin
dataform.repositories.get
.
Memberikan akses ke akun layanan Dataform
Untuk memastikan akun layanan Dataform memiliki izin yang diperlukan untuk menjalankan penyiapan data di BigQuery, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan Dataform:
-
Akses tabel sumber:
BigQuery Data Viewer (
roles/bigquery.dataViewer
) pada tabel, set data, atau project -
Akses tabel tujuan:
BigQuery Data Editor (
roles/bigquery.dataEditor
) di tabel, set data, atau project
Akun layanan Dataform mungkin memerlukan izin tambahan, bergantung pada pipeline penyiapan data Anda. Untuk mengetahui informasi selengkapnya, lihat Memberikan akses yang diperlukan Dataform.
Melihat persiapan data yang ada
Untuk melihat daftar persiapan data yang ada, ikuti langkah-langkah berikut:
- Di halaman BigQuery, buka panel Explorer.
- Perluas project Anda.
- Luaskan daftar Persiapan data.
Mengoptimalkan persiapan data dengan memproses data secara inkremental
Untuk mengonfigurasi cara penulisan data yang disiapkan ke dalam tabel tujuan, ikuti langkah-langkah berikut.
Di Google Cloud konsol, buka halaman BigQuery.
Di panel Explorer, pilih penyiapan data Anda.
Di toolbar penyiapan data, pilih Lainnya > Mode penulisan.
Pilih salah satu opsi. Untuk mengetahui informasi selengkapnya, lihat Mode penulisan.
Klik Simpan.
Membantu meningkatkan kualitas saran
Anda dapat membantu meningkatkan kualitas saran Gemini dengan membagikan data perintah yang Anda kirimkan ke fitur dalam Pratinjau kepada Google. Untuk membagikan data perintah Anda, ikuti langkah-langkah berikut:
- Buka editor persiapan data di BigQuery.
- Di toolbar penyiapan data, klik setelan Lainnya.
- Pilih Bagikan data untuk meningkatkan kualitas Gemini di BigQuery.
Setelan berbagi data berlaku untuk seluruh project dan hanya dapat ditetapkan oleh administrator project dengan izin IAM serviceusage.services.enable
dan
serviceusage.services.list
. Untuk mengetahui informasi selengkapnya tentang penggunaan data dalam Program Penguji Tepercaya, lihat Program Penguji Tepercaya Gemini untuk Google Cloud .
Versi persiapan data
Anda dapat memilih untuk membuat penyiapan data di dalam atau di luar repositori. Pembuatan versi persiapan data ditangani secara berbeda berdasarkan lokasi persiapan data.
Pembuatan versi persiapan data di repositori
Repositori adalah repositori Git yang berada di BigQuery atau dengan penyedia pihak ketiga. Anda dapat menggunakan ruang kerja di repositori untuk melakukan kontrol versi pada penyiapan data. Untuk mengetahui informasi selengkapnya, lihat Menggunakan kontrol versi dengan file.
Versi penyiapan data di luar repositori
Persiapan data BigQuery yang tidak ada di repositori tidak mendukung penayangan, perbandingan, atau pemulihan versi persiapan data.
Untuk melihat daftar versi penyiapan data dalam urutan kronologis, ikuti langkah-langkah berikut:
- Di halaman BigQuery, buka panel Explorer.
- Pilih penyiapan data Anda.
- Klik Histori versi.
Mendownload persiapan data
Untuk mendownload penyiapan data dalam file YAML, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan folder Persiapan data. Klik nama penyiapan data yang ingin Anda download.
Klik Download. Penyiapan data disimpan dalam format file YAML—misalnya,
NAME data preparation.dp.yaml
.
Mengupload persiapan data
Untuk mengupload penyiapan data dari file YAML, ikuti langkah-langkah berikut:
Di Google Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project Anda.
Buka folder Data preparations, lalu klik more_vert Menu > Upload to Data preparation.
Dalam dialog Upload persiapan data, pilih file yang akan diupload, atau masukkan URL persiapan data.
Masukkan nama untuk penyiapan data.
Pilih lokasi penyiapan data tempat resource dikelola dan disimpan.
Klik Upload.
Mengelola metadata di Dataplex Universal Catalog
Dengan Dataplex Universal Catalog, Anda dapat menyimpan dan mengelola metadata untuk penyiapan data. Persiapan data tersedia di Katalog Universal Dataplex secara default, tanpa konfigurasi tambahan.
Anda dapat menggunakan Dataplex Universal Catalog untuk mengelola penyiapan data di semua lokasi BigQuery. Pengelolaan persiapan data di Dataplex Universal Catalog tunduk pada kuota dan batas Katalog Universal Dataplex serta harga Katalog Universal Dataplex.
Katalog Universal Dataplex secara otomatis mengambil metadata berikut dari penyiapan data:
- Nama aset data
- Induk aset data
- Lokasi aset data
- Jenis aset data
- Project Google Cloud yang sesuai
Katalog Universal Dataplex mencatat persiapan data sebagai entri dengan nilai entri berikut:
- Grup entri sistem
- Grup entri sistem system entry group
untuk persiapan data adalah
@dataform
. Untuk melihat detail entri penyiapan data di Dataplex Universal Catalog, Anda perlu melihat grup entri sistemdataform
. Untuk mengetahui petunjuk tentang cara melihat daftar semua entri dalam grup entri, lihat Melihat detail grup entri dalam dokumentasi Dataplex Universal Catalog. - Jenis entri sistem
- Jenis entri sistem
untuk persiapan data adalah
dataform-code-asset
. Untuk melihat detail persiapan data,Anda perlu melihat jenis entri sistemdataform-code-asset
, memfilter hasil dengan filter berbasis aspek, dan menetapkan kolomtype
di dalam aspekdataform-code-asset
keDATA_PREPARATION
. Kemudian, pilih entri penyiapan data yang dipilih. Untuk mengetahui petunjuk tentang cara melihat detail jenis entri yang dipilih, lihat Melihat detail jenis entri dalam dokumentasi Dataplex Universal Catalog. Untuk mengetahui petunjuk tentang cara melihat detail entri yang dipilih, lihat Melihat detail entri dalam dokumentasi Dataplex Universal Catalog. - Jenis aspek sistem
- Jenis aspek sistem
untuk penyiapan data adalah
dataform-code-asset
. Untuk memberikan konteks tambahan pada persiapan data di Dataplex Universal Catalog dengan memberi anotasi pada entri persiapan data dengan aspek, lihat jenis aspekdataform-code-asset
, memfilter hasil dengan filter berbasis aspek, dan menetapkan kolomtype
di dalam aspekdataform-code-asset
keDATA_PREPARATION
. Untuk mengetahui petunjuk tentang cara memberi anotasi pada entri dengan aspek, lihat Mengelola aspek dan memperkaya metadata dalam dokumentasi Dataplex Universal Catalog. - Jenis
- Jenis untuk kanvas data adalah
DATA_PREPARATION
. Jenis ini memungkinkan Anda memfilter penyiapan data dalam jenis entri sistemdataform-code-asset
dan jenis aspekdataform-code-asset
dengan menggunakan kueriaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
dalam filter berbasis aspek.
Untuk mengetahui petunjuk tentang cara menelusuri aset, lihat Menelusuri aset data di Dataplex Universal Catalog dalam dokumentasi Dataplex Universal Catalog.
Langkah berikutnya
- Pelajari lebih lanjut cara menyiapkan data di BigQuery.
- Pelajari cara menjalankan persiapan data secara manual atau dengan jadwal.
- Pelajari cara membuat persiapan data.