Mengelola persiapan data

Dokumen ini menjelaskan cara mengelola penyiapan data di BigQuery, termasuk memberikan peran Identity and Access Management (IAM) yang diperlukan dan mengelola metadata di Katalog Universal Dataplex.

Persiapan data adalah resource BigQuery yang didukung oleh Dataform.

Sebelum memulai

  1. Pastikan Anda telah mengaktifkan Gemini for Google Cloud API.
  2. Untuk mengelola metadata penyiapan data di Dataplex Universal Catalog, pastikan Dataplex API diaktifkan di project Google Cloud Anda.

Peran yang diperlukan

Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin yang diberikan oleh peran Identity and Access Management (IAM) berikut.

Mendapatkan akses pengguna untuk penyiapan data

Untuk mendapatkan izin yang Anda perlukan untuk menyiapkan data di BigQuery, minta administrator Anda untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Untuk mengetahui informasi selengkapnya tentang IAM untuk set data di BigQuery, lihat Memberikan akses ke resource.

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Mendapatkan akses untuk mengelola metadata

Untuk mendapatkan izin yang Anda perlukan untuk mengelola metadata penyiapan data di Dataplex Universal Catalog, pastikan Anda memiliki peran Dataplex Universal Catalog yang diperlukan dan izin dataform.repositories.get.

Memberikan akses ke akun layanan Dataform

Untuk memastikan akun layanan Dataform memiliki izin yang diperlukan untuk menjalankan penyiapan data di BigQuery, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan Dataform:

Akun layanan Dataform mungkin memerlukan izin tambahan, bergantung pada pipeline penyiapan data Anda. Untuk mengetahui informasi selengkapnya, lihat Memberikan akses yang diperlukan Dataform.

Melihat persiapan data yang ada

Untuk melihat daftar persiapan data yang ada, ikuti langkah-langkah berikut:

  1. Di halaman BigQuery, buka panel Explorer.
  2. Perluas project Anda.
  3. Luaskan daftar Persiapan data.

Mengoptimalkan persiapan data dengan memproses data secara inkremental

Untuk mengonfigurasi cara penulisan data yang disiapkan ke dalam tabel tujuan, ikuti langkah-langkah berikut.

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, pilih penyiapan data Anda.

  3. Di toolbar penyiapan data, pilih Lainnya > Mode penulisan.

  4. Pilih salah satu opsi. Untuk mengetahui informasi selengkapnya, lihat Mode penulisan.

  5. Klik Simpan.

Membantu meningkatkan kualitas saran

Anda dapat membantu meningkatkan kualitas saran Gemini dengan membagikan data perintah yang Anda kirimkan ke fitur dalam Pratinjau kepada Google. Untuk membagikan data perintah Anda, ikuti langkah-langkah berikut:

  1. Buka editor persiapan data di BigQuery.
  2. Di toolbar penyiapan data, klik setelan Lainnya.
  3. Pilih Bagikan data untuk meningkatkan kualitas Gemini di BigQuery.

Setelan berbagi data berlaku untuk seluruh project dan hanya dapat ditetapkan oleh administrator project dengan izin IAM serviceusage.services.enable dan serviceusage.services.list. Untuk mengetahui informasi selengkapnya tentang penggunaan data dalam Program Penguji Tepercaya, lihat Program Penguji Tepercaya Gemini untuk Google Cloud .

Versi persiapan data

Anda dapat memilih untuk membuat penyiapan data di dalam atau di luar repositori. Pembuatan versi persiapan data ditangani secara berbeda berdasarkan lokasi persiapan data.

Pembuatan versi persiapan data di repositori

Repositori adalah repositori Git yang berada di BigQuery atau dengan penyedia pihak ketiga. Anda dapat menggunakan ruang kerja di repositori untuk melakukan kontrol versi pada penyiapan data. Untuk mengetahui informasi selengkapnya, lihat Menggunakan kontrol versi dengan file.

Versi penyiapan data di luar repositori

Persiapan data BigQuery yang tidak ada di repositori tidak mendukung penayangan, perbandingan, atau pemulihan versi persiapan data.

Untuk melihat daftar versi penyiapan data dalam urutan kronologis, ikuti langkah-langkah berikut:

  1. Di halaman BigQuery, buka panel Explorer.
  2. Pilih penyiapan data Anda.
  3. Klik Histori versi.

Mendownload persiapan data

Untuk mendownload penyiapan data dalam file YAML, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Persiapan data. Klik nama penyiapan data yang ingin Anda download.

  3. Klik Download. Penyiapan data disimpan dalam format file YAML—misalnya, NAME data preparation.dp.yaml.

Mengupload persiapan data

Untuk mengupload penyiapan data dari file YAML, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda.

  3. Buka folder Data preparations, lalu klik more_vert Menu > Upload to Data preparation.

  4. Dalam dialog Upload persiapan data, pilih file yang akan diupload, atau masukkan URL persiapan data.

  5. Masukkan nama untuk penyiapan data.

  6. Pilih lokasi penyiapan data tempat resource dikelola dan disimpan.

  7. Klik Upload.

Mengelola metadata di Dataplex Universal Catalog

Dengan Dataplex Universal Catalog, Anda dapat menyimpan dan mengelola metadata untuk penyiapan data. Persiapan data tersedia di Katalog Universal Dataplex secara default, tanpa konfigurasi tambahan.

Anda dapat menggunakan Dataplex Universal Catalog untuk mengelola penyiapan data di semua lokasi BigQuery. Pengelolaan persiapan data di Dataplex Universal Catalog tunduk pada kuota dan batas Katalog Universal Dataplex serta harga Katalog Universal Dataplex.

Katalog Universal Dataplex secara otomatis mengambil metadata berikut dari penyiapan data:

  • Nama aset data
  • Induk aset data
  • Lokasi aset data
  • Jenis aset data
  • Project Google Cloud yang sesuai

Katalog Universal Dataplex mencatat persiapan data sebagai entri dengan nilai entri berikut:

Grup entri sistem
Grup entri sistem system entry group untuk persiapan data adalah @dataform. Untuk melihat detail entri penyiapan data di Dataplex Universal Catalog, Anda perlu melihat grup entri sistem dataform. Untuk mengetahui petunjuk tentang cara melihat daftar semua entri dalam grup entri, lihat Melihat detail grup entri dalam dokumentasi Dataplex Universal Catalog.
Jenis entri sistem
Jenis entri sistem untuk persiapan data adalah dataform-code-asset. Untuk melihat detail persiapan data,Anda perlu melihat jenis entri sistem dataform-code-asset, memfilter hasil dengan filter berbasis aspek, dan menetapkan kolom type di dalam aspek dataform-code-asset ke DATA_PREPARATION. Kemudian, pilih entri penyiapan data yang dipilih. Untuk mengetahui petunjuk tentang cara melihat detail jenis entri yang dipilih, lihat Melihat detail jenis entri dalam dokumentasi Dataplex Universal Catalog. Untuk mengetahui petunjuk tentang cara melihat detail entri yang dipilih, lihat Melihat detail entri dalam dokumentasi Dataplex Universal Catalog.
Jenis aspek sistem
Jenis aspek sistem untuk penyiapan data adalah dataform-code-asset. Untuk memberikan konteks tambahan pada persiapan data di Dataplex Universal Catalog dengan memberi anotasi pada entri persiapan data dengan aspek, lihat jenis aspek dataform-code-asset, memfilter hasil dengan filter berbasis aspek, dan menetapkan kolom type di dalam aspek dataform-code-asset ke DATA_PREPARATION. Untuk mengetahui petunjuk tentang cara memberi anotasi pada entri dengan aspek, lihat Mengelola aspek dan memperkaya metadata dalam dokumentasi Dataplex Universal Catalog.
Jenis
Jenis untuk kanvas data adalah DATA_PREPARATION. Jenis ini memungkinkan Anda memfilter penyiapan data dalam jenis entri sistem dataform-code-asset dan jenis aspek dataform-code-asset dengan menggunakan kueri aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION dalam filter berbasis aspek.

Untuk mengetahui petunjuk tentang cara menelusuri aset, lihat Menelusuri aset data di Dataplex Universal Catalog dalam dokumentasi Dataplex Universal Catalog.

Langkah berikutnya