Menyiapkan data dengan Gemini

Dokumen ini menjelaskan cara membuat dan mengelola saran kode SQL untuk penyiapan data di BigQuery.

Untuk mengetahui informasi selengkapnya, lihat Pengantar penyiapan data BigQuery.

Sebelum memulai

Membuka editor persiapan data di BigQuery

Anda dapat membuka editor penyiapan data di BigQuery dengan membuat penyiapan data baru, membuat penyiapan data dari tabel yang ada, atau membuka penyiapan data yang ada. Untuk mengetahui informasi selengkapnya tentang apa yang terjadi saat Anda membuat persiapan data, lihat Titik entri persiapan data.

Di halaman BigQuery, Anda dapat membuka editor persiapan data dengan cara berikut:

Buat baru

Untuk membuat persiapan data baru di BigQuery, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.
    Buka BigQuery
  2. Buka daftar Buat baru, lalu klik Penyiapan data. Editor penyiapan data ditampilkan di tab penyiapan data baru tanpa judul.
  3. Di kotak penelusuran editor, masukkan nama tabel atau kata kunci Anda, lalu pilih tabel. Editor penyiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data, dan serangkaian saran penyiapan data awal dari Gemini.

    Resource Penyiapan data akan muncul di panel Explorer, tempat Anda dapat mengakses penyiapan ini di masa mendatang.
  4. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.

Buat baru dari tabel

Untuk membuat penyiapan data baru dari tabel yang ada, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.
    Buka BigQuery
  2. Di panel Explorer, tahan kursor ke tabel.
  3. Klik more_vert Menu > Kueri di > Penyiapan data. Editor penyiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data, dan kumpulan awal saran penyiapan data dari Gemini.

    Resource Penyiapan data akan muncul di panel Explorer, tempat Anda dapat mengakses penyiapan ini di masa mendatang.
  4. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.

Buka yang ada

Untuk membuka editor penyiapan data yang sudah ada, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.
    Buka BigQuery
  2. Di panel Explorer, klik nama project dan persiapan data.
  3. Pilih penyiapan data yang ada. Tampilan grafik pipeline persiapan data akan ditampilkan.
  4. Pilih salah satu node dalam grafik. Editor penyiapan data untuk tabel akan terbuka, menampilkan pratinjau data Anda di tab Data, dan kumpulan awal saran penyiapan data dari Gemini.
  5. Opsional: Untuk menyederhanakan tampilan, aktifkan mode layar penuh dengan mengklik layar penuh Layar penuh.

Menambahkan langkah-langkah penyiapan data

Anda menyiapkan data dalam beberapa langkah. Anda dapat melihat pratinjau atau menerapkan langkah-langkah yang disarankan oleh Gemini. Anda juga dapat meningkatkan kualitas saran, atau menerapkan langkah-langkah Anda sendiri.

Menerapkan dan meningkatkan kualitas saran dari Gemini

Saat Anda membuka editor penyiapan data untuk tabel, Gemini akan memeriksa data dan skema dari tabel yang Anda muat serta membuat saran filter dan transformasi. Saran muncul di kartu dalam daftar Langkah-Langkah.

Gambar berikut menunjukkan tempat Anda dapat menerapkan dan meningkatkan kualitas langkah-langkah yang disarankan oleh Gemini:

Tampilan data di editor penyiapan data yang menampilkan opsi untuk melihat pratinjau, mengedit, atau menerapkan saran dari Gemini.

Untuk menerapkan saran dari Gemini sebagai langkah persiapan data, lakukan hal berikut:

  1. Di tampilan data, klik nama kolom atau sel tertentu. Gemini membuat saran untuk memfilter dan mengubah data.
  2. Opsional: Untuk meningkatkan kualitas saran, edit nilai satu hingga tiga sel dalam tabel untuk menunjukkan seperti apa nilai dalam kolom seharusnya. Misalnya, masukkan tanggal sesuai dengan format yang Anda inginkan untuk semua tanggal. Gemini akan membuat saran baru berdasarkan perubahan Anda.

    Gambar berikut menunjukkan cara mengedit nilai untuk meningkatkan kualitas langkah-langkah yang disarankan oleh Gemini:

    Tingkatkan kualitas saran dengan mengedit nilai dalam sel untuk menunjukkan seperti apa nilai dalam kolom seharusnya.

  3. Pilih kartu saran.

    1. Opsional: Untuk melihat pratinjau hasil kartu saran, klik Pratinjau.
    2. Opsional: Untuk mengubah kartu saran menggunakan bahasa alami, klik Edit.
  4. Klik Terapkan.

Menambahkan langkah-langkah dengan bahasa alami atau ekspresi SQL

Jika saran yang ada tidak memenuhi kebutuhan Anda, tambahkan langkah. Pilih kolom atau jenis langkah, lalu deskripsikan apa yang Anda inginkan menggunakan bahasa alami.

Menambahkan transformasi

  1. Di tampilan data atau skema, pilih opsi Transformasi. Anda juga dapat memilih kolom atau menambahkan contoh untuk membantu Gemini memahami transformasi data Anda.
  2. Di kolom Deskripsi, masukkan perintah, seperti Convert the state column to uppercase.
  3. Klik kirim Kirim.

    Gemini membuat ekspresi SQL dan deskripsi baru berdasarkan perintah Anda.

  4. Dalam daftar Kolom target, pilih atau masukkan nama kolom.

  5. Opsional: Untuk memperbarui ekspresi SQL, revisi perintah dan klik send Kirim, atau masukkan ekspresi SQL secara manual.

  6. Opsional: Klik Pratinjau dan tinjau langkahnya.

  7. Klik Terapkan.

Meratakan kolom JSON

Anda dapat menyederhanakan data JSON dari sumber selama penyiapan data. Proses ini, yang disebut perataan, mengekstrak semua pasangan nilai kunci dari kolom JSON sekaligus dan mengubahnya menjadi kolomnya sendiri dalam tabel Anda. Hal ini membantu saat Anda perlu membuat struktur JSON yang rumit lebih mudah dianalisis atau digabungkan dengan data lain.

Gemini untuk BigQuery menyarankan operasi yang mengekstraksi kolom hanya dari tingkat teratas JSON. Jika kolom yang diekstrak ini berisi lebih banyak objek JSON, Anda dapat meratakannya dalam langkah tambahan untuk mengakses isinya.

  1. Di tampilan data untuk tabel sumber JSON, pilih kolom atau sel.
  2. Klik Flatten untuk membuat saran.
  3. Opsional: Untuk memperbarui ekspresi SQL, Anda dapat memasukkan ekspresi SQL secara manual.
  4. Opsional: Klik Pratinjau dan tinjau langkahnya.
  5. Klik Terapkan.

Perataan memiliki perilaku berikut:

  • Opsi Flatten muncul di tampilan data setelah Anda memilih sel atau kolom yang berisi JSON. Bagian ini tidak muncul secara default saat Anda mengklik Tambahkan langkah.
  • Jika kunci JSON tidak ada di baris yang dipilih, saran yang dihasilkan tidak berisi kunci tersebut. Masalah ini dapat menyebabkan beberapa kolom tidak disertakan saat data diratakan.
  • Jika nama kolom bertabrakan selama perataan, nama kolom yang berulang akan berakhir dalam format ini: _<i>. Misalnya, jika sudah ada kolom bernama address, nama kolom baru yang diratakan adalah address_1.
  • Nama kolom yang diratakan mengikuti konvensi penamaan kolom BigQuery.
  • Jika Anda membiarkan kolom kunci JSON kosong, format nama kolom default adalah f<i>_.

Memfilter baris

Untuk menambahkan filter yang menghapus baris, ikuti langkah-langkah berikut:

  1. Dalam tampilan data atau skema, pilih opsi Filter. Anda juga dapat memilih kolom untuk membantu Gemini memahami filter data Anda.
  2. Di kolom Deskripsi, masukkan perintah, seperti Column ID should not be NULL.
  3. Klik Generate. Gemini membuat ekspresi SQL dan deskripsi baru berdasarkan perintah Anda.
  4. Opsional: Untuk memperbarui ekspresi SQL, revisi perintah, lalu klik send Kirim, atau masukkan ekspresi SQL secara manual.
  5. Opsional: Klik Pratinjau dan tinjau langkahnya.
  6. Klik Terapkan.

Format ekspresi filter

Ekspresi SQL untuk filter mempertahankan baris yang cocok dengan kondisi yang ditentukan. Hal ini setara dengan pernyataan SELECT … WHERE SQL_EXPRESSION.

Misalnya, untuk mempertahankan data jika kolom year lebih besar dari atau sama dengan 2000, kondisinya adalah year >= 2000.

Ekspresi harus mengikuti sintaksis SQL BigQuery untuk klausa WHERE.

Mengonfigurasi tabel error dan menambahkan aturan validasi

Anda dapat menambahkan filter yang membuat aturan validasi, yang mengirimkan error ke tabel error atau gagal menjalankan penyiapan data.

Mengonfigurasi tabel error

Untuk mengonfigurasi tabel error, ikuti langkah-langkah berikut:

  1. Di editor penyiapan data, buka toolbar dan klik Lainnya > Tabel error.
  2. Klik Aktifkan tabel error.
  3. Tentukan lokasi tabel.
  4. Opsional: Tentukan durasi maksimum untuk menyimpan error.
  5. Klik Simpan.

Menambahkan aturan validasi

Untuk menambahkan aturan validasi, ikuti langkah-langkah berikut:

  1. Dalam tampilan data atau skema, klik opsi Filter. Anda juga dapat memilih kolom untuk membantu Gemini memahami filter data Anda.
  2. Masukkan deskripsi untuk langkah.
  3. Masukkan ekspresi SQL, dalam bentuk klausa WHERE.
  4. Opsional: Jika Anda ingin ekspresi SQL bertindak sebagai aturan validasi, centang kotak Failed validation rows go to error table. Anda juga dapat mengubah filter menjadi validasi di toolbar penyiapan data dengan mengklik Lainnya > Tabel error.
  5. Opsional: Klik Pratinjau dan tinjau langkahnya.
  6. Klik Terapkan.

Menghapus kolom

Untuk menghapus satu atau beberapa kolom dari penyiapan data, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, pilih kolom yang ingin Anda lepas.
  2. Klik Lepaskan. Langkah penerapan baru ditambahkan untuk kolom yang dihapus.

Menambahkan operasi gabungan dengan Gemini

Untuk menambahkan langkah operasi gabungan antara dua sumber dalam penyiapan data Anda, ikuti langkah-langkah berikut:

  1. Di tampilan data untuk node dalam penyiapan data, buka daftar Saran, lalu klik opsi Gabungkan.
  2. Dalam dialog Tambahkan gabungan, klik Jelajahi, lalu pilih tabel lain yang terlibat dalam operasi gabungan (disebut sebagai sisi kanan gabungan).
  3. Opsional: Pilih jenis operasi gabungan yang ingin Anda lakukan, seperti Inner join.
  4. Tinjau informasi kunci gabungan yang dihasilkan Gemini di kolom berikut:

    • Deskripsi gabungan: Deskripsi bahasa alami ekspresi SQL untuk operasi gabungan. Saat Anda mengedit deskripsi ini dan mengklik kirim Kirim, Gemini akan menyarankan kondisi gabungan SQL baru.
    • Kondisi gabungan: Ekspresi SQL dalam klausa ON untuk operasi gabungan. Anda dapat menggunakan kualifikasi L dan R untuk merujuk ke tabel sumber kiri dan kanan. Misalnya, untuk menggabungkan kolom customer_id dari tabel kiri ke kolom customer_id dari tabel kanan, masukkan L.customerId = R.customerId. Penentu ini tidak peka huruf besar/kecil.

  5. Opsional: Untuk mempertajam saran dari Gemini, edit kolom Deskripsi bergabung, lalu klik kirim Kirim.

  6. Opsional: Untuk melihat pratinjau setelan operasi penggabungan penyiapan data Anda, klik Pratinjau.

  7. Klik Terapkan.

    Langkah operasi gabung dibuat. Tabel sumber yang Anda pilih (sisi kanan gabungan) dan operasi gabungan tercermin dalam daftar langkah yang diterapkan dan dalam node di tampilan grafik penyiapan data Anda.

Menambahkan atau mengubah tabel tujuan

Untuk menambahkan atau mengubah tabel tujuan bagi output penyiapan data Anda, ikuti langkah-langkah berikut:

  1. Di tampilan data atau skema, pilih opsi Tujuan.
  2. Pilih project tempat tabel tujuan disimpan.
  3. Pilih salah satu set data, atau muat set data baru.
  4. Masukkan tabel tujuan. Jika tabel tidak ada, penyiapan data akan membuat tabel baru pada proses pertama. Untuk mengetahui informasi selengkapnya, lihat Mode penulisan.
  5. Pilih set data Anda sebagai set data tujuan.
  6. Klik Simpan.

Melihat sampel dan skema data untuk langkah yang diterapkan

Untuk melihat detail sampel dan skema pada langkah tertentu dalam penyiapan data, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah. Tab Data dan Skema akan muncul, menampilkan sampel data dan skema pada langkah tertentu ini.

Mengedit langkah yang diterapkan

Untuk mengedit langkah yang diterapkan, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah.
  3. Di samping langkah, klik more_vert Menu > Edit.
  4. Dalam dialog Edit Langkah yang Diterapkan, Anda dapat melakukan hal berikut:
    • Edit deskripsi langkah.
    • Dapatkan saran dari Gemini dengan mengedit deskripsi dan mengklik kirim Kirim.
    • Edit ekspresi SQL.
  5. Di kolom Target column, pilih kolom.
  6. Opsional: Klik Pratinjau dan tinjau langkahnya.
  7. Klik Terapkan.

Menghapus langkah yang diterapkan

Untuk menghapus langkah yang diterapkan, lakukan hal berikut:

  1. Di editor penyiapan data, buka daftar Langkah-langkah, lalu klik Langkah-langkah yang diterapkan.
  2. Pilih langkah.
  3. Klik more_vert Menu > Hapus.

Menjalankan persiapan data

Setelah menambahkan langkah-langkah penyiapan data, mengonfigurasi tujuan, dan memperbaiki error validasi, Anda dapat menjalankan uji coba pada sampel data, atau men-deploy langkah-langkah dan menjadwalkan penyiapan data. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.

Memuat ulang contoh persiapan data

Data dalam sampel tidak diperbarui secara otomatis. Jika data dalam tabel sumber untuk penyiapan data telah berubah, tetapi perubahan tersebut tidak tercermin dalam sampel data penyiapan, klik Lainnya > Perbarui sampel.

Langkah berikutnya