Membuat dan menjalankan alur kerja di Dataform
Panduan memulai ini akan memandu Anda melalui proses berikut di Dataform untuk membuat alur kerja dan menjalankannya di BigQuery:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Membuat dan mengelola repositori, ruang kerja, dan pemanggilan alur kerja:
Admin Dataform (
roles/dataform.admin
) -
Menjalankan alur kerja di BigQuery:
-
BigQuery Data Editor (
roles/bigquery.dataEditor
) -
BigQuery Job User (
roles/bigquery.jobUser
)
-
BigQuery Data Editor (
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk membuat dan menjalankan alur kerja di Dataform, minta administrator Anda untuk memberi Anda peran IAM berikut pada project yang akan menghosting repositori Dataform Anda:
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Membuat repositori Dataform
Di konsol Google Cloud , buka halaman Dataform.
Klik
Buat repositori.Di halaman Create repository, lakukan hal berikut:
Di kolom Repository ID, masukkan
quickstart-repository
.Dalam daftar Region, pilih
europe-west4
.Klik Buat.
Membuat dan melakukan inisialisasi ruang kerja pengembangan Dataform
Di konsol Google Cloud , buka halaman Dataform.
Klik
quickstart-repository
.Klik
Buat ruang kerja pengembangan.Di jendela Create development workspace, lakukan hal berikut:
Di kolom Workspace ID, masukkan
quickstart-workspace
.Klik Buat.
Halaman ruang kerja pengembangan akan muncul.
Klik Initialize workspace.
Membuat tampilan
Di bagian berikut, Anda akan menentukan tampilan yang nantinya akan digunakan sebagai sumber data untuk tabel.
Membuat file SQLX untuk menentukan tabel virtual
Di panel Files, di samping
definitions/
, klik menu More.Klik Create file.
Di panel Create new file, lakukan hal berikut:
Di kolom Add a file path, masukkan
definitions/quickstart-source.sqlx
.Klik Create file.
Menentukan tabel virtual
Di panel Files, luaskan folder definitions.
Klik
definitions/quickstart-source.sqlx
.Di file tersebut, masukkan cuplikan kode berikut:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Klik Format.
Membuat tabel
Pada bagian berikut, tentukan jenis tabel dalam file SQLX, lalu
tulis pernyataan SELECT
untuk menentukan struktur tabel dalam file yang sama.
Membuat file SQLX untuk definisi tabel
Di panel Files, di samping
definitions/
, klik menu More, lalu pilih Create file.Di kolom Add a file path, masukkan
definitions/quickstart-table.sqlx
.Klik Create file.
Tentukan jenis tabel, struktur, dan dependensinya
Di panel Files, luaskan direktori
definitions/
.Pilih
quickstart-table.sqlx
, lalu masukkan jenis tabel dan pernyataanSELECT
berikut:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Klik Format.
Setelah menentukan jenis tabel, Dataform akan menampilkan error validasi kueri
karena quickstart-source
belum ada di BigQuery. Error
ini akan diselesaikan saat Anda menjalankan alur kerja nanti dalam tutorial ini.
Jalankan alur kerja di BigQuery
Di konsol Google Cloud , buka halaman Dataform.
Di halaman
quickstart-workspace
, klik Start execution.Klik Semua tindakan.
Klik Start execution.
Dalam dialog yang terbuka, klik Izinkan untuk memberikan izin kepada BigQuery Pipelines agar dapat mengakses Akun Google Anda.
Dataform menggunakan setelan repositori default untuk membuat konten alur kerja Anda dalam set data BigQuery yang disebut
dataform
.
Melihat log eksekusi di Dataform
Di halaman
quickstart-repository
, klik Workflow Execution Logs.Untuk melihat detail eksekusi Anda, klik eksekusi terbaru.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Hapus set data yang dibuat di BigQuery
Untuk menghindari biaya aset BigQuery, hapus set data yang disebut dataform
.
Di Google Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project Anda dan pilih
dataform
.Klik menu Tindakan
, lalu pilih Hapus.Pada dialog Delete dataset, masukkan
delete
ke dalam kolom, lalu klik Delete.
Menghapus ruang kerja pengembangan Dataform
Pembuatan ruang kerja pengembangan Dataform tidak dikenai biaya, tetapi untuk menghapus ruang kerja pengembangan, Anda dapat mengikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman Dataform.
Klik
quickstart-repository
.Di tab Ruang kerja pengembangan, klik menu
Lainnya denganquickstart-workspace
, lalu pilih Hapus.Untuk mengonfirmasi, klik Hapus.
Menghapus repositori Dataform
Pembuatan repositori Dataform tidak menimbulkan biaya, tetapi untuk menghapus repositori, Anda dapat mengikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman Dataform.
Di
quickstart-repository
, klik menu Lainnya, lalu pilih Hapus.Di jendela Hapus repositori, masukkan nama repositori untuk mengonfirmasi penghapusan.
Untuk mengonfirmasi, klik Hapus.
Langkah berikutnya
Untuk mempelajari Dataform lebih lanjut, lihat Ringkasan Dataform.
Untuk mempelajari fitur Dataform lebih lanjut, lihat Fitur Dataform.
Untuk mempelajari Dataform core lebih lanjut, lihat Ringkasan Dataform core.
Untuk mempelajari cara mengganti setelan Dataform default repositori Anda, lihat Mengonfigurasi setelan alur kerja Dataform.
Untuk mempelajari lebih lanjut cara mengelola set data di BigQuery, lihat Mengelola set data.
Untuk mempelajari lebih lanjut cara mengelola tabel di BigQuery, lihat Mengelola tabel.