Membuat pipeline
Dokumen ini menjelaskan cara membuat pipeline di BigQuery. Pipeline didukung oleh Dataform.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- Ikuti petunjuk di artikel Mengaktifkan pengelolaan aset kode untuk menyimpan, membagikan, dan mengelola versi aset kode seperti pipeline.
- Jika ini adalah pertama kalinya Anda membuat aset kode, tetapkan region default untuk menyimpan aset kode. Anda tidak dapat mengubah region untuk aset kode setelah dibuat.
Peran yang diperlukan untuk pipeline
Untuk mendapatkan izin yang Anda perlukan untuk membuat pipeline, minta administrator untuk memberi Anda peran IAM berikut pada project:
-
Untuk membuat pipeline:
Code Creator (
roles/dataform.codeCreator
) -
Untuk mengedit dan menjalankan pipeline:
Dataform Editor (
roles/dataform.editor
)
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk informasi selengkapnya tentang IAM Dataform, lihat Mengontrol akses dengan IAM.
Peran yang diperlukan untuk opsi notebook
Untuk mendapatkan izin yang
diperlukan guna memilih template runtime di opsi notebook,
minta administrator untuk memberi Anda
peran IAM Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Jika tidak memiliki peran ini, Anda dapat memilih spesifikasi runtime notebook default.
Membuat pipeline
Untuk membuat pipeline, ikuti langkah-langkah berikut:
Buka halaman BigQuery.
Di panel tab panel editor, klik panah
di samping tanda +, lalu klik Pipeline.Opsional: Untuk mengganti nama pipeline, klik nama pipeline, lalu ketik nama baru.
Klik Mulai, lalu buka tab Setelan.
Di kolom Service account, pilih akun layanan Dataform.
Di bagian Location, pilih region pemrosesan untuk pipeline.
- Untuk memilih region tertentu, pilih Region, lalu pilih region di menu Region.
- Untuk memilih multi-region, pilih Multi-region, lalu pilih multi-region di menu Multi-region.
Wilayah pemrosesan pipeline tidak perlu cocok dengan wilayah penyimpanan default untuk aset kode.
Opsi notebook
Jika Anda berencana menambahkan notebook ke pipeline, lakukan hal berikut di bagian Opsi notebook:
Di Kolom template runtime, terima runtime notebook default, atau telusuri dan pilih runtime yang ada.
- Untuk melihat spesifikasi runtime default, klik panah di samping.
- Untuk membuat runtime baru, lihat Membuat template runtime.
Di kolom Cloud Storage bucket, klik Browse, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.
Ikuti Menambahkan akun utama ke kebijakan tingkat bucket untuk menambahkan akun layanan Dataform kustom sebagai akun utama ke bucket Cloud Storage yang ingin Anda gunakan untuk menyimpan output dari operasi pipeline terjadwal, dan berikan peran Storage Admin (
roles/storage.admin
) ke akun utama ini.Akun layanan Dataform kustom yang dipilih harus diberi peran IAM Storage Admin di bucket yang dipilih.
Menambahkan tugas pipeline
Untuk menambahkan tugas ke pipeline, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Untuk menambahkan aset kode, seperti kueri SQL, notebook, atau persiapan data, lakukan hal berikut:
Kueri SQL
Klik Tambahkan tugas, lalu pilih Kueri. Anda dapat membuat kueri baru atau mengimpor kueri yang sudah ada.
Opsional: Di panel Query task details, di menu Run after, pilih tugas yang akan mendahului kueri Anda.
Kueri Anda akan bergantung pada tugas sebelumnya.
Membuat kueri baru
Klik menu panah
di samping Edit Kueri, lalu pilih Dalam konteks atau Dalam tab baru.Menelusuri kueri yang ada.
Pilih nama kueri, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama kueri, klik nama kueri di panel pipeline, klik Edit Kueri, klik nama kueri yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor kueri yang ada
Klik menu panah
di samping Edit Kueri, lalu klik Impor salinan.Telusuri kueri yang ada untuk diimpor atau pilih kueri yang ada dari panel penelusuran. Saat Anda mengimpor kueri, kueri asli tidak akan berubah karena file sumber kueri disalin ke pipeline.
Klik Edit untuk membuka kueri yang diimpor.
Klik Simpan.
Notebook
Klik Tambahkan tugas, lalu pilih Notebook. Anda dapat membuat notebook baru atau mengimpor notebook yang sudah ada. Untuk mengubah setelan template runtime notebook, lihat Opsi notebook.
Opsional: Di panel Notebook task details, di menu Run after, pilih tugas yang akan mendahului notebook Anda.
Notebook Anda akan bergantung pada tugas sebelumnya.
Membuat notebook baru
Klik menu panah
di samping Edit Notebook dan pilih Dalam konteks atau Dalam tab baru.Telusuri notebook yang ada.
Pilih nama notebook, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama notebook, klik nama notebook di panel pipeline, klik Edit Notebook, klik nama notebook yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor notebook yang ada
Klik menu panah
di samping Edit Notebook, lalu klik Import a copy.Telusuri notebook yang ada untuk diimpor atau pilih notebook yang ada dari panel penelusuran. Saat Anda mengimpor notebook, notebook asli tidak akan berubah karena file sumber notebook disalin ke pipeline.
Untuk membuka notebook yang diimpor, klik Edit.
Klik Simpan.
Persiapan data
Klik Tambahkan tugas, lalu pilih Persiapan data. Anda dapat membuat persiapan data baru atau mengimpor persiapan data yang ada.
Opsional: Di panel Data preparation task details, di menu Run after, pilih tugas yang akan mendahului persiapan data Anda.
Persiapan data Anda akan bergantung pada tugas sebelumnya.
Membuat persiapan data baru
Klik menu panah
di samping Edit Persiapan data, lalu pilih Dalam konteks atau Dalam tab baru.Telusuri persiapan data yang ada.
Pilih nama persiapan data, lalu tekan enter.
Klik Simpan.
Opsional: Untuk mengganti nama persiapan data, klik nama persiapan data di panel pipeline, klik Edit Persiapan data, klik nama di bagian atas layar, lalu masukkan nama baru.
Mengimpor persiapan data yang ada
Klik menu drop-down panah
di samping Edit Persiapan data, lalu klik Impor salinan.Telusuri persiapan data yang ada untuk diimpor atau pilih persiapan data yang ada dari panel penelusuran. Saat Anda mengimpor persiapan data, file asli tidak akan berubah karena file sumber persiapan data disalin ke pipeline.
Untuk membuka persiapan data yang diimpor, klik Edit.
Klik Simpan.
Mengedit tugas pipeline
Untuk mengedit tugas pipeline, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Untuk mengubah tugas sebelumnya, di menu Run after, pilih tugas yang akan mendahului kueri atau notebook Anda.
Untuk mengedit konten tugas yang dipilih, klik Edit.
Di tab baru yang terbuka, edit konten tugas, lalu simpan perubahan pada tugas.
Menghapus tugas pipeline
Untuk menghapus tugas dari pipeline, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Di panel Task details, klik ikon DeleteDelete.
Membagikan pipeline
Untuk membagikan pipeline, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Kelola izin.
Klik Tambahkan pengguna/grup.
Di kolom Akun utama baru, masukkan nama minimal satu pengguna atau grup.
Untuk Menetapkan Peran, pilih peran.
Klik Simpan.
Membagikan link ke pipeline
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Bagikan link. URL untuk pipeline Anda akan disalin ke papan klip komputer.
Menjalankan pipeline
Untuk menjalankan versi pipeline saat ini secara manual, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Run.
Opsional: Untuk memeriksa operasi, lihat operasi manual sebelumnya.
Langkah berikutnya
- Pelajari pipeline BigQuery lebih lanjut.
- Pelajari cara mengelola pipeline.
- Pelajari cara menjadwalkan pipeline.