Menjadwalkan pipeline

Dokumen ini menjelaskan cara menjadwalkan pipeline BigQuery, termasuk cara menjadwalkan pipeline dan memeriksa eksekusi pipeline terjadwal.

Pipeline didukung oleh Dataform. Setiap jadwal pipeline dijalankan menggunakan kredensial pengguna Akun Google Anda atau akun layanan Dataform yang Anda pilih saat mengonfigurasi jadwal.

Perubahan yang Anda lakukan pada pipeline akan disimpan secara otomatis, tetapi hanya tersedia untuk Anda dan pengguna yang diberi peran Admin Dataform di project. Untuk mengupdate jadwal dengan versi baru pipeline, Anda perlu men-deploy pipeline. Deployment memperbarui jadwal untuk menggunakan versi pipeline Anda saat ini. Jadwal selalu menjalankan versi yang di-deploy terbaru.

Jadwal pipeline yang berisi notebook menggunakan spesifikasi runtime default. Selama menjalankan pipeline terjadwal yang berisi notebook, BigQuery akan menulis output notebook ke bucket Cloud Storage yang dipilih selama pembuatan jadwal.

Sebelum memulai

Sebelum memulai, buat pipeline.

Mengaktifkan penjadwalan pipeline

Untuk menjadwalkan pipeline, Anda harus memberikan peran berikut ke akun layanan yang akan Anda gunakan untuk jadwal pipeline:

Pengguna Akun Layanan (roles/iam.serviceAccountUser)
Ikuti Memberikan satu peran di akun layanan untuk menambahkan akun layanan Anda sebagai akun utama ke akun layanan itu sendiri. Dengan kata lain, tambahkan akun layanan sebagai akun utama ke akun layanan yang sama. Kemudian, berikan peran Service Account User kepada akun utama ini.

Jika pipeline Anda berisi kueri SQL, Anda harus memberikan peran berikut ke akun layanan yang akan Anda gunakan untuk jadwal pipeline:

BigQuery Job User (roles/bigquery.jobUser)
Ikuti Memberi satu peran di project untuk memberi peran BigQuery Job User ke akun layanan Anda di project tempat pipeline Anda membaca data.
BigQuery Data Viewer (roles/bigquery.dataViewer)
Ikuti Memberi satu peran di project untuk memberi peran BigQuery Data Viewer ke akun layanan Anda di project tempat pipeline Anda membaca data.
BigQuery Data Editor (roles/bigquery.dataEditor)
Ikuti Memberi satu peran di project untuk memberikan peran BigQuery Data Editor ke akun layanan Anda di project tempat pipeline Anda menulis data.

Jika pipeline Anda berisi notebook, Anda harus memberikan peran berikut ke akun layanan yang akan digunakan untuk jadwal pipeline:

Pengguna Eksekutor Notebook (roles/aiplatform.notebookExecutorUser)
Ikuti Memberikan satu peran pada project untuk memberikan peran Notebook Executor User ke akun layanan Anda di project yang dipilih.
Storage Admin (roles/storage.admin)
Ikuti Menambahkan akun utama ke kebijakan tingkat bucket untuk menambahkan akun layanan Anda sebagai akun utama ke bucket Cloud Storage yang akan Anda gunakan untuk menyimpan output notebook yang dijalankan dalam eksekusi pipeline terjadwal, dan berikan peran Storage Admin kepada akun utama ini.

Selain itu, Anda harus memberikan peran berikut ke akun layanan Dataform default:

Service Account Token Creator (roles/iam.serviceAccountTokenCreator)
Ikuti Memberi akses pembuatan token ke akun layanan untuk menambahkan akun layanan Dataform default sebagai akun utama ke akun layanan Anda, dan memberikan peran Service Account Token Creator kepada akun utama ini.

Untuk mempelajari lebih lanjut akun layanan di Dataform, lihat Tentang akun layanan di Dataform.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengelola pipeline, minta administrator Anda untuk memberikan peran IAM berikut:

  • Menghapus pipeline: Admin Dataform (roles/dataform.Admin) di pipeline
  • Membuat, mengedit, menjalankan, dan menghapus jadwal pipeline: Admin Dataform (roles/dataform.Admin) di pipeline
  • Melihat dan menjalankan pipeline: Dataform Viewer (roles/dataform.Viewer) di project
  • Melihat jadwal pipeline: Editor Dataform (roles/dataform.Editor) di project

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang IAM Dataform, lihat Mengontrol akses dengan IAM.

Untuk menggunakan template runtime notebook Colab saat menjadwalkan pipeline, Anda memerlukan peran Notebook Runtime User (roles/aiplatform.notebookRuntimeUser).

Membuat jadwal pipeline

Untuk membuat jadwal pipeline, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Jadwalkan.

  4. Di panel Schedule pipeline, di kolom Schedule name, masukkan nama untuk jadwal.

  5. Di bagian Authentication, beri otorisasi pada pipeline dengan kredensial pengguna Akun Google Anda atau akun layanan.

    • Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Jalankan dengan kredensial pengguna saya.
    • Untuk menggunakan akun layanan, pilih Jalankan dengan akun layanan yang dipilih, lalu pilih akun layanan.
  6. Jika pipeline Anda berisi notebook, di bagian Notebook options, di kolom Runtime template, pilih template runtime notebook Colab atau spesifikasi runtime default. Untuk mengetahui detail tentang cara membuat template runtime notebook Colab, lihat Membuat template runtime.

  7. Jika pipeline Anda berisi notebook, di bagian Opsi notebook, di kolom Cloud Storage bucket, klik Cari, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.

    Akun layanan yang Anda pilih harus diberi peran IAM Storage Admin di bucket yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan penjadwalan pipeline.

  8. Di bagian Frekuensi jadwal, lakukan tindakan berikut:

    1. Di menu Ulangi, pilih frekuensi eksekusi pipeline terjadwal.
    2. Di kolom At time, masukkan waktu untuk proses pipeline terjadwal.
    3. Di menu Zona waktu, pilih zona waktu untuk jadwal.
  9. Klik Buat jadwal. Jika Anda memilih Jalankan dengan kredensial pengguna saya untuk metode autentikasi, Anda harus mengizinkan Akun Google Anda (Pratinjau).

Saat Anda membuat jadwal, versi pipeline saat ini akan di-deploy secara otomatis. Untuk memperbarui jadwal dengan versi baru pipeline, deploy pipeline.

Versi pipeline yang di-deploy terbaru berjalan pada waktu dan frekuensi yang dipilih.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik Buat, lalu pilih Jadwal pipeline dari menu.

  3. Di panel Schedule pipeline, pilih pipeline yang akan dijadwalkan.

  4. Di kolom Schedule name, masukkan nama untuk jadwal.

  5. Di bagian Authentication, beri otorisasi pada pipeline dengan kredensial pengguna Akun Google Anda atau akun layanan.

    • Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Jalankan dengan kredensial pengguna saya.
    • Untuk menggunakan akun layanan, pilih Jalankan dengan akun layanan yang dipilih, lalu pilih akun layanan.
  6. Jika pipeline Anda berisi notebook, di bagian Notebook options, di kolom Runtime template, pilih template runtime notebook Colab atau spesifikasi runtime default. Untuk mengetahui detail tentang cara membuat template runtime notebook Colab, lihat Membuat template runtime.

  7. Jika pipeline Anda berisi notebook, di kolom Cloud Storage bucket, klik Cari, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.

    Akun layanan yang Anda pilih harus diberi peran IAM Storage Admin di bucket yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan penjadwalan pipeline.

  8. Di bagian Frekuensi jadwal, lakukan tindakan berikut:

    1. Di menu Ulangi, pilih frekuensi eksekusi pipeline terjadwal.
    2. Di kolom At time, masukkan waktu untuk proses pipeline terjadwal.
    3. Di menu Zona waktu, pilih zona waktu untuk jadwal.
  9. Klik Buat jadwal. Jika Anda memilih Jalankan dengan kredensial pengguna saya untuk metode autentikasi, Anda harus mengizinkan Akun Google Anda (Pratinjau).

Memberi otorisasi pada Akun Google Anda

Untuk mengautentikasi resource dengan kredensial pengguna Akun Google Anda, Anda harus memberikan izin secara manual agar pipeline BigQuery mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda dapat memberikan persetujuan manual dengan antarmuka dialog OAuth.

Anda hanya perlu memberikan izin ke pipeline BigQuery satu kali.

Untuk mencabut izin yang Anda berikan, ikuti langkah-langkah berikut:

  1. Buka halaman Akun Google Anda.
  2. Klik BigQuery Pipelines.
  3. Klik Hapus akses.

Mengubah pemilik jadwal pipeline dengan mengupdate kredensial juga memerlukan persetujuan manual jika pemilik Akun Google baru belum pernah membuat jadwal sebelumnya.

Jika pipeline Anda berisi notebook, Anda juga harus memberikan izin secara manual agar Colab Enterprise mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda hanya perlu memberikan izin satu kali. Anda dapat mencabut izin ini di halaman Akun Google.

Men-deploy pipeline

Men-deploy pipeline akan memperbarui jadwalnya dengan versi pipeline saat ini. Jadwal menjalankan versi pipeline yang di-deploy terbaru.

Untuk men-deploy pipeline, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Deploy.

Jadwal yang sesuai diperbarui dengan versi pipeline saat ini. Versi pipeline yang di-deploy terbaru berjalan pada waktu yang dijadwalkan.

Menonaktifkan jadwal

Untuk menjeda operasi terjadwal dari pipeline yang dipilih tanpa menghapus jadwal, Anda dapat menonaktifkan jadwal.

Untuk menonaktifkan jadwal pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

  4. Di tabel Detail jadwal, di baris Status jadwal, klik tombol Jadwal diaktifkan.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, klik Disable.

Mengaktifkan jadwal

Untuk melanjutkan jadwal pipeline yang dinonaktifkan, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

  4. Di tabel Detail jadwal, di baris Status jadwal, klik tombol Jadwal dinonaktifkan.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, klik Enable.

Menjalankan pipeline yang di-deploy secara manual

Saat Anda menjalankan pipeline yang di-deploy dalam jadwal yang dipilih secara manual, BigQuery akan menjalankan pipeline yang di-deploy satu kali, terlepas dari jadwalnya.

Untuk menjalankan pipeline yang di-deploy secara manual, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama jadwal pipeline yang dipilih.

  3. Di halaman Schedule details, klik Run.

Melihat semua jadwal pipeline

Untuk melihat semua jadwal pipeline di project Google Cloud Anda, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Opsional: Untuk menampilkan kolom tambahan dengan detail jadwal pipeline, klik Opsi tampilan kolom, lalu pilih kolom dan klik Oke.

Melihat detail jadwal pipeline

Untuk melihat detail jadwal pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama jadwal pipeline yang dipilih.

Melihat operasi terjadwal sebelumnya

Untuk melihat operasi sebelumnya dari jadwal pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Eksekusi.

  4. Opsional: Untuk memuat ulang daftar proses sebelumnya, klik Muat ulang.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, di bagian Past executions, periksa eksekusi sebelumnya.

  4. Opsional: Untuk memuat ulang daftar proses sebelumnya, klik Muat ulang.

Mengedit jadwal pipeline

Untuk mengedit jadwal pipeline, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project Anda dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal, lalu klik Edit.

  4. Dalam dialog Schedule pipeline, edit jadwal, lalu klik Update schedule.

Halaman Penjadwalan

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, klik Edit.

  4. Klik Lihat jadwal, lalu klik Edit.

  5. Dalam dialog Schedule pipeline, edit jadwal, lalu klik Update schedule.

Menghapus jadwal pipeline

Untuk menghapus jadwal pipeline secara permanen, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Scheduling.

    Buka Penjadwalan

  2. Lakukan salah satu hal berikut:

    • Klik nama jadwal pipeline yang dipilih, lalu di halaman Schedule details, klik Delete.

    • Di baris yang berisi jadwal pipeline yang dipilih, klik Lihat tindakan di kolom Tindakan, lalu klik Hapus.

  3. Pada dialog yang muncul, klik Hapus.

Langkah berikutnya