Menjadwalkan pipeline

Dokumen ini menjelaskan cara menjadwalkan pipeline BigQuery, termasuk cara menjadwalkan pipeline dan memeriksa operasi pipeline terjadwal.

Pipeline didukung oleh Dataform.

Setiap jadwal pipeline dijalankan oleh akun layanan, yang Anda pilih selama pembuatan jadwal. Untuk informasi selengkapnya tentang jenis akun layanan di Dataform, lihat Tentang akun layanan di Dataform.

Perubahan yang Anda buat pada pipeline akan otomatis disimpan, tetapi hanya tersedia untuk Anda dan pengguna yang diberi peran Admin Dataform pada project. Untuk memperbarui jadwal dengan versi baru pipeline, Anda perlu men-deploy pipeline. Deployment akan memperbarui jadwal untuk menggunakan versi pipeline Anda saat ini. Jadwal selalu menjalankan versi terbaru yang di-deploy.

Jadwal pipeline yang berisi notebook menggunakan spesifikasi runtime default. Selama operasi terjadwal pipeline yang berisi notebook, BigQuery akan menulis output notebook ke bucket Cloud Storage yang dipilih selama pembuatan jadwal.

Sebelum memulai

Sebelum memulai, buat pipeline.

Mengaktifkan penjadwalan pipeline

Untuk menjadwalkan pipeline, Anda harus memberikan peran berikut ke akun layanan yang ingin digunakan untuk jadwal pipeline:

Service Account User (roles/iam.serviceAccountUser)
Ikuti Memberikan satu peran di akun layanan untuk menambahkan akun layanan Anda sebagai akun utama ke akun layanan itu sendiri. Dengan kata lain, tambahkan akun layanan sebagai akun utama ke akun layanan yang sama. Kemudian, berikan peran Service Account User kepada akun utama ini.

Jika pipeline Anda berisi kueri SQL, Anda harus memberikan peran berikut ke akun layanan yang ingin Anda gunakan untuk jadwal pipeline:

BigQuery Job User (roles/bigquery.jobUser)
Ikuti artikel Memberikan satu peran di project untuk memberikan peran BigQuery Job User ke akun layanan Anda di project tempat pipeline Anda membaca data.
BigQuery Data Viewer (roles/bigquery.dataViewer)
Ikuti artikel Memberikan satu peran di project untuk memberikan peran BigQuery Data Viewer ke akun layanan Anda di project tempat pipeline Anda membaca data.
BigQuery Data Editor (roles/bigquery.dataEditor)
Ikuti artikel Memberikan satu peran di project untuk memberikan peran BigQuery Data Editor ke akun layanan Anda di project tempat pipeline Anda menulis data.

Jika pipeline Anda berisi notebook, Anda harus memberikan peran berikut ke akun layanan yang ingin Anda gunakan untuk jadwal pipeline:

Pengguna Notebook Executor (roles/aiplatform.notebookExecutorUser)
Ikuti artikel Memberikan satu peran di project untuk memberikan peran Notebook Executor User ke akun layanan Anda di project yang dipilih.
Storage Admin (roles/storage.admin)
Ikuti Menambahkan akun utama ke kebijakan tingkat bucket untuk menambahkan akun layanan Anda sebagai akun utama ke bucket Cloud Storage yang ingin Anda gunakan untuk menyimpan output notebook yang dijalankan dalam operasi pipeline terjadwal, dan berikan peran Storage Admin ke akun utama ini.

Selain itu, Anda harus memberikan peran berikut ke akun layanan Dataform default:

Service Account Token Creator (roles/iam.serviceAccountTokenCreator)
Ikuti Memberikan akses pembuatan token ke akun layanan untuk menambahkan akun layanan Dataform default sebagai akun utama ke akun layanan Anda, dan berikan peran Service Account Token Creator ke akun utama ini.

Untuk mempelajari akun layanan di Dataform lebih lanjut, lihat Tentang akun layanan di Dataform.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk mengelola pipeline, minta administrator untuk memberi Anda peran IAM berikut:

  • Menghapus pipeline: Admin Dataform (roles/dataform.Admin) di pipeline
  • Membuat, mengedit, menjalankan, dan menghapus jadwal pipeline: Dataform Admin (roles/dataform.Admin) di pipeline
  • Melihat dan menjalankan pipeline: Dataform Viewer (roles/dataform.Viewer) di project
  • Melihat jadwal pipeline: Dataform Editor (roles/dataform.Editor) di project

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk informasi selengkapnya tentang IAM Dataform, lihat Mengontrol akses dengan IAM.

Untuk menggunakan template runtime notebook Colab saat menjadwalkan pipeline, Anda memerlukan peran Notebook Runtime User (roles/aiplatform.notebookRuntimeUser).

Membuat jadwal pipeline

Untuk membuat jadwal pipeline, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Jadwalkan.

  4. Di panel Jadwalkan pipeline, di kolom Nama jadwal, masukkan nama untuk jadwal.

  5. Di kolom Service account, pilih akun layanan.

  6. Jika pipeline Anda berisi notebook, di bagian Notebook options, di kolom Runtime template, pilih template runtime notebook Colab atau spesifikasi runtime default. Untuk mengetahui detail tentang cara membuat template runtime notebook Colab, lihat Membuat template runtime.

  7. Jika pipeline Anda berisi notebook, di bagian Notebook options, di kolom Cloud Storage bucket, klik Browse, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.

    Akun layanan yang Anda pilih harus diberi peran IAM Storage Admin di bucket yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan penjadwalan pipeline.

  8. Di bagian Schedule frequency, lakukan tindakan berikut:

    1. Di menu Repeats, pilih frekuensi pengoperasian pipeline terjadwal.
    2. Di kolom At time, masukkan waktu untuk menjalankan pipeline terjadwal.
    3. Di menu Zona waktu, pilih zona waktu untuk jadwal.
  9. Klik Buat jadwal.

Saat Anda membuat jadwal, versi pipeline saat ini akan di-deploy secara otomatis. Untuk memperbarui jadwal dengan versi baru pipeline, deploy pipeline.

Versi pipeline terbaru yang di-deploy berjalan pada waktu dan frekuensi yang dipilih.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik Create, lalu pilih Pipeline schedule dari menu.

  3. Di panel Jadwalkan pipeline, pilih pipeline yang akan dijadwalkan.

  4. Di kolom Schedule name, masukkan nama untuk jadwal.

  5. Di kolom Service account, pilih akun layanan Dataform.

  6. Jika pipeline Anda berisi notebook, di bagian Notebook options, di kolom Runtime template, pilih template runtime notebook Colab atau spesifikasi runtime default. Untuk mengetahui detail tentang cara membuat template runtime notebook Colab, lihat Membuat template runtime.

  7. Jika pipeline Anda berisi notebook, di kolom Cloud Storage bucket, klik Browse, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.

    Akun layanan yang Anda pilih harus diberi peran IAM Storage Admin di bucket yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan penjadwalan pipeline.

  8. Di bagian Schedule frequency, lakukan tindakan berikut:

    1. Di menu Repeats, pilih frekuensi pengoperasian pipeline terjadwal.
    2. Di kolom At time, masukkan waktu untuk menjalankan pipeline terjadwal.
    3. Di menu Zona waktu, pilih zona waktu untuk jadwal.
  9. Klik Buat jadwal.

Men-deploy pipeline

Men-deploy pipeline akan memperbarui jadwalnya dengan versi pipeline saat ini. Menjadwalkan untuk menjalankan versi pipeline terbaru yang di-deploy.

Untuk men-deploy pipeline, ikuti langkah-langkah berikut:

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Deploy.

Jadwal yang sesuai diperbarui dengan versi pipeline saat ini. Versi pipeline terbaru yang di-deploy akan berjalan pada waktu yang dijadwalkan.

Menonaktifkan jadwal

Untuk menjeda operasi terjadwal pipeline yang dipilih tanpa menghapus jadwal, Anda dapat menonaktifkan jadwal.

Untuk menonaktifkan jadwal untuk pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

  4. Di tabel Detail jadwal, di baris Status jadwal, klik tombol Jadwal diaktifkan.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, klik Disable.

Mengaktifkan jadwal

Untuk melanjutkan proses terjadwal dari jadwal pipeline yang dinonaktifkan, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

  4. Di tabel Schedule details, di baris Schedule state, klik tombol Schedule is disabled.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Detail jadwal, klik Aktifkan.

Menjalankan pipeline yang di-deploy secara manual

Saat Anda menjalankan pipeline yang di-deploy secara manual dalam jadwal yang dipilih, BigQuery akan mengeksekusi pipeline yang di-deploy satu kali, secara independen dari jadwal.

Untuk menjalankan pipeline yang di-deploy secara manual, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama jadwal pipeline yang dipilih.

  3. Di halaman Schedule details, klik Run.

Melihat semua jadwal pipeline

Untuk melihat semua jadwal pipeline di project Google Cloud Anda, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Opsional: Untuk menampilkan kolom tambahan dengan detail jadwal pipeline, klik Column display options, lalu pilih kolom dan klik OK.

Melihat detail jadwal pipeline

Untuk melihat detail jadwal pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama jadwal pipeline yang dipilih.

Melihat operasi terjadwal sebelumnya

Untuk melihat operasi sebelumnya dari jadwal pipeline yang dipilih, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Executions.

  4. Opsional: Untuk memuat ulang daftar operasi sebelumnya, klik Muat ulang.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Detail jadwal, di bagian Eksekusi sebelumnya, periksa operasi sebelumnya.

  4. Opsional: Untuk memuat ulang daftar operasi sebelumnya, klik Muat ulang.

Mengedit jadwal pipeline

Untuk mengedit jadwal pipeline, ikuti langkah-langkah berikut:

Panel Penjelajah

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.

  3. Klik Lihat jadwal, lalu klik Edit.

  4. Dalam dialog Jadwalkan pipeline, edit jadwal, lalu klik Perbarui jadwal.

Halaman Penjadwalan

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Klik nama pipeline yang dipilih.

  3. Di halaman Schedule details, klik Edit.

  4. Klik Lihat jadwal, lalu klik Edit.

  5. Dalam dialog Jadwalkan pipeline, edit jadwal, lalu klik Perbarui jadwal.

Menghapus jadwal pipeline

Untuk menghapus jadwal pipeline secara permanen, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Penjadwalan.

    Buka Penjadwalan

  2. Lakukan salah satu hal berikut:

    • Klik nama jadwal pipeline yang dipilih, lalu di halaman Schedule details, klik Delete.

    • Di baris yang berisi jadwal pipeline yang dipilih, klik Lihat tindakan di kolom Tindakan, lalu klik Hapus.

  3. Pada dialog yang muncul, klik Hapus.

Langkah berikutnya