Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:
- Dataproc
- Compute Engine
- Cloud Scheduler
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
Menyiapkan project
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Scheduler .
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Scheduler .
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
Membuat peran khusus
- Buka halaman Buka IAM & Admin → Peran di Konsol Google Cloud.
- Klik CREATE ROLE untuk membuka halaman Buat Peran.
- Lengkapi kolom Judul, Deskripsi, ID, Tahap peluncuran. Saran: Gunakan "Dataproc Workflow Template Create" sebagai judul peran.
- Klik ADD PERMISSIONS,
- Dalam formulir Add Permissions, klik Filter, lalu pilih "Permission". Selesaikan filter untuk membaca "Permission: dataproc.workflowTemplates.instantiate".
- Klik kotak centang di sebelah kiri izin yang tercantum, lalu klik ADD.
- Pada halaman Create Role, klik ADD PERMISSIONS lagi untuk mengulangi sub-langkah sebelumnya untuk menambahkan izin "iam.serviceAccounts.actAs" ke peran khusus. Halaman Buat Peran sekarang mencantumkan dua izin.
- Klik BUAT di halaman Peran Khusus. Peran khusus tercantum di halaman Peran.
Membuat akun layanan
Di konsol Google Cloud, buka halaman Akun Layanan.
Pilih project Anda.
Klik
Create Service Account.Di kolom Service account name, masukkan nama
workflow-scheduler
. Konsol Google Cloud mengisi kolom Service account ID berdasarkan nama ini.Opsional: Di kolom Deskripsi akun layanan, masukkan deskripsi akun layanan.
Klik Buat dan lanjutkan.
Klik kolom Select a role dan pilih peran kustom Dataproc Workflow Template Create yang Anda buat di langkah sebelumnya.
Klik Lanjutkan.
Di kolom Service accountadmins role, masukkan alamat email Akun Google Anda.
Klik Selesai untuk menyelesaikan pembuatan akun layanan.
Buat template alur kerja.
Salin dan jalankan perintah yang tercantum di bawah di jendela terminal lokal atau di Cloud Shell untuk membuat dan menentukan template alur kerja.
Catatan:
- Perintah tersebut menentukan region "us-central1". Anda dapat menentukan wilayah yang berbeda atau menghapus tanda
--region
jika sebelumnya telah menjalankangcloud config set compute/region
untuk menetapkan properti wilayah. - Urutan "-- " (spasi tanda pisah) dalam perintah
add-job
meneruskan argumen1000
ke tugas SparkPi, yang menentukan jumlah sampel yang akan digunakan untuk memperkirakan nilai Pi.
- Buat template alur kerja.
gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Tambahkan tugas spark ke template alur kerja sparkpi. ID langkah "compute" diperlukan, dan mengidentifikasi tugas SparkPi yang ditambahkan.
gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Gunakan cluster
node tunggal
terkelola untuk menjalankan alur kerja. Dataproc akan membuat cluster, menjalankan alur kerja di dalamnya, lalu menghapus cluster saat alur kerja selesai.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Klik nama
sparkpi
di halaman Workflows Dataproc di konsol Google Cloud untuk membuka halaman Workflow template details. Konfirmasi atribut template sparkpi.
Buat tugas Cloud Scheduler
Buka halaman Cloud Scheduler di Konsol Google Cloud (Anda mungkin perlu memilih project untuk membuka halaman tersebut). Klik CREATE TUGAS.
Masukkan atau pilih informasi pekerjaan berikut:
- Pilih region: "us-central" atau region lain tempat Anda membuat template alur kerja.
- Nama: "sparkpi"
- Frekuensi: "* * * * *" memilih setiap menit; "0 9 * * 1" memilih setiap Senin pukul 09.00. Lihat Menentukan Jadwal Tugas untuk nilai unix-cron lainnya. Catatan: Anda dapat mengklik tombol JALANKAN SEKARANG pada Tugas Cloud Scheduler di konsol Google Cloud untuk menjalankan dan menguji tugas Anda, terlepas dari frekuensi yang ditetapkan untuk tugas Anda.
- Zona waktu: Pilih timezone Anda. Ketik "United States" untuk mencantumkan zona waktu AS.
- Target: "HTTP"
- URL: Sisipkan URL berikut setelah menyisipkan
your-project-id. Ganti "us-central1" jika Anda membuat template alur kerja di region berbeda. URL ini akan memanggil
workflowTemplates.instantiate
API Dataproc untuk menjalankan template alur kerja sparkpi.https://dataproc.googleapis.com/v1/projects/your-project-id/regions/us-central1/workflowTemplates/sparkpi:instantiate?alt=json
- Metode HTTP:
- "POST"
- Body: "{}"
- Header Auth:
- "Tambahkan token OAuth"
- Akun layanan: Masukkan service account address
akun layanan yang Anda buat untuk tutorial ini.
Anda dapat menggunakan alamat akun berikut setelah menyisipkan your-project-id:
workflow-scheduler@your-project-id.iam.gserviceaccount
- Cakupan: Anda dapat mengabaikan item ini.
- Klik CREATE.
Menguji tugas alur kerja terjadwal Anda
Pada baris tugas
sparkpi
di halaman Tugas Cloud Scheduler, klik JALANKAN SEKARANG.Tunggu beberapa menit, lalu buka halaman Workflows Dataproc untuk memverifikasi bahwa alur kerja sparkpi sudah selesai.
Setelah alur kerja menghapus cluster terkelola, detail tugas akan disimpan di Google Cloud Console. Klik tugas
compute...
yang tercantum di halaman Tugas Dataproc untuk melihat detail tugas alur kerja.
Pembersihan
Alur kerja dalam tutorial ini menghapus cluster terkelolanya saat alur kerja selesai. Dengan mempertahankan alur kerja, Anda dapat menjalankan kembali alur kerja dan tidak dikenai biaya. Anda dapat menghapus resource lain yang dibuat dalam tutorial ini untuk menghindari biaya berulang.
Menghapus project
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus template alur kerja Anda
gcloud dataproc workflow-templates delete sparkpi \ --region=us-central1
Menghapus tugas Cloud Schedule Anda
Buka halaman Tugas Cloud Scheduler di Konsol Google Cloud, pilih kotak di sebelah kiri fungsi sparkpi
, lalu klik HAPUS.
Menghapus akun layanan Anda
Buka halaman IAM & Admin → Service Accounts di Konsol Google Cloud, pilih kotak di sebelah kiri akun layanan workflow-scheduler...
, lalu klik DELETE.
Langkah selanjutnya