Halaman ini memperkenalkan alat yang dapat Anda gunakan untuk memecahkan masalah dan memantau cluster dan tugas Dataproc.
Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk menjalankan platform pemrosesan terdistribusi open source seperti Apache Hadoop, Apache Spark, Apache Flink, dan Trino. Anda dapat menggunakan file dan alat yang dibahas di bagian berikut untuk memecahkan masalah dan memantau cluster dan tugas Dataproc.
Antarmuka web open source
Banyak komponen open source cluster Dataproc, seperti Apache Hadoop dan Apache Spark, menyediakan antarmuka web. Antarmuka ini dapat digunakan untuk memantau resource cluster dan performa tugas. Misalnya, Anda dapat menggunakan UI Pengelola Resource YARN untuk melihat alokasi resource aplikasi YARN pada cluster Dataproc.
Server Histori Persisten
Antarmuka web Open Source yang berjalan di cluster tersedia saat cluster berjalan, tetapi akan berhenti saat Anda menghapus cluster. Untuk melihat data cluster dan tugas setelah cluster dihapus, Anda dapat membuat Persistent History Server (PHS).
Contoh: Anda mengalami error atau penurunan kecepatan tugas yang ingin Anda analisis. Anda menghentikan atau menghapus cluster tugas, lalu melihat dan menganalisis data histori tugas menggunakan PHS.
Setelah membuat PHS, Anda dapat mengaktifkannya di cluster Dataproc atau workload batch Dataproc Serverless saat membuat cluster atau mengirimkan workload batch. PHS dapat mengakses data histori untuk tugas yang dijalankan di beberapa cluster, sehingga Anda dapat memantau tugas di seluruh project, bukan memantau UI terpisah yang berjalan di cluster yang berbeda.
Log Dataproc
Dataproc mengumpulkan log yang dihasilkan oleh Apache Hadoop, Spark, Hive, Zookeeper, dan sistem open source lainnya yang berjalan di cluster Anda, lalu mengirimkannya ke Logging. Log ini dikelompokkan berdasarkan sumber log, yang memungkinkan Anda memilih dan melihat log yang menarik bagi Anda: misalnya, log YARN NodeManager dan Spark Executor yang dibuat di cluster diberi label secara terpisah. Lihat log Dataproc untuk mengetahui informasi selengkapnya tentang konten dan opsi log Dataproc.
Cloud Logging
Logging adalah sistem pengelolaan log real-time yang terkelola sepenuhnya. Layanan ini menyediakan penyimpanan untuk log yang diserap dari layanan dan alat untuk menelusuri, memfilter, dan menganalisis log dalam skala besar. Google Cloud Cluster Dataproc menghasilkan beberapa log, termasuk log agen layanan Dataproc, log startup cluster, dan log komponen OSS, seperti log YARN NodeManager.
Pencatatan diaktifkan secara default di cluster Dataproc dan workload batch Dataproc Serverless. Log diekspor secara berkala ke Logging, tempat log tetap ada setelah cluster dihapus atau workload selesai.
Metrik Dataproc
Metrik cluster dan tugas Dataproc, yang diawali dengan dataproc.googleapis.com/
, terdiri dari data deret waktu yang memberikan insight tentang performa cluster, seperti pemakaian CPU atau status tugas. Metrik kustom Dataproc, yang diawali dengan custom.googleapis.com/
, mencakup metrik yang dikeluarkan oleh sistem open source yang berjalan di cluster, seperti metrik running applications
YARN. Mendapatkan insight tentang metrik Dataproc dapat membantu Anda mengonfigurasi cluster secara efisien. Menyiapkan pemberitahuan berbasis metrik dapat membantu Anda mengenali dan merespons masalah dengan cepat.
Metrik tugas dan cluster Dataproc dikumpulkan secara default tanpa biaya. Pengumpulan metrik kustom akan ditagih kepada pelanggan. Anda dapat mengaktifkan pengumpulan metrik kustom saat membuat cluster. Pengumpulan metrik Spark Dataproc Serverless diaktifkan secara default pada workload batch Spark.
Cloud Monitoring
Monitoring menggunakan metrik dan metadata cluster, termasuk metrik HDFS, YARN, tugas, dan operasi, untuk memberikan visibilitas terkait kondisi, performa, dan ketersediaan cluster dan tugas Dataproc. Anda dapat menggunakan Monitoring untuk menjelajahi metrik, menambahkan diagram, membuat dasbor, dan membuat pemberitahuan.
Metrics Explorer
Anda dapat menggunakan Metrics Explorer
untuk melihat metrik Dataproc.
Metrik cluster, tugas, dan batch serverless Dataproc tercantum di bagian resource
Cloud Dataproc Cluster
, Cloud Dataproc Job
, dan Cloud Dataproc Batch
. Metrik kustom Dataproc dicantumkan di bagian resource VM Instances
,
kategori Custom
.
Diagram
Anda dapat menggunakan Metrics Explorer untuk membuat diagram yang memvisualisasikan metrik Dataproc.
Contoh: Anda membuat diagram untuk melihat jumlah aplikasi Yarn aktif yang berjalan di cluster, lalu menambahkan filter untuk memilih metrik yang divisualisasikan menurut nama atau wilayah cluster.
Dasbor
Anda dapat membuat dasbor untuk memantau cluster dan tugas Dataproc menggunakan metrik dari beberapa project dan berbagai Google Cloud produk. Anda dapat membuat dasbor di konsol dari halaman Dashboards Overview dengan mengklik, membuat, lalu menyimpan diagram dari halaman Metrics Explorer. Google Cloud
Notifikasi
Anda dapat membuat pemberitahuan metrik Dataproc untuk menerima pemberitahuan tepat waktu tentang masalah cluster atau tugas.
Langkah berikutnya
- Pelajari cara memecahkan masalah pesan error Dataproc.
- Pelajari cara melihat data diagnostik cluster Dataproc.
- Lihat FAQ Dataproc.