Mendeteksi potensi kegagalan menggunakan kemampuan observasi

Prinsip yang ada di pilar keandalan Google Cloud Framework Tersusun dengan Baik ini memberikan rekomendasi untuk membantu Anda mengidentifikasi secara proaktif area tempat error dan kegagalan mungkin terjadi.

Prinsip ini relevan dengan area fokus pengamatan keandalan.

Ringkasan prinsip

Untuk mempertahankan dan meningkatkan keandalan workload di Google Cloud, Anda perlu menerapkan kemampuan observasi yang efektif menggunakan metrik, log, dan trace.

  • Metrik adalah pengukuran numerik aktivitas yang ingin Anda lacak untuk aplikasi Anda pada interval waktu tertentu. Misalnya, Anda mungkin ingin melacak metrik teknis seperti rasio permintaan dan tingkat error, yang dapat digunakan sebagai indikator tingkat layanan (SLI). Anda mungkin juga perlu melacak metrik bisnis khusus aplikasi seperti pesanan yang dilakukan dan pembayaran yang diterima.
  • Log adalah catatan berstempel waktu dari peristiwa terpisah yang terjadi dalam aplikasi atau sistem. Peristiwa tersebut bisa berupa kegagalan, error, atau perubahan status. Log mungkin mencakup metrik, dan Anda juga dapat menggunakan log untuk SLI.
  • Rekaman aktivitas mewakili perjalanan satu pengguna atau transaksi melalui sejumlah aplikasi terpisah atau komponen aplikasi. Misalnya, komponen ini dapat berupa microservice. Rekaman aktivitas membantu Anda melacak komponen yang digunakan dalam perjalanan, lokasi terjadinya bottleneck, dan berapa lama perjalanan tersebut.

Metrik, log, dan trace membantu Anda memantau sistem Anda secara berkelanjutan. Pemantauan komprehensif membantu Anda mengetahui tempat dan alasan terjadinya error. Anda juga dapat mendeteksi potensi kegagalan sebelum terjadi error.

Rekomendasi

Untuk mendeteksi potensi kegagalan secara efisien, pertimbangkan rekomendasi di subbagian berikut.

Mendapatkan insight yang komprehensif

Untuk memantau metrik utama seperti waktu respons dan tingkat error, gunakan Cloud Monitoring dan Cloud Logging. Alat ini juga membantu Anda memastikan bahwa metrik secara konsisten memenuhi kebutuhan workload Anda.

Untuk membuat keputusan berbasis data, analisis metrik layanan default untuk memahami dependensi komponen dan dampaknya terhadap performa workload secara keseluruhan.

Untuk menyesuaikan strategi pemantauan, buat dan publikasikan metrik Anda sendiri menggunakan Google Cloud SDK.

Melakukan pemecahan masalah proaktif

Terapkan penanganan error yang andal dan aktifkan logging di semua komponen beban kerja Anda di Google Cloud. Aktifkan log seperti log akses Cloud Storage dan VPC Flow Logs.

Saat mengonfigurasi logging, pertimbangkan biaya terkait. Untuk mengontrol biaya logging, Anda dapat mengonfigurasi filter pengecualian di sink log untuk mengecualikan log tertentu agar tidak disimpan.

Mengoptimalkan penggunaan resource

Pantau konsumsi CPU, metrik I/O jaringan, dan metrik I/O disk untuk mendeteksi resource yang kurang dan disediakan berlebih dalam layanan seperti GKE, Compute Engine, dan Dataproc. Untuk mengetahui daftar lengkap layanan yang didukung, lihat Ringkasan Cloud Monitoring.

Memprioritaskan pemberitahuan

Untuk pemberitahuan, fokuslah pada metrik penting, tetapkan nilai minimum yang sesuai untuk meminimalkan kelelahan dalam merespons peringatan, dan memastikan respons tepat waktu terhadap masalah yang signifikan. Pendekatan yang ditargetkan ini memungkinkan Anda secara proaktif mempertahankan keandalan workload. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemberitahuan.