Metrik pemantauan yang didukung

Halaman ini mencantumkan metrik Cloud Monitoring yang tersedia untuk Memorystore for Redis Cluster, dan menjelaskan apa yang diukur oleh setiap metrik.

Metrik Cloud Monitoring

Metrik tingkat cluster

Metrik ini memberikan ringkasan umum tentang kondisi dan performa keseluruhan cluster. Metrik ini berguna untuk memahami kapasitas dan pemanfaatan cluster secara keseluruhan, serta mengidentifikasi potensi hambatan atau area yang perlu ditingkatkan.

Nama metrik Deskripsi
redis.googleapis.com/cluster/clients/average_connected_clients Jumlah koneksi klien saat ini di seluruh cluster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Jumlah koneksi klien maksimum saat ini di seluruh cluster.
redis.googleapis.com/cluster/clients/total_connected_clients Jumlah koneksi klien saat ini ke cluster.
redis.googleapis.com/cluster/stats/total_connections_received_count Jumlah total koneksi klien tingkat cluster yang dibuat dalam satu menit terakhir.
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count Jumlah koneksi ditolak karena batas maxclients.
redis.googleapis.com/cluster/commandstats/total_usec_count Total waktu yang digunakan per perintah.
redis.googleapis.com/cluster/commandstats/total_calls_count Jumlah total panggilan untuk perintah ini dalam satu menit.
redis.googleapis.com/cluster/cpu/average_utilization Penggunaan CPU rata-rata untuk cluster dari 0,0 hingga 1,0.
redis.googleapis.com/cluster/cpu/maximum_utilization

Penggunaan CPU maksimum untuk cluster dari 0,0 hingga 1,0.

Pastikan penggunaan CPU tidak melebihi 0,8 detik untuk node primer dan 0,5 detik untuk setiap replika yang ditetapkan sebagai replika baca. Untuk mengetahui informasi selengkapnya, lihat Praktik terbaik penggunaan CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Jumlah rata-rata peristiwa habis masa berlaku kunci untuk primer.
redis.googleapis.com/cluster/stats/maximum_expired_keys Jumlah maksimum peristiwa habis masa berlaku utama untuk primaries.
redis.googleapis.com/cluster/stats/total_expired_keys_count Jumlah total peristiwa habis masa berlaku kunci untuk primary.
redis.googleapis.com/cluster/stats/average_evicted_keys Jumlah rata-rata kunci yang dikeluarkan karena kapasitas memori untuk primer.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Jumlah maksimum kunci yang dikeluarkan karena kapasitas memori pada primer
redis.googleapis.com/cluster/stats/total_evicted_keys_count Jumlah kunci yang dikeluarkan karena kapasitas memori pada primer.
redis.googleapis.com/cluster/keyspace/total_keys Jumlah kunci yang disimpan di cluster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Jumlah rata-rata pencarian kunci yang berhasil di seluruh cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Jumlah maksimum pencarian kunci yang berhasil di seluruh cluster.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Jumlah pencarian kunci yang berhasil di seluruh cluster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Jumlah rata-rata pencarian kunci yang gagal di seluruh cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Jumlah maksimum kegagalan pencarian kunci di seluruh cluster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Jumlah total pencarian kunci yang gagal di seluruh cluster.
redis.googleapis.com/cluster/memory/average_utilization Penggunaan memori rata-rata di seluruh cluster dari 0,0 hingga 1,0.
redis.googleapis.com/cluster/memory/maximum_utilization Penggunaan memori maksimum di seluruh cluster dari 0,0 hingga 1,0.
redis.googleapis.com/cluster/memory/total_used_memory Total penggunaan memori cluster.
redis.googleapis.com/cluster/memory/size Ukuran memori cluster.
redis.googleapis.com/cluster/replication/average_ack_lag Rata-rata jeda konfirmasi (dalam detik) replika di seluruh cluster.

Jeda konfirmasi adalah hambatan pada node utama dalam cluster. Bottleneck ini disebabkan oleh replikanya yang tidak dapat mengimbangi informasi yang dikirimkan oleh node primer. Jika hal ini terjadi, node utama harus menunggu konfirmasi bahwa replika telah menerima informasi. Hal ini dapat memperlambat penerapan transaksi dan menyebabkan penurunan performa pada node utama.
redis.googleapis.com/cluster/replication/maximum_ack_lag Jeda pengakuan maksimum (dalam detik) replika di seluruh cluster.
redis.googleapis.com/cluster/replication/average_offset_diff Perbedaan offset pengakuan replikasi rata-rata (dalam byte) di seluruh cluster.

Perbedaan offset pengakuan replikasi berarti jumlah byte yang belum direplikasi antara replika dan primernya.
redis.googleapis.com/cluster/replication/maximum_offset_diff Perbedaan offset replikasi maksimum (dalam byte) di seluruh cluster.

Perbedaan offset replikasi berarti jumlah byte yang belum direplikasi antara replika dan primernya.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Jumlah byte jaringan masuk yang diterima oleh endpoint cluster.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Jumlah byte jaringan keluar yang dikirim dari endpoint cluster.

Metrik tingkat node

Metrik ini menawarkan insight mendetail tentang kondisi dan performa setiap node dalam cluster. Metrik ini berguna untuk memecahkan masalah pada node tertentu dan mengoptimalkan performanya.

Nama metrik Deskripsi
redis.googleapis.com/cluster/node/clients/connected_clients Jumlah klien yang terhubung ke node cluster.
redis.googleapis.com/cluster/node/clients/blocked_clients Jumlah koneksi klien yang diblokir oleh node cluster.
redis.googleapis.com/cluster/node/server/uptime Mengukur waktu aktif node cluster.
redis.googleapis.com/cluster/node/stats/connections_received_count Jumlah total koneksi klien yang dibuat dalam satu menit terakhir di node cluster.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Jumlah koneksi yang ditolak karena batas maxclients oleh node cluster.
redis.googleapis.com/cluster/node/commandstats/usec_count Total waktu yang digunakan per perintah di node cluster.
redis.googleapis.com/cluster/node/commandstats/calls_count Jumlah total panggilan untuk perintah ini di node cluster dalam satu menit.
redis.googleapis.com/cluster/node/cpu/utilization Penggunaan CPU untuk node cluster dari 0,0 hingga 1,0.
redis.googleapis.com/cluster/node/stats/expired_keys_count Jumlah total peristiwa habis masa berlaku di node cluster.
redis.googleapis.com/cluster/node/stats/evicted_keys_count Jumlah total kunci yang dikeluarkan oleh node cluster.
redis.googleapis.com/cluster/node/keyspace/total_keys Jumlah kunci yang disimpan di node cluster.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Jumlah pencarian kunci yang berhasil di node cluster.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Jumlah pencarian kunci yang gagal di node cluster.
redis.googleapis.com/cluster/node/memory/utilization Penggunaan memori dalam node cluster dari 0,0 hingga 1,0.
redis.googleapis.com/cluster/node/memory/usage Total penggunaan memori node cluster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Jumlah byte jaringan masuk yang diterima oleh node cluster.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count Jumlah byte jaringan keluar yang dikirim dari node cluster.
redis.googleapis.com/cluster/node/replication/offset Mengukur byte offset replikasi node cluster.
redis.googleapis.com/cluster/node/server/healthy Menentukan apakah node cluster tersedia dan berfungsi dengan benar. Metrik ini berada dalam Pratinjau.

Metrik replikasi lintas region

Bagian ini mencantumkan metrik yang digunakan untuk Replikasi lintas-region.

Nama metrik Deskripsi
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Metrik ini menunjukkan jumlah link shard antara cluster utama dan sekunder. Dalam grup replikasi lintas region (CRR), cluster utama melaporkan jumlah link replikasi CRR yang dimilikinya dengan cluster sekunder dalam grup. Untuk setiap cluster sekunder, jumlah ini diharapkan sama dengan jumlah shard. Jika jumlahnya tiba-tiba turun di bawah jumlah shard, hal ini mengidentifikasi jumlah shard tempat replikasi antara replikator dan follower telah berhenti. Dalam kondisi ideal, metrik ini harus memiliki jumlah yang sama dengan jumlah sharding cluster utama.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Perbedaan offset replikasi maksimum antara shard utama dan shard sekunder.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Perbedaan offset replikasi rata-rata antara shard utama dan shard sekunder.

Metrik pencadangan

Bagian ini mencantumkan metrik pencadangan dan impor.

Metrik tingkat cluster

Nama metrik Deskripsi
redis.googleapis.com/cluster/backup/last_backup_start_time Waktu mulai operasi pencadangan terakhir.
redis.googleapis.com/cluster/backup/last_backup_status Status operasi pencadangan terakhir. Statusnya adalah 1 (berhasil) dan 0 (gagal).
redis.googleapis.com/cluster/backup/last_backup_duration Durasi operasi pencadangan terakhir (dalam milidetik).
redis.googleapis.com/cluster/backup/last_backup_size Ukuran pencadangan terakhir (dalam byte).
redis.googleapis.com/cluster/import/last_import_start_time Waktu mulai operasi impor terakhir.
redis.googleapis.com/cluster/import/last_import_duration Durasi operasi impor terakhir(dalam milidetik).

Metrik persistensi

Bagian ini mencantumkan metrik persistensi dan memberikan contoh kasus penggunaan untuk metrik persistensi.

Metrik persistensi RDB

Metrik tingkat cluster

Nama metrik Deskripsi
redis.googleapis.com/cluster/persistence/rdb_saves_count Metrik ini menampilkan jumlah kumulatif berapa kali cluster Anda telah mengambil snapshot RDB (juga dikenal sebagai save). Metrik ini memiliki kolom status_code. Untuk memeriksa apakah snapshot gagal, Anda dapat memfilter kolom status_code untuk error berikut: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/persistence/rdb_save_ages Metrik ini menampilkan usia snapshot distribusi untuk semua node di seluruh cluster. Idealnya, Anda ingin melihat distribusi yang memiliki nilai dengan waktu jeda yang lebih sedikit (atau waktu yang sama) dengan frekuensi snapshot Anda.

Metrik tingkat node

Nama metrik Deskripsi
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Metrik ini menunjukkan apakah BGSAVE RDB sedang berlangsung di node cluster. TRUE berarti sedang dalam proses.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Metrik ini menunjukkan keberhasilan BGSAVE terakhir pada node cluster. TRUE berarti berhasil, jika tidak ada bgrewrite yang terjadi, nilai dapat ditetapkan secara default ke TRUE.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Metrik ini menampilkan jumlah kumulatif penyimpanan RDB yang dijalankan di node cluster.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Metrik ini menunjukkan waktu dalam detik, sejak snapshot terakhir yang berhasil.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Metrik ini menampilkan waktu dalam detik, yang tersisa hingga snapshot berikutnya.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Metrik ini menunjukkan jumlah kunci dalam penyimpanan RDB saat ini yang dieksekusi di node cluster.

Metrik persistensi AOF

Metrik tingkat cluster

Nama metrik Deskripsi
redis.googleapis.com/cluster/persistence/aof_fsync_lags Metrik ini menunjukkan distribusi jeda (dari penulisan data hingga sinkronisasi penyimpanan yang tahan lama) untuk semua node dalam cluster. Peristiwa ini hanya dipancarkan untuk cluster dengan appendfsync=everysec. Idealnya, Anda ingin melihat distribusi memiliki nilai yang memiliki waktu jeda lebih sedikit (atau waktu yang sama) daripada frekuensi sinkronisasi AOF Anda.
redis.googleapis.com/cluster/persistence/aof_rewrite_count Metrik ini menampilkan jumlah kumulatif berapa kali node telah memicu penulisan ulang AOF untuk cluster Anda. Metrik ini memiliki kolom status_code. Untuk memeriksa apakah penulisan ulang AOF gagal, Anda dapat memfilter kolom status_code untuk error berikut: 3 - INTERNAL_ERROR

Metrik tingkat node

Nama metrik Deskripsi
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Metrik ini menunjukkan keberhasilan penulisan AOF terbaru pada node cluster. TRUE berarti berhasil, jika tidak ada penulisan yang terjadi, nilai dapat ditetapkan secara default ke TRUE.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Metrik ini menunjukkan keberhasilan operasi bgrewrite AOF terakhir pada node cluster. TRUE berarti berhasil, jika tidak ada bgrewrite yang terjadi, nilai dapat ditetapkan secara default ke TRUE.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag Metrik ini menunjukkan jeda AOF antara memori dan penyimpanan persisten di node cluster. Hal ini hanya berlaku untuk cluster yang mengaktifkan AOF dengan appendfsync=EVERYSEC
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count Metrik ini menunjukkan jumlah penulisan ulang AOF di node cluster. Untuk memeriksa apakah penulisan ulang AOF gagal, Anda dapat memfilter kolom status_code untuk error berikut: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Metrik ini menampilkan jumlah error panggilan fsync() AOF dan hanya berlaku untuk cluster yang mengaktifkan AOF dengan appendfsync=EVERYSEC|ALWAYS.

Metrik Persistensi Umum

Metrik yang berlaku untuk mekanisme persistensi AOF dan RDB.

Metrik tingkat node

Nama metrik Deskripsi
redis.googleapis.com/cluster/node/persistence/auto_restore_count Metrik ini menunjukkan jumlah pemulihan dari dumpfile (AOF atau RDB).

Contoh kasus penggunaan untuk metrik persistensi

Memeriksa apakah operasi tulis AOF menyebabkan latensi dan tekanan memori

Misalkan Anda mendeteksi peningkatan latensi atau penggunaan memori pada cluster atau node dalam cluster. Dalam hal ini, Anda mungkin ingin memeriksa apakah penggunaan tambahan terkait dengan persistensi AOF.

Karena Anda tahu bahwa operasi penulisan ulang AOF dapat memicu lonjakan beban sementara, Anda dapat memeriksa metrik aof_rewrites_count yang memberikan jumlah kumulatif penulisan ulang AOF selama masa aktif cluster atau node dalam cluster. Misalkan metrik ini menunjukkan bahwa peningkatan jumlah penulisan ulang sesuai dengan peningkatan latensi. Dalam situasi ini, Anda dapat mengatasi masalah dengan mengurangi kecepatan penulisan atau meningkatkan jumlah shard untuk mengurangi frekuensi penulisan ulang.

Memeriksa apakah operasi penyimpanan RDB menyebabkan latensi dan tekanan memori

Misalkan Anda mendeteksi peningkatan latensi atau penggunaan memori pada cluster atau node dalam cluster. Dalam hal ini, Anda mungkin ingin memeriksa apakah penggunaan ekstra terkait dengan persistensi RDB.

Karena Anda tahu bahwa operasi penyimpanan RDB dapat memicu lonjakan beban sementara, Anda dapat memeriksa metrik rdb_saves_count yang memberikan jumlah kumulatif penyimpanan RDB selama masa aktif cluster atau node dalam cluster. Misalkan metrik ini menunjukkan bahwa peningkatan jumlah penyimpanan RDB sesuai dengan peningkatan latensi. Dalam situasi ini, Anda dapat mengurangi interval snapshot RDB untuk menurunkan frekuensi penulisan ulang. Anda juga dapat menskalakan cluster untuk mengurangi tingkat beban dasar.

Menafsirkan metrik untuk Memorystore for Redis Cluster

Seperti yang terlihat dalam daftar di atas, banyak metrik yang memiliki tiga kategori: rata-rata, maksimum, dan total.

Untuk Memorystore for Redis Cluster, kami menyediakan variasi rata-rata dan maksimum dari metrik yang sama sehingga Anda dapat menggunakan keduanya untuk mengidentifikasi hotspotting untuk family metrik tersebut.

Nilai total untuk metrik bersifat independen, dan memberikan insight terpisah yang tidak terkait dengan tujuan hotspotting rata-rata dan maksimum.

Memahami metrik rata-rata dan maksimum

Misalkan Anda membandingkan nilai average_keyspace_hits dan maximum_keyspace_hits untuk cluster Anda. Seiring dengan bertambahnya perbedaan antara kedua metrik, perbedaan yang lebih besar menunjukkan lebih banyak hot spot hit di instance Anda. Idealnya, Anda akan memiliki nilai penutupan antara average_keyspace_hits dan maximum_keyspace_hits, karena ini berarti bahwa hit didistribusikan secara lebih merata di seluruh instance Anda.

Prinsip ini berlaku untuk semua metrik yang memiliki variasi rata-rata dan maksimum dari metrik yang sama.

Contoh penandaan hotspot

Jika Anda membandingkan average_keyspace_hits dan maximum_keyspace_hits untuk semua shard di cluster, perbandingan nilai ini menunjukkan lokasi terjadinya hot spotting. Misalnya, anggap saja bahwa shard dalam cluster 6 shard memiliki jumlah hit berikut:

  • Shard 1 – 2 hit
  • Shard 2 – 2 hit
  • Shard 3 – 2 hit
  • Shard 4 – 2 hit
  • Shard 5 – 2 hit
  • Hit 6–8 shard

Dalam contoh ini, average_keyspace_hits menampilkan nilai 3, dan maximum_keyspace_hits menampilkan 8, yang menunjukkan bahwa shard 6 sedang aktif.

Kami menyediakan metrik tingkat node yang dapat Anda gunakan untuk mengidentifikasi hotspot dalam cluster.