Métricas de monitorización admitidas

En esta página se enumeran las métricas de Cloud Monitoring disponibles para Memorystore for Redis Cluster y se describe qué mide cada una de ellas.

Métricas de Cloud Monitoring

Métricas a nivel de clúster

Estas métricas proporcionan una visión general del estado y el rendimiento del clúster. Son útiles para conocer la capacidad y la utilización generales del clúster, así como para identificar posibles cuellos de botella o áreas de mejora.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/clients/average_connected_clients Número medio actual de conexiones de cliente en el clúster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Número máximo actual de conexiones de cliente en el clúster.
redis.googleapis.com/cluster/clients/total_connected_clients Número actual de conexiones de cliente con el clúster.
redis.googleapis.com/cluster/stats/total_connections_received_count Recuento del total de conexiones de cliente a nivel de clúster creadas en el último minuto.
redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count Número de conexiones rechazadas debido al límite de maxclients.
redis.googleapis.com/cluster/commandstats/total_usec_count El tiempo total consumido por comando.
redis.googleapis.com/cluster/commandstats/total_calls_count Número total de llamadas de este comando en un minuto.
redis.googleapis.com/cluster/cpu/average_utilization Uso medio de CPU del clúster, que va de 0.0 a 1.0.
redis.googleapis.com/cluster/cpu/maximum_utilization

Uso máximo de CPU del clúster, de 0,0 a 1,0.

Asegúrate de que el uso de CPU no supere los 0,8 segundos en el nodo principal y los 0,5 segundos en cada réplica designada como réplica de lectura. Para obtener más información, consulta las prácticas recomendadas para el uso de la CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Número medio de eventos de vencimiento de claves de las principales.
redis.googleapis.com/cluster/stats/maximum_expired_keys Número máximo de eventos de vencimiento de claves de las principales.
redis.googleapis.com/cluster/stats/total_expired_keys_count Número total de eventos de vencimiento de claves de las principales.
redis.googleapis.com/cluster/stats/average_evicted_keys Número medio de claves expulsadas debido a la capacidad de memoria de las primarias.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Número máximo de claves expulsadas debido a la capacidad de memoria en primarias
redis.googleapis.com/cluster/stats/total_evicted_keys_count Número de claves desalojadas debido a la capacidad de memoria de las principales.
redis.googleapis.com/cluster/keyspace/total_keys Número de claves almacenadas en el clúster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Número medio de búsquedas de claves correctas en el clúster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Número máximo de búsquedas de claves correctas en el clúster.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Número de búsquedas de claves correctas en el clúster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Número medio de búsquedas de claves fallidas en el clúster.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Número máximo de búsquedas de claves fallidas en el clúster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Número total de búsquedas de claves fallidas en el clúster.
redis.googleapis.com/cluster/memory/average_utilization Uso medio de memoria en el clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/memory/maximum_utilization Uso máximo de memoria en todo el clúster, de 0,0 a 1,0.
redis.googleapis.com/cluster/memory/total_used_memory Uso de memoria total del clúster.
redis.googleapis.com/cluster/memory/size Tamaño de la memoria del clúster.
redis.googleapis.com/cluster/replication/average_ack_lag Retraso medio de confirmación (en segundos) de las réplicas en todo el clúster.

El retraso de confirmación es un cuello de botella en el nodo principal de un clúster. Este cuello de botella se debe a que sus réplicas no pueden seguir el ritmo de la información que les envía el nodo principal. Cuando esto ocurre, el nodo principal debe esperar a que las réplicas confirmen que han recibido la información. Esto podría ralentizar las confirmaciones de transacciones y afectar al rendimiento del nodo principal.
redis.googleapis.com/cluster/replication/maximum_ack_lag Tiempo máximo de retraso de confirmación (en segundos) de las réplicas en todo el clúster.
redis.googleapis.com/cluster/replication/average_offset_diff Diferencia media del desfase de confirmación de la réplica (en bytes) en todo el clúster.

La diferencia del desfase de confirmación de la réplica es el número de bytes que no se han replicado entre las réplicas y sus primarias.
redis.googleapis.com/cluster/replication/maximum_offset_diff Diferencia máxima de desfase de replicación (en bytes) en todo el clúster.

La diferencia de desfase de replicación es el número de bytes que no se han replicado entre una réplica y sus primarias.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Número de bytes de red entrantes recibidos por los endpoints del clúster.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Número de bytes de red de salida enviados desde los endpoints del clúster.

Métricas a nivel de nodo

Estas métricas ofrecen información detallada sobre el estado y el rendimiento de los nodos individuales del clúster. Son útiles para solucionar problemas con nodos específicos y optimizar su rendimiento.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/clients/connected_clients Número de clientes conectados al nodo del clúster.
redis.googleapis.com/cluster/node/clients/blocked_clients Número de conexiones de cliente bloqueadas por el nodo del clúster.
redis.googleapis.com/cluster/node/server/uptime Mide el tiempo de actividad del nodo del clúster.
redis.googleapis.com/cluster/node/stats/connections_received_count Recuento del total de conexiones de cliente creadas en el nodo del clúster durante el último minuto.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Número de conexiones rechazadas debido al límite de maxclients del nodo del clúster.
redis.googleapis.com/cluster/node/commandstats/usec_count Tiempo total consumido por comando en el nodo del clúster.
redis.googleapis.com/cluster/node/commandstats/calls_count Número total de llamadas de este comando en el nodo del clúster en un minuto.
redis.googleapis.com/cluster/node/cpu/utilization Uso de CPU del nodo del clúster, de 0,0 a 1,0.
redis.googleapis.com/cluster/node/stats/expired_keys_count Número total de eventos de vencimiento en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/evicted_keys_count Número total de claves expulsadas por el nodo del clúster.
redis.googleapis.com/cluster/node/keyspace/total_keys Número de claves almacenadas en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Número de búsquedas de claves correctas en el nodo del clúster.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Número de búsquedas de claves fallidas en el nodo del clúster.
redis.googleapis.com/cluster/node/memory/utilization Uso de memoria en el nodo del clúster, de 0.0 a 1.0.
redis.googleapis.com/cluster/node/memory/usage Uso de memoria total del nodo del clúster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Número de bytes de red entrantes recibidos por el nodo del clúster.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count Número de bytes de red salientes enviados desde el nodo del clúster.
redis.googleapis.com/cluster/node/replication/offset Mide los bytes de desfase de replicación del nodo del clúster.
redis.googleapis.com/cluster/node/server/healthy Determina si un nodo de clúster está disponible y funciona correctamente. Esta métrica está en versión preliminar.

Métricas de replicación entre regiones

En esta sección se enumeran las métricas que se usan en la replicación entre regiones.

Nombre de la métrica Descripción
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Esta métrica muestra el número de enlaces de fragmentos entre los clústeres primario y secundario. En un grupo de replicación entre regiones (CRR), un clúster principal informa del número de enlaces de replicación CRR que tiene con los clústeres secundarios del grupo. En cada clúster secundario, este número debe ser igual al número de particiones. Si, de forma inesperada, el número es inferior al número de particiones, se identifica el número de particiones en las que se ha detenido la replicación entre el replicador y el seguidor. En un estado ideal, esta métrica debería tener el mismo número que el recuento de particiones del clúster principal.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Diferencia máxima de desfase de replicación entre las particiones primarias y las secundarias.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Diferencia media de desfase de replicación entre las particiones primarias y las secundarias.

Métricas de copias de seguridad

En esta sección se enumeran las métricas de copia de seguridad e importación.

Métricas a nivel de clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/backup/last_backup_start_time Hora de inicio de la última operación de copia de seguridad.
redis.googleapis.com/cluster/backup/last_backup_status Estado de la última operación de copia de seguridad. Los estados son 1 (correcto) y 0 (error).
redis.googleapis.com/cluster/backup/last_backup_duration Duración de la última operación de copia de seguridad (en milisegundos).
redis.googleapis.com/cluster/backup/last_backup_size Tamaño de la última copia de seguridad (en bytes).
redis.googleapis.com/cluster/import/last_import_start_time Hora de inicio de la última operación de importación.
redis.googleapis.com/cluster/import/last_import_duration Duración de la última operación de importación(en milisegundos).

Métricas de persistencia

En esta sección se enumeran las métricas de persistencia y se proporcionan ejemplos de casos prácticos de métricas de persistencia.

Métricas de persistencia de RDB

Métricas a nivel de clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/persistence/rdb_saves_count Esta métrica muestra el número acumulado de veces que tu clúster ha creado una instantánea RDB (también conocida como guardar). Esta métrica tiene un campo status_code. Para comprobar si se ha producido un error en una instantánea, puedes filtrar el campo status_code por el siguiente error: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/persistence/rdb_save_ages Esta métrica muestra un resumen de la antigüedad de la distribución de todos los nodos del clúster. Lo ideal es que la distribución tenga valores con un tiempo de latencia inferior (o igual) a la frecuencia de las estadísticas.

Métricas a nivel de nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Esta métrica muestra si hay un BGSAVE de RDB en curso en el nodo del clúster. TRUE significa que está en curso.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Esta métrica muestra el éxito de la última operación BGSAVE en el nodo del clúster. TRUE significa que se ha completado correctamente. Si no se ha producido ningún bgrewrite, el valor puede ser TRUE de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Esta métrica muestra el número acumulado de guardados de RDB ejecutados en el nodo del clúster.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Esta métrica muestra el tiempo en segundos transcurrido desde la última instantánea correcta.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Esta métrica muestra el tiempo en segundos que queda hasta la próxima instantánea.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Esta métrica muestra el número de claves en el guardado de RDB actual que se está ejecutando en el nodo del clúster.

Métricas de persistencia de AOF

Métricas a nivel de clúster

Nombre de la métrica Descripción
redis.googleapis.com/cluster/persistence/aof_fsync_lags Esta métrica muestra una distribución del retraso (desde la escritura de datos hasta la sincronización de almacenamiento duradero) de todos los nodos del clúster. Solo se emite en clústeres con appendfsync=everysec. Lo ideal es que la distribución tenga valores con un tiempo de latencia inferior (o igual) a la frecuencia de sincronización de AOF.
redis.googleapis.com/cluster/persistence/aof_rewrite_count Esta métrica muestra el número acumulado de veces que un nodo de tu clúster ha activado una reescritura de AOF. Esta métrica tiene un campo status_code. Para comprobar si se produce un error al reescribir el archivo AOF, puedes filtrar el campo status_code para buscar el siguiente error: 3 - INTERNAL_ERROR

Métricas a nivel de nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Esta métrica muestra el éxito de la escritura AOF más reciente en el nodo del clúster. VERDADERO significa que la operación se ha realizado correctamente. Si no se ha producido ninguna escritura, el valor puede ser VERDADERO de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Esta métrica muestra el éxito de la última operación bgrewrite de AOF en el nodo del clúster. TRUE significa que se ha completado correctamente. Si no se ha producido ningún bgrewrite, el valor puede ser TRUE de forma predeterminada.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag Esta métrica muestra el retraso de AOF entre la memoria y el almacenamiento persistente en el nodo del clúster. Solo se aplica a los clústeres con AOF habilitado en los que appendfsync=EVERYSEC
redis.googleapis.com/cluster/node/persistence/aof_rewrites_count Esta métrica muestra el número de reescrituras de AOF en el nodo del clúster. Para comprobar si se produce un error al reescribir el archivo AOF, puedes filtrar el campo status_code para buscar el siguiente error: 3 - INTERNAL_ERROR
redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Esta métrica muestra el recuento de errores de llamadas fsync() de AOF y solo se aplica a los clústeres con AOF habilitado en los que appendfsync=EVERYSEC|ALWAYS.

Métricas de persistencia comunes

Métricas aplicables a los mecanismos de persistencia AOF y RDB.

Métricas a nivel de nodo

Nombre de la métrica Descripción
redis.googleapis.com/cluster/node/persistence/auto_restore_count Esta métrica muestra el número de restauraciones a partir del archivo de volcado (AOF o RDB).

Ejemplos de casos prácticos de métricas de persistencia

Comprobar si las operaciones de escritura de AOF provocan latencia y presión de memoria

Supongamos que detectas un aumento de la latencia o del uso de memoria en tu clúster o en el nodo del clúster. En este caso, te recomendamos que compruebes si el uso adicional está relacionado con la persistencia de AOF.

Como sabes que las operaciones de reescritura de AOF pueden provocar picos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count, que te indica el recuento acumulativo de reescrituras de AOF durante la vida útil del clúster o del nodo del clúster. Supongamos que esta métrica muestra que los incrementos en el recuento de reescrituras se corresponden con aumentos de la latencia. En este caso, puedes solucionar el problema reduciendo la tasa de escritura o aumentando el número de particiones para reducir la frecuencia de las reescrituras.

Comprobar si las operaciones de guardado de RDB provocan latencia y presión de memoria

Supongamos que detectas un aumento de la latencia o del uso de memoria en tu clúster o en el nodo del clúster. En este caso, te recomendamos que compruebes si el uso adicional está relacionado con la persistencia de RDB.

Como sabes que las operaciones de guardado de RDB pueden provocar picos de carga transitorios, puedes inspeccionar la métrica rdb_saves_count, que proporciona el recuento acumulativo de guardados de RDB durante el tiempo de vida del clúster o del nodo del clúster. Supongamos que esta métrica muestra que los incrementos en el recuento de guardados de RDB se corresponden con aumentos de la latencia. En este caso, puedes reducir el intervalo de la copia de seguridad de RDB para disminuir la frecuencia de las reescrituras. También puedes ampliar el clúster para reducir los niveles de carga de referencia.

Interpretar métricas de Memorystore para Redis Cluster

Como se puede ver en la lista anterior, muchas de las métricas comparten tres categorías: media, máximo y total.

En Memorystore for Redis Cluster, ofrecemos variaciones media y máxima de la misma métrica para que puedas usar ambas y así identificar los puntos de acceso de esa familia de métricas.

El valor total de la métrica es independiente y proporciona información valiosa por separado que no está relacionada con el propósito de los puntos de acceso de media y máximo.

Acerca de las métricas de media y máxima

Supongamos que compara los valores de average_keyspace_hits y maximum_keyspace_hits de su clúster. Cuanto mayor sea la diferencia entre las dos métricas, más puntos calientes habrá en tu instancia. Lo ideal es que el valor esté entre average_keyspace_hits y maximum_keyspace_hits, ya que esto significa que los hits se distribuyen de forma más uniforme en tu instancia.

Este principio se aplica a todas las métricas que tienen las variaciones media y máxima de la misma métrica.

Ejemplo de hotspotting

Si compara average_keyspace_hits y maximum_keyspace_hits de todos los fragmentos de su clúster, podrá ver dónde se produce el hot spotting. Por ejemplo, supongamos que las particiones de un clúster de 6 particiones tienen el siguiente número de aciertos:

  • Fragmento 1: 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6: 8 hits

En este ejemplo, average_keyspace_hits devuelve el valor 3 y maximum_keyspace_hits devuelve 8, lo que indica que el fragmento 6 está activo.

Proporcionamos métricas a nivel de nodo que puede usar para identificar los puntos de acceso del clúster.