Métricas de monitorización admitidas

En esta página se enumeran las métricas de Cloud Monitoring disponibles para Memorystore for Valkey y se describe qué mide cada una.

Métricas de Cloud Monitoring

Métricas a nivel de instancia

Estas métricas proporcionan una visión general del estado y el rendimiento de la instancia. Te ayudan a comprender la capacidad y la utilización generales de la instancia, así como a identificar posibles cuellos de botella o áreas de mejora.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/clients/average_connected_clients Número medio actual de conexiones de cliente en todos los nodos de la instancia.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Número máximo actual de conexiones de cliente para un solo nodo de la instancia.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Duración máxima de una conexión de cliente para un solo nodo de la instancia.
memorystore.googleapis.com/instance/clients/total_connected_clients Número actual de conexiones de cliente a la instancia.
memorystore.googleapis.com/instance/stats/total_connections_received_count Recuento de las conexiones de cliente totales a nivel de instancia creadas en el último minuto.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Número de conexiones rechazadas debido al límite de maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count El tiempo total consumido por comando.
memorystore.googleapis.com/instance/commandstats/total_calls_count Número total de llamadas de este comando en un minuto.
memorystore.googleapis.com/instance/cpu/average_utilization Uso medio de CPU en todos los nodos de la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Uso máximo de CPU de un solo nodo de la instancia, de 0,0 a 1,0.
memorystore.googleapis.com/instance/stats/average_expired_keys Número medio de eventos de vencimiento de claves de los primarios de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Número máximo de eventos de vencimiento de claves de un solo nodo de la instancia de la principal.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Número total de eventos de caducidad de claves en las principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/average_evicted_keys Número medio de claves desalojadas debido a la capacidad de memoria en las primarias de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Número máximo de claves desalojadas de un solo nodo de la instancia debido a la capacidad de memoria de la primaria.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Número de claves desalojadas debido a la capacidad de memoria de las primarias de todos los nodos de la instancia.
memorystore.googleapis.com/instance/keyspace/total_keys Número de claves almacenadas en la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Número medio de búsquedas de claves correctas en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Número máximo de búsquedas de claves correctas para un solo nodo de la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Número de búsquedas de claves correctas de la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Número medio de búsquedas de claves fallidas en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Número máximo de búsquedas de claves fallidas para un solo nodo de la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Número total de búsquedas de claves fallidas de la instancia.
memorystore.googleapis.com/instance/memory/average_utilization Utilización media de memoria en todos los nodos de la instancia. El valor va de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/maximum_utilization Utilización máxima de memoria de un solo nodo de la instancia, de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/total_used_memory Uso de memoria total de la instancia.
memorystore.googleapis.com/instance/memory/size Tamaño de la memoria de la instancia.
memorystore.googleapis.com/instance/replication/average_ack_lag Retraso medio de confirmación (en segundos) de las réplicas en todos los nodos de la instancia.

El retraso de confirmación es un cuello de botella en el nodo principal de una instancia. Este cuello de botella se debe a que sus réplicas no pueden seguir el ritmo de la información que les envía el nodo principal. Cuando esto ocurre, el nodo principal debe esperar a que las réplicas confirmen que han recibido la información. Esto podría ralentizar las confirmaciones de transacciones y afectar al rendimiento del nodo principal.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Tiempo máximo de latencia de confirmación (en segundos) de una sola réplica de la instancia.
memorystore.googleapis.com/instance/replication/average_offset_diff Diferencia media del offset de confirmación de la réplica (en bytes) en todos los nodos de la instancia.

La diferencia del offset de confirmación de la réplica es el número de bytes que no se han replicado entre las réplicas y sus primarias.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Diferencia máxima de desfase de replicación (en bytes) de un solo nodo de la instancia.

La diferencia de desfase de replicación es el número de bytes que no se han replicado entre una réplica y sus primarias.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Número de bytes de red entrantes recibidos por los endpoints de la instancia.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Número de bytes de red de salida enviados desde los endpoints de la instancia.

Métricas a nivel de nodo

Estas métricas ofrecen información detallada sobre el estado y el rendimiento de los nodos de la instancia. Te ayudan a solucionar problemas con los nodos y a optimizar su rendimiento.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/clients/connected_clients Número de clientes conectados al nodo de la instancia.
memorystore.googleapis.com/instance/node/clients/blocked_clients Número de conexiones de cliente que bloquea el nodo de la instancia.
memorystore.googleapis.com/instance/node/server/uptime Tiempo de actividad del nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/connections_received_count Número de conexiones de cliente que Memorystore para Valkey crea en el nodo de la instancia durante el último minuto.
memorystore.googleapis.com/instance/node/stats/rejected_connections_count Número de conexiones que rechaza Memorystore para Valkey porque el nodo de la instancia alcanza el límite `maxclients`.
memorystore.googleapis.com/instance/node/commandstats/usec_count El tiempo empleado en cada comando del nodo de instancia.
memorystore.googleapis.com/instance/node/commandstats/calls_count Número de llamadas de este comando en el nodo de la instancia en un minuto.
memorystore.googleapis.com/instance/node/cpu/utilization Uso de CPU del nodo de la instancia (de 0,0 a 1,0).
memorystore.googleapis.com/instance/node/stats/expired_keys_count Número de eventos de vencimiento en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/evicted_keys_count Número de claves expulsadas por el nodo de la instancia.
memorystore.googleapis.com/instance/node/keyspace/total_keys Número de claves que Memorystore para Valkey almacena en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/keyspace_hits_count Número de búsquedas correctas de claves en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/keyspace_misses_count Número de búsquedas fallidas de claves en el nodo de la instancia.
memorystore.googleapis.com/instance/node/memory/utilization Utilización de memoria del nodo de la instancia (de 0,0 a 1,0).
memorystore.googleapis.com/instance/node/memory/usage Uso de memoria del nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/net_input_bytes_count Número de bytes de red entrantes que recibe el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/net_output_bytes_count Número de bytes de red salientes que envía el nodo de la instancia.
memorystore.googleapis.com/instance/node/replication/offset Los bytes de desfase de replicación del nodo de la instancia.
memorystore.googleapis.com/instance/node/server/healthy Determina si un nodo de instancia está disponible y funciona correctamente. Esta métrica está en versión preliminar.

Métricas de replicación entre regiones

En esta sección se enumeran las métricas que se usan en la replicación entre regiones.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/cross_instance_replication/secondary_replication_links Esta métrica muestra el número de enlaces de fragmentos entre las instancias principal y secundaria. En un grupo de replicación entre regiones, una instancia principal informa del número de enlaces de replicación entre regiones que tiene con las instancias secundarias del grupo. En cada instancia secundaria, este número debe ser igual al número de particiones. Si el número es inferior al número de particiones, esta métrica identifica el número de particiones cuando se detuvo la replicación entre el replicador y el seguidor. En un estado ideal, esta métrica tiene el mismo número que el recuento de particiones de la instancia principal.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_maximum_replication_offset_diff Esta métrica muestra la diferencia máxima de desfase de replicación entre los fragmentos principales y secundarios.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_average_replication_offset_diff Esta métrica muestra la diferencia media de desfase de replicación entre los fragmentos principales y secundarios.

Métricas de copias de seguridad

En esta sección se enumeran las métricas de copia de seguridad e importación.

Métricas a nivel de instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/backup/last_backup_start_time Hora de inicio de la última operación de copia de seguridad.
memorystore.googleapis.com/instance/backup/last_backup_status Estado de la última operación de copia de seguridad. Los estados son 1 (correcto) y 0 (error).
memorystore.googleapis.com/instance/backup/last_backup_duration Duración de la última operación de copia de seguridad (en milisegundos).
memorystore.googleapis.com/instance/backup/last_backup_size Tamaño de la última copia de seguridad (en bytes).
memorystore.googleapis.com/instance/import/last_import_start_time Hora de inicio de la última operación de importación.
memorystore.googleapis.com/instance/import/last_import_duration Duración de la última operación de importación(en milisegundos).

Métricas de persistencia

En esta sección se enumeran las métricas de persistencia y se proporcionan ejemplos de casos prácticos de métricas de persistencia.

Métricas de persistencia de RDB

Métricas a nivel de instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/load_count El recuento acumulativo de cargas de toda la instancia para la persistencia AOF o RDB.
memorystore.googleapis.com/instance/persistence/rdb_saves_count Número acumulado de veces que tu instancia hace una instantánea de RDB (también conocida como guardar). Esta métrica tiene un campo status_code. Para comprobar si una instantánea falla, puedes filtrar el campo status_code por el siguiente error: 3 - INTERNAL ERROR.
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Un tiempo de antigüedad de la distribución de todas las versiones de los nodos de la instancia. Le interesa que la distribución tenga valores con un tiempo de latencia inferior (o igual) a la frecuencia de las instantáneas.
memorystore.googleapis.com/instance/persistence/rejected_writes_count Recuento acumulativo de comandos de escritura denegados en la instancia debido a un error al conservar los datos.

Métricas a nivel de nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/rdb_bgsave_in_progress Se está llevando a cabo una RDB BGSAVE en el nodo de instancia. TRUE significa que el guardado está en curso.
memorystore.googleapis.com/instance/node/persistence/rdb_last_bgsave_status El éxito de la última BGSAVE en el nodo de instancia. TRUE significa que se produce una BGSAVE correcta. Si no se produce ningún bgrewrite, el valor puede ser TRUE de forma predeterminada.
memorystore.googleapis.com/instance/node/persistence/rdb_saves_count La métrica muestra el número acumulado de guardados de RDB realizados en el nodo de la instancia.
memorystore.googleapis.com/instance/node/persistence/rdb_last_save_age Tiempo (en segundos) transcurrido desde la última vista general correcta.
memorystore.googleapis.com/instance/node/persistence/rdb_next_save_time_until Tiempo restante (en segundos) hasta la próxima instantánea.
memorystore.googleapis.com/instance/node/persistence/current_save_keys_total El número de claves en el guardado de RDB que se ejecuta en el nodo de la instancia.

Métricas de persistencia de AOF

Métricas a nivel de instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Esta métrica muestra una distribución del retraso (desde la escritura de datos hasta la sincronización de almacenamiento duradero) de todos los nodos de la instancia. Solo se emite en instancias con appendfsync=everysec. Lo ideal es que la distribución tenga valores con un tiempo de latencia inferior (o igual) a la frecuencia de sincronización de AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Esta métrica muestra el número acumulado de veces que un nodo de tu instancia ha activado una reescritura de AOF. Esta métrica tiene un campo status_code. Para comprobar si se produce un error al reescribir el archivo AOF, puedes filtrar el campo status_code para buscar el siguiente error: 3 - INTERNAL_ERROR

Métricas a nivel de nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/aof_last_write_status Esta métrica muestra el éxito de la escritura AOF más reciente en el nodo de la instancia. VERDADERO significa que la operación se ha realizado correctamente. Si no se ha producido ninguna escritura, el valor puede ser VERDADERO de forma predeterminada.
memorystore.googleapis.com/instance/node/persistence/aof_last_bgrewrite_status Esta métrica muestra el éxito de la última operación bgrewrite AOF en el nodo de instancia. TRUE significa que se ha completado correctamente. Si no se ha producido ningún bgrewrite, el valor puede ser TRUE de forma predeterminada.
memorystore.googleapis.com/instance/node/persistence/aof_fsync_lag Esta métrica muestra el retraso de AOF entre la memoria y el almacenamiento persistente en el nodo de la instancia. Solo se aplica a las instancias con AOF habilitado en las que appendfsync=EVERYSEC
memorystore.googleapis.com/instance/node/persistence/aof_rewrites_count Esta métrica muestra el número de reescrituras de AOF en el nodo de la instancia. Para comprobar si se produce un error al reescribir el archivo AOF, puedes filtrar el campo status_code para buscar el siguiente error: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/node/persistence/aof_fsync_errors_count Esta métrica muestra el recuento de errores de llamadas fsync() de AOF y solo se aplica a las instancias en las que AOF está habilitado y appendfsync=EVERYSEC|ALWAYS.

Métricas de persistencia comunes

Métricas aplicables a los mecanismos de persistencia AOF y RDB.

Métricas a nivel de nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/auto_restore_count Esta métrica muestra el número de restauraciones a partir del archivo de volcado (AOF o RDB). Para comprobar si las restauraciones fallan, puede filtrar el campo status_code por el siguiente error: 2 - INTERNAL_ERROR.

Ejemplos de casos prácticos de métricas de persistencia

Comprobar si las operaciones de escritura de AOF provocan latencia y presión de memoria

Supongamos que detectas un aumento de la latencia o del uso de memoria en tu instancia o en el nodo de la instancia. En este caso, te recomendamos que compruebes si el uso adicional está relacionado con la persistencia de AOF.

Como sabes que las operaciones de reescritura de AOF pueden provocar picos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count, que te indica el recuento acumulativo de reescrituras de AOF durante el tiempo de vida de la instancia o del nodo de la instancia. Supongamos que esta métrica muestra que los incrementos en el recuento de reescrituras se corresponden con aumentos de la latencia. En este caso, puedes solucionar el problema reduciendo la tasa de escritura o aumentando el número de particiones para reducir la frecuencia de las reescrituras.

Comprobar si las operaciones de guardado de RDB provocan latencia y presión de memoria

Supongamos que detectas un aumento de la latencia o del uso de memoria en tu instancia o en el nodo de la instancia. En este caso, te recomendamos que compruebes si el uso adicional está relacionado con la persistencia de RDB.

Como sabes que las operaciones de guardado de RDB pueden provocar picos de carga transitorios, puedes consultar la métrica rdb_saves_count, que indica el recuento acumulativo de guardados de RDB durante el tiempo de vida de la instancia o del nodo de la instancia. Supongamos que esta métrica muestra que los incrementos en el recuento de guardados de RDB se corresponden con aumentos de la latencia. En este caso, puedes reducir el intervalo de la copia de seguridad de RDB para disminuir la frecuencia de las reescrituras. También puedes ampliar la instancia para reducir los niveles de carga de referencia.

Interpretar métricas de Memorystore for Valkey

Como se puede ver en la lista anterior, muchas de las métricas comparten tres categorías: media, máximo y total.

En Memorystore para Valkey, ofrecemos variaciones medias y máximas de la misma métrica para que puedas usar ambas y así identificar los puntos de acceso de esa familia de métricas.

El valor total de la métrica es independiente y proporciona información valiosa por separado que no está relacionada con el propósito de los puntos de acceso de media y máximo.

Acerca de las métricas de media y máxima

Supongamos que compara los valores average_keyspace_hits y maximum_keyspace_hits de su instancia. Cuanto mayor sea la diferencia entre las dos métricas, más puntos calientes habrá en tu instancia. Lo ideal es que el valor esté entre average_keyspace_hits y maximum_keyspace_hits, ya que esto significa que los hits se distribuyen de forma más uniforme en tu instancia.

Este principio se aplica a todas las métricas que tienen las variaciones media y máxima de la misma métrica.

Ejemplo de hotspotting

Si comparas average_keyspace_hits y maximum_keyspace_hits de todos los fragmentos de tu instancia, estos valores te indicarán dónde se produce el hot-spotting. Por ejemplo, supongamos que los fragmentos de una instancia de 6 fragmentos tienen el siguiente número de hits:

  • Fragmento 1: 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6: 8 hits

En este ejemplo, average_keyspace_hits devuelve el valor 3 y maximum_keyspace_hits devuelve 8, lo que indica que el fragmento 6 está activo.

Proporcionamos métricas a nivel de nodo que pueden ser útiles para identificar puntos de acceso dentro de la instancia.