Métricas de supervisión admitidas

En esta página, se enumeran las métricas de Cloud Monitoring disponibles para Memorystore para Valkey y se describe lo que mide cada métrica.

Métricas de Cloud Monitoring

Métricas a nivel de la instancia

Estas métricas proporcionan una descripción general del estado y el rendimiento generales de la instancia. Te ayudan a comprender la capacidad y la utilización generales de la instancia, así como a identificar posibles cuellos de botella o áreas de mejora.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/clients/average_connected_clients Cantidad media actual de conexiones de cliente en todos los nodos de la instancia.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Es la cantidad máxima actual de conexiones de clientes para un solo nodo de la instancia.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Es la duración máxima de una conexión de cliente para un solo nodo en la instancia.
memorystore.googleapis.com/instance/clients/total_connected_clients Cantidad actual de conexiones de cliente a la instancia.
memorystore.googleapis.com/instance/stats/total_connections_received_count Es el recuento de las conexiones totales de clientes a nivel de la instancia creadas en el último minuto.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Cantidad de conexiones rechazadas debido al límite de maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count Es el tiempo total consumido por comando.
memorystore.googleapis.com/instance/commandstats/total_calls_count Es la cantidad total de llamadas para este comando en un minuto.
memorystore.googleapis.com/instance/cpu/average_utilization Uso medio de CPU en todos los nodos de la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Uso máximo de CPU para un solo nodo en la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/stats/average_expired_keys Es la cantidad media de eventos de vencimiento de claves para los elementos principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Es la cantidad máxima de eventos de vencimiento de claves para un solo nodo en la instancia del elemento principal.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Es la cantidad total de eventos de vencimiento de claves en los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/average_evicted_keys Es la cantidad promedio de claves expulsadas debido a la capacidad de memoria en los nodos principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Cantidad máxima de claves expulsadas para un solo nodo en la instancia debido a la capacidad de memoria para el primario.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Cantidad de claves expulsadas debido a la capacidad de memoria en los principales de todos los nodos de la instancia.
memorystore.googleapis.com/instance/keyspace/total_keys Cantidad de claves almacenadas en la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Es la cantidad promedio de búsquedas de claves exitosas en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Es la cantidad máxima de búsquedas exitosas de claves para un solo nodo en la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Es la cantidad de búsquedas exitosas de claves para la instancia.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Es la cantidad promedio de búsquedas de claves con errores en todos los nodos de la instancia.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Es la cantidad máxima de búsquedas de claves con errores para un solo nodo en la instancia.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Es la cantidad total de búsquedas de claves con errores para la instancia.
memorystore.googleapis.com/instance/memory/average_utilization Uso promedio de la memoria en todos los nodos de la instancia. El valor es de 0.0 a 1.0.
memorystore.googleapis.com/instance/memory/maximum_utilization Es el uso máximo de memoria para un solo nodo en la instancia, de 0.0 a 1.0.
memorystore.googleapis.com/instance/memory/total_used_memory Es el uso total de memoria de la instancia.
memorystore.googleapis.com/instance/memory/size Tamaño de la memoria de la instancia.
memorystore.googleapis.com/instance/replication/average_ack_lag Es el retraso promedio de confirmación (en segundos) de las réplicas en todos los nodos de la instancia.

El retraso de confirmación es un cuello de botella en el nodo principal de una instancia. Este cuello de botella se debe a sus réplicas, que no pueden seguir el ritmo de la información que les envía el nodo principal. Cuando esto sucede, el nodo principal debe esperar la confirmación de que las réplicas recibieron la información. Esto podría ralentizar las confirmaciones de transacciones y afectar el rendimiento del nodo principal.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Es el retraso máximo de confirmación (en segundos) para una sola réplica en la instancia.
memorystore.googleapis.com/instance/replication/average_offset_diff Diferencia media en la compensación de confirmación de replicación (en bytes) en todos los nodos de la instancia.

La diferencia en la compensación de confirmación de replicación indica la cantidad de bytes que no se replicaron entre las réplicas y sus instancias principales.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Es la diferencia máxima en la compensación de replicación (en bytes) para un solo nodo en la instancia.

La diferencia en la compensación de replicación significa la cantidad de bytes que no se replicaron entre una réplica y sus instancias principales.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Es el recuento de bytes de red entrantes que reciben los extremos de la instancia.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Es el recuento de bytes de red salientes enviados desde los extremos de la instancia.

Métricas a nivel del nodo

Estas métricas ofrecen estadísticas detalladas sobre el estado y el rendimiento de los nodos individuales dentro de la instancia. Te ayudan a solucionar problemas con los nodos y a optimizar su rendimiento.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/clients/connected_clients Es la cantidad de clientes conectados al nodo de la instancia.
memorystore.googleapis.com/instance/node/clients/blocked_clients Cantidad de conexiones de clientes que bloquea el nodo de la instancia.
memorystore.googleapis.com/instance/node/server/uptime Es el tiempo de actividad del nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/connections_received_count Es la cantidad de conexiones de clientes que Memorystore para Valkey crea en el último minuto en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/rejected_connections_count Es la cantidad de conexiones que rechaza Memorystore para Valkey porque el nodo de la instancia alcanza el límite de "maxclients".
memorystore.googleapis.com/instance/node/commandstats/usec_count Es el tiempo que se consumió para cada comando en el nodo de instancia.
memorystore.googleapis.com/instance/node/commandstats/calls_count Es la cantidad de llamadas para este comando en el nodo de la instancia en un minuto.
memorystore.googleapis.com/instance/node/cpu/utilization Es el uso de CPU para el nodo de la instancia (de 0.0 a 1.0).
memorystore.googleapis.com/instance/node/stats/expired_keys_count Es la cantidad de eventos de vencimiento en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/evicted_keys_count Es la cantidad de claves expulsadas por el nodo de la instancia.
memorystore.googleapis.com/instance/node/keyspace/total_keys Es la cantidad de claves que Memorystore para Valkey almacena en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/keyspace_hits_count Es la cantidad de búsquedas correctas de claves en el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/keyspace_misses_count Cantidad de búsquedas de claves con errores en el nodo de la instancia.
memorystore.googleapis.com/instance/node/memory/utilization Es el uso de memoria del nodo de la instancia (de 0.0 a 1.0).
memorystore.googleapis.com/instance/node/memory/usage Es el uso de memoria del nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/net_input_bytes_count Es la cantidad de bytes de red entrantes que recibe el nodo de la instancia.
memorystore.googleapis.com/instance/node/stats/net_output_bytes_count Es la cantidad de bytes de red salientes que envía el nodo de la instancia.
memorystore.googleapis.com/instance/node/replication/offset Son los bytes de desplazamiento de la replicación del nodo de la instancia.
memorystore.googleapis.com/instance/node/server/healthy Determina si un nodo de instancia está disponible y funciona correctamente. Esta métrica está en vista previa.

Métricas de replicación entre regiones

En esta sección, se enumeran las métricas que se usan para la replicación entre regiones.

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/cross_instance_replication/secondary_replication_links Esta métrica muestra la cantidad de vínculos de fragmentos entre las instancias principal y secundaria. Dentro de un grupo de replicación entre regiones, una instancia principal informa la cantidad de vínculos de replicación entre regiones que tiene con las instancias secundarias del grupo. Para cada instancia secundaria, se espera que este número sea igual a la cantidad de fragmentos. Si la cantidad disminuye por debajo de la cantidad de fragmentos, esta métrica identifica la cantidad de fragmentos cuando se detuvo la replicación entre el replicador y el seguidor. En un estado ideal, esta métrica tiene el mismo número que el recuento de fragmentos de la instancia principal.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_maximum_replication_offset_diff Esta métrica muestra la diferencia máxima de desfase de replicación entre los fragmentos principales y secundarios.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_average_replication_offset_diff Esta métrica muestra la diferencia promedio de la compensación de replicación entre los fragmentos principales y secundarios.

Métricas de copias de seguridad

En esta sección, se enumeran las métricas de copia de seguridad y de importación.

Métricas a nivel de la instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/backup/last_backup_start_time Es la hora de inicio de la última operación de copia de seguridad.
memorystore.googleapis.com/instance/backup/last_backup_status Es el estado de la última operación de copia de seguridad. Los estados son 1 (correcto) y 0 (error).
memorystore.googleapis.com/instance/backup/last_backup_duration Duración de la última operación de copia de seguridad (en milisegundos).
memorystore.googleapis.com/instance/backup/last_backup_size Tamaño de la última copia de seguridad (en bytes).
memorystore.googleapis.com/instance/import/last_import_start_time Es la hora de inicio de la última operación de importación.
memorystore.googleapis.com/instance/import/last_import_duration Es la duración de la última operación de importación(en milisegundos).

Métricas de persistencia

En esta sección, se enumeran las métricas de persistencia y se proporcionan ejemplos de casos de uso para estas métricas.

Métricas de persistencia de RDB

Métricas a nivel de la instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/load_count Es el recuento acumulativo de cargas de toda la instancia para la persistencia de AOF o RDB.
memorystore.googleapis.com/instance/persistence/rdb_saves_count Es la cantidad acumulativa de veces que tu instancia toma una instantánea de RDB (también conocida como guardar). Esta métrica tiene un campo status_code. Para verificar si una instantánea falla, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL ERROR.
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Es la antigüedad de la instantánea de distribución para todos los nodos de la instancia. Quieres que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que la frecuencia de tus instantáneas.
memorystore.googleapis.com/instance/persistence/rejected_writes_count Es el recuento acumulativo de los comandos de escritura rechazados en la instancia debido a un error de persistencia.

Métricas a nivel del nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/rdb_bgsave_in_progress Hay un RDB BGSAVE en curso en el nodo de la instancia. TRUE significa que el guardado está en curso.
memorystore.googleapis.com/instance/node/persistence/rdb_last_bgsave_status Es el éxito del último BGSAVE en el nodo de la instancia. TRUE significa que se produjo un BGSAVE exitoso. Si no se produce ningún bgrewrite, es posible que el valor se establezca de forma predeterminada en TRUE.
memorystore.googleapis.com/instance/node/persistence/rdb_saves_count La métrica muestra la cantidad acumulada de guardados de RDB que se ejecutaron en el nodo de la instancia.
memorystore.googleapis.com/instance/node/persistence/rdb_last_save_age Es el tiempo (en segundos) transcurrido desde la última instantánea correcta.
memorystore.googleapis.com/instance/node/persistence/rdb_next_save_time_until Tiempo restante (en segundos) hasta la próxima instantánea.
memorystore.googleapis.com/instance/node/persistence/current_save_keys_total Es la cantidad de claves en el guardado de RDB que se ejecuta en el nodo de la instancia.

Métricas de persistencia del AOF

Métricas a nivel de la instancia

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Esta métrica muestra una distribución del rezago (desde la escritura de datos hasta la sincronización del almacenamiento duradero) para todos los nodos de la instancia. Solo se emite para instancias con appendfsync=everysec. Lo ideal es que la distribución tenga valores con menos tiempo de rezago (o el mismo tiempo) que tu frecuencia de sincronización de AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Esta métrica muestra la cantidad acumulada de veces que un nodo activó una reescritura del AOF para tu instancia. Esta métrica tiene un campo status_code. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR

Métricas a nivel del nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/aof_last_write_status Esta métrica muestra el éxito de la escritura del AOF más reciente en el nodo de la instancia. TRUE significa éxito. Si no se produjo ninguna escritura, el valor puede establecerse como TRUE de forma predeterminada.
memorystore.googleapis.com/instance/node/persistence/aof_last_bgrewrite_status Esta métrica muestra el éxito de la última operación bgrewrite del AOF en el nodo de la instancia. TRUE significa éxito. Si no se produjo ningún bgrewrite, es posible que el valor se establezca como TRUE de forma predeterminada.
memorystore.googleapis.com/instance/node/persistence/aof_fsync_lag Esta métrica muestra el retraso del AOF entre la memoria y el almacenamiento persistente en el nodo de la instancia. Solo se aplica a las instancias habilitadas para AOF en las que appendfsync=EVERYSEC
memorystore.googleapis.com/instance/node/persistence/aof_rewrites_count Esta métrica muestra el recuento de reescrituras del AOF en el nodo de la instancia. Para verificar si las reescrituras de AOF fallan, puedes filtrar el campo status_code para el siguiente error: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/node/persistence/aof_fsync_errors_count Esta métrica muestra el recuento de errores de llamadas a fsync() de AOF y solo se aplica a las instancias habilitadas para AOF en las que appendfsync=EVERYSEC|ALWAYS.

Métricas de persistencia comunes

Son métricas que se aplican a los mecanismos de persistencia AOF y RDB.

Métricas a nivel del nodo

Nombre de la métrica Descripción
memorystore.googleapis.com/instance/node/persistence/auto_restore_count Esta métrica muestra el recuento de restablecimientos desde el archivo de volcado (AOF o RDB). Para verificar si las restauraciones fallan, puedes filtrar el campo status_code para el siguiente error: 2 - INTERNAL_ERROR

Ejemplos de casos de uso para las métricas de persistencia

Cómo verificar si las operaciones de escritura del AOF causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria en tu instancia o en el nodo dentro de la instancia. En este caso, te recomendamos que verifiques si el uso adicional está relacionado con la persistencia de AOF.

Como sabes que las operaciones de reescritura del AOF pueden activar picos de carga transitorios, puedes inspeccionar la métrica aof_rewrites_count, que te proporciona el recuento acumulativo de las reescrituras del AOF durante la vida útil de la instancia o el nodo dentro de la instancia. Supongamos que esta métrica muestra que los incrementos en el recuento de reescrituras corresponden a aumentos en la latencia. En esta circunstancia, podrías solucionar el problema reduciendo la tasa de escritura o aumentando el recuento de fragmentos para reducir la frecuencia de las reescrituras.

Cómo verificar si las operaciones de guardado de RDB causan latencia y presión en la memoria

Supongamos que detectas un aumento en la latencia o el uso de memoria en tu instancia o en el nodo dentro de la instancia. En este caso, es posible que desees verificar si el uso adicional está relacionado con la persistencia de la RDB.

Como sabes que las operaciones de guardado de RDB pueden activar picos de carga transitorios, puedes inspeccionar la métrica rdb_saves_count, que proporciona el recuento acumulativo de los guardados de RDB durante la vida útil de la instancia o el nodo dentro de la instancia. Supongamos que esta métrica te muestra que los incrementos en el recuento de guardados de la RDB corresponden a aumentos de latencia. En este caso, puedes reducir el intervalo de instantáneas de RDB para disminuir la frecuencia de las reescrituras. También puedes escalar horizontalmente la instancia para reducir los niveles de carga de referencia.

Cómo interpretar las métricas de Memorystore para Valkey

Como se puede ver en la lista anterior, muchas de las métricas comparten tres categorías: promedio, máximo y total.

En el caso de Memorystore para Valkey, proporcionamos variaciones promedio y máximo de la misma métrica para que puedas usarlas ambas y, así, identificar los puntos de acceso para esa familia de métricas.

El valor total de la métrica es independiente y proporciona estadísticas separadas que no se relacionan con el propósito de identificación de puntos críticos de promedio y máximo.

Información sobre las métricas de promedio y máximo

Supongamos que comparas los valores average_keyspace_hits y maximum_keyspace_hits de tu instancia. A medida que crece la diferencia entre las dos métricas, una diferencia mayor indica más puntos calientes de hits en tu instancia. Lo ideal sería que tuvieras un valor cercano entre average_keyspace_hits y maximum_keyspace_hits, ya que esto significa que los clics se distribuyen de manera más uniforme en tu instancia.

Este principio se aplica a todas las métricas que tienen las variaciones de promedio y máximo de la misma métrica.

Ejemplo de Hotspotting

Si comparas average_keyspace_hits y maximum_keyspace_hits para todos los fragmentos de tu instancia, la comparación de estos valores indica dónde se produce el hot spotting. Por ejemplo, supongamos que los fragmentos de una instancia de 6 fragmentos tienen la siguiente cantidad de hits:

  • Fragmento 1: De 2 a 3 golpes
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento de 6 a 8 golpes

En este ejemplo, average_keyspace_hits devuelve un valor de 3 y maximum_keyspace_hits devuelve 8, lo que indica que el fragmento 6 está activo.

Proporcionamos métricas a nivel del nodo que podrían ser útiles para identificar los puntos críticos dentro de la instancia.