Métricas de monitoramento com suporte

Nesta página, listamos as métricas do Cloud Monitoring disponíveis para o Memorystore para Valkey e descrevemos o que cada métrica mede.

Métricas do Cloud Monitoring

Métricas no nível da instância

Essas métricas oferecem uma visão geral de alto nível da integridade e do desempenho geral da instância. Eles ajudam a entender a capacidade e a utilização geral da instância, além de identificar possíveis gargalos ou áreas de melhoria.

Nome da métrica Descrição
memorystore.googleapis.com/instance/clients/average_connected_clients Número médio atual de conexões de cliente em todos os nós da instância.
memorystore.googleapis.com/instance/clients/maximum_connected_clients Número máximo atual de conexões de cliente para um único nó na instância.
memorystore.googleapis.com/instance/clients/maximum_connection_duration Duração máxima de uma conexão de cliente para um único nó na instância.
memorystore.googleapis.com/instance/clients/total_connected_clients Número atual de conexões de cliente com a instância.
memorystore.googleapis.com/instance/stats/total_connections_received_count Contagem do total de conexões de cliente no nível da instância criadas no último minuto.
memorystore.googleapis.com/instance/stats/total_rejected_connections_count Número de conexões rejeitadas devido ao limite de maxclients.
memorystore.googleapis.com/instance/commandstats/total_usec_count O tempo total consumido por comando.
memorystore.googleapis.com/instance/commandstats/total_calls_count Número total de chamadas para esse comando em um minuto.
memorystore.googleapis.com/instance/cpu/average_utilization Uso médio da CPU em todos os nós da instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/cpu/maximum_utilization Uso máximo da CPU para um único nó na instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/stats/average_expired_keys Número médio de eventos principais de expiração para os primários de todos os nós na instância.
memorystore.googleapis.com/instance/stats/maximum_expired_keys Número máximo de eventos de expiração de chave para um único nó na instância do primário.
memorystore.googleapis.com/instance/stats/total_expired_keys_count Número total de eventos de expiração de chaves em todos os primários de todos os nós na instância.
memorystore.googleapis.com/instance/stats/average_evicted_keys Número médio de chaves removidas devido à capacidade de memória em todos os primários de todos os nós na instância.
memorystore.googleapis.com/instance/stats/maximum_evicted_keys Número máximo de chaves removidas de um único nó na instância devido à capacidade de memória para o primário.
memorystore.googleapis.com/instance/stats/total_evicted_keys_count Número de chaves removidas devido à capacidade de memória em todos os primários de todos os nós na instância.
memorystore.googleapis.com/instance/keyspace/total_keys Número de chaves armazenadas na instância.
memorystore.googleapis.com/instance/stats/average_keyspace_hits Número médio de pesquisas bem-sucedidas de chaves em todos os nós da instância.
memorystore.googleapis.com/instance/stats/maximum_keyspace_hits Número máximo de pesquisas bem-sucedidas de chaves para um único nó na instância.
memorystore.googleapis.com/instance/stats/total_keyspace_hits_count Número de pesquisas de chaves bem-sucedidas para a instância.
memorystore.googleapis.com/instance/stats/average_keyspace_misses Número médio de pesquisas com falha de chaves em todos os nós da instância.
memorystore.googleapis.com/instance/stats/maximum_keyspace_misses Número máximo de pesquisas com falha de chaves para um único nó na instância.
memorystore.googleapis.com/instance/stats/total_keyspace_misses_count Número total de pesquisas com falha de chaves para a instância.
memorystore.googleapis.com/instance/memory/average_utilization Uso médio da memória em todos os nós da instância. O valor varia de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/maximum_utilization Utilização máxima da memória para um único nó na instância, de 0,0 a 1,0.
memorystore.googleapis.com/instance/memory/total_used_memory Uso total da memória da instância.
memorystore.googleapis.com/instance/memory/size Tamanho da memória da instância.
memorystore.googleapis.com/instance/replication/average_ack_lag Atraso médio de replicação (em segundos) das réplicas em todos os nós da instância.

O atraso de replicação (em segundos) indica o quanto as réplicas estão atrasadas em relação às primárias.
memorystore.googleapis.com/instance/replication/maximum_ack_lag Atraso máximo de confirmação da replicação (em segundos) para uma única réplica na instância.

O atraso de confirmação da replicação (em segundos) indica o quanto as confirmações de replicação estão atrasadas em relação às instâncias principais.
memorystore.googleapis.com/instance/replication/average_offset_diff Diferença média de deslocamento de confirmação de replicação (em bytes) em todos os nós da instância.

A diferença de deslocamento de confirmação de replicação significa o número de bytes que não foram replicados entre as réplicas e as primárias.
memorystore.googleapis.com/instance/replication/maximum_offset_diff Diferença máxima de deslocamento de replicação (em bytes) para um único nó na instância.

A diferença de deslocamento de replicação significa o número de bytes que não foram replicados entre uma réplica e as instâncias primárias.
memorystore.googleapis.com/instance/stats/total_net_input_bytes_count Contagem de bytes de rede recebidos pelos endpoints da instância.
memorystore.googleapis.com/instance/stats/total_net_output_bytes_count Contagem de bytes de rede de saída enviados dos endpoints da instância.

Métricas no nível do nó

Essas métricas oferecem insights detalhados sobre a integridade e a performance de nós individuais na instância. Eles ajudam a resolver problemas com nós e otimizar a performance deles.

Nome da métrica Descrição
memorystore.googleapis.com/instance/node/clients/connected_clients O número de clientes conectados ao nó da instância.
memorystore.googleapis.com/instance/node/clients/blocked_clients O número de conexões de cliente que o nó da instância bloqueia.
memorystore.googleapis.com/instance/node/server/uptime O tempo de atividade do nó da instância.
memorystore.googleapis.com/instance/node/stats/connections_received_count O número de conexões de cliente que o Memorystore for Valkey cria no último minuto no nó da instância.
memorystore.googleapis.com/instance/node/stats/rejected_connections_count O número de conexões que o Memorystore for Valkey rejeita porque o nó da instância atinge o limite de "maxclients".
memorystore.googleapis.com/instance/node/commandstats/usec_count O tempo consumido para cada comando no nó da instância.
memorystore.googleapis.com/instance/node/commandstats/calls_count O número de chamadas para esse comando no nó da instância em um minuto.
memorystore.googleapis.com/instance/node/cpu/utilization O uso da CPU do nó da instância (de 0,0 a 1,0).
memorystore.googleapis.com/instance/node/stats/expired_keys_count O número de eventos de expiração no nó da instância.
memorystore.googleapis.com/instance/node/stats/evicted_keys_count O número de chaves removidas pelo nó da instância.
memorystore.googleapis.com/instance/node/keyspace/total_keys O número de chaves que o Memorystore para Valkey armazena no nó da instância.
memorystore.googleapis.com/instance/node/stats/keyspace_hits_count O número de pesquisas bem-sucedidas de chaves no nó da instância.
memorystore.googleapis.com/instance/node/stats/keyspace_misses_count O número de pesquisas com falha de chaves no nó da instância.
memorystore.googleapis.com/instance/node/memory/utilization A utilização da memória para o nó da instância (de 0,0 a 1,0).
memorystore.googleapis.com/instance/node/memory/usage O uso de memória do nó da instância.
memorystore.googleapis.com/instance/node/stats/net_input_bytes_count O número de bytes de rede de entrada que o nó da instância recebe.
memorystore.googleapis.com/instance/node/stats/net_output_bytes_count O número de bytes de rede de saída enviados pelo nó da instância.
memorystore.googleapis.com/instance/node/replication/offset Os bytes de deslocamento de replicação do nó da instância.
memorystore.googleapis.com/instance/node/server/healthy Determina se um nó de instância está disponível e funcionando corretamente. Essa métrica está em Pré-lançamento.

Métricas de replicação entre regiões

Nesta seção, listamos as métricas usadas para replicação entre regiões.

Nome da métrica Descrição
memorystore.googleapis.com/instance/cross_instance_replication/secondary_replication_links Essa métrica mostra o número de links de fragmento entre as instâncias principal e secundária. Em um grupo de replicação entre regiões, uma instância principal informa o número de links de replicação entre regiões que ela tem com as instâncias secundárias no grupo. Para cada instância secundária, esse número deve ser igual ao número de fragmentos. Se o número cair abaixo da quantidade de fragmentos, essa métrica vai identificar o número de fragmentos quando a replicação parou entre o replicador e o seguidor. Em um estado ideal, essa métrica tem o mesmo número que a contagem de fragmentos da instância principal.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_maximum_replication_offset_diff Essa métrica mostra a diferença máxima de deslocamento de replicação entre os shards principal e secundário.
memorystore.googleapis.com/instance/cross_instance_replication/secondary_average_replication_offset_diff Essa métrica mostra a diferença média de deslocamento de replicação entre os shards primário e secundário.

Métricas de backup

Esta seção lista as métricas de backup e importação.

Métricas no nível da instância

Nome da métrica Descrição
memorystore.googleapis.com/instance/backup/last_backup_start_time O horário de início da última operação de backup.
memorystore.googleapis.com/instance/backup/last_backup_status O status da última operação de backup. Os status são 1 (sucesso) e 0 (falha).
memorystore.googleapis.com/instance/backup/last_backup_duration A duração da última operação de backup (em milissegundos).
memorystore.googleapis.com/instance/backup/last_backup_size O tamanho do último backup (em bytes).
memorystore.googleapis.com/instance/import/last_import_start_time O horário de início da última operação de importação.
memorystore.googleapis.com/instance/import/last_import_duration A duração da última operação de importação(em milissegundos).

Métricas de persistência

Esta seção lista as métricas de persistência e fornece exemplos de casos de uso para elas.

Métricas de persistência do RDB

Métricas no nível da instância

Nome da métrica Descrição
memorystore.googleapis.com/instance/persistence/load_count A contagem cumulativa de cargas em toda a instância para persistência AOF ou RDB.
memorystore.googleapis.com/instance/persistence/rdb_saves_count O número cumulativo de vezes que sua instância faz um snapshot do RDB (também conhecido como salvar). Essa métrica tem um campo status_code. Para verificar se um snapshot falha, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL ERROR.
memorystore.googleapis.com/instance/persistence/rdb_last_success_ages Uma idade de snapshot de distribuição para todos os nós da instância. Você quer que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de snapshot.
memorystore.googleapis.com/instance/persistence/rejected_writes_count A contagem cumulativa de comandos de gravação negados na instância devido a uma falha na persistência.

Métricas no nível do nó

Nome da métrica Descrição
memorystore.googleapis.com/instance/node/persistence/rdb_bgsave_in_progress Um RDB BGSAVE está em andamento no nó da instância. TRUE significa que o salvamento está em andamento.
memorystore.googleapis.com/instance/node/persistence/rdb_last_bgsave_status O sucesso do último BGSAVE no nó da instância. TRUE significa que um BGSAVE bem-sucedido ocorreu. Se nenhum bgrewrite ocorrer, o valor poderá ser TRUE por padrão.
memorystore.googleapis.com/instance/node/persistence/rdb_saves_count A métrica mostra o número cumulativo de salvamentos de RDB executados no nó da instância.
memorystore.googleapis.com/instance/node/persistence/rdb_last_save_age O tempo (em segundos) desde o último snapshot concluído.
memorystore.googleapis.com/instance/node/persistence/rdb_next_save_time_until O tempo restante (em segundos) até o próximo snapshot.
memorystore.googleapis.com/instance/node/persistence/current_save_keys_total O número de chaves no salvamento do RDB que é executado no nó da instância.

Métricas de persistência de AOF

Métricas no nível da instância

Nome da métrica Descrição
memorystore.googleapis.com/instance/persistence/aof_fsync_lags Essa métrica mostra uma distribuição do atraso (da gravação de dados à sincronização de armazenamento durável) para todos os nós na instância. Ele só é emitido para instâncias com appendfsync=everysec. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo) que a frequência de sincronização de AOF.
memorystore.googleapis.com/instance/persistence/aof_rewrite_count Essa métrica mostra o número cumulativo de vezes que um nó acionou uma reescrita de AOF para sua instância. Essa métrica tem um campo status_code. Para verificar se as reescritas de AOF estão falhando, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL_ERROR

Métricas no nível do nó

Nome da métrica Descrição
memorystore.googleapis.com/instance/node/persistence/aof_last_write_status Essa métrica mostra o sucesso da gravação AOF mais recente no nó da instância. TRUE significa sucesso. Se nenhuma gravação tiver ocorrido, o valor poderá ser definido como TRUE por padrão.
memorystore.googleapis.com/instance/node/persistence/aof_last_bgrewrite_status Essa métrica mostra o sucesso da última operação bgrewrite AOF no nó da instância. TRUE significa sucesso. Se nenhum bgrewrite tiver ocorrido, o valor poderá ser TRUE por padrão.
memorystore.googleapis.com/instance/node/persistence/aof_fsync_lag Essa métrica mostra o atraso do AOF entre a memória e o armazenamento permanente no nó da instância. Ele só é aplicável a instâncias com AOF ativado em que appendfsync=EVERYSEC
memorystore.googleapis.com/instance/node/persistence/aof_rewrites_count Essa métrica mostra a contagem de reescritas de AOF no nó da instância. Para verificar se as reescritas de AOF estão falhando, filtre o campo status_code pelo seguinte erro: 3 - INTERNAL_ERROR
memorystore.googleapis.com/instance/node/persistence/aof_fsync_errors_count Essa métrica mostra a contagem de erros de chamada fsync() do AOF e só é aplicável a instâncias ativadas para AOF em que appendfsync=EVERYSEC|ALWAYS.

Métricas comuns de persistência

Métricas aplicáveis aos mecanismos de persistência AOF e RDB.

Métricas no nível do nó

Nome da métrica Descrição
memorystore.googleapis.com/instance/node/persistence/auto_restore_count Essa métrica mostra a contagem de restaurações do arquivo de despejo (AOF ou RDB). Para verificar se os restauros estão falhando, filtre o campo status_code pelo seguinte erro: 2 - INTERNAL_ERROR

Exemplos de casos de uso para métricas de persistência

Verificar se as operações de gravação AOF causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória na sua instância ou no nó dentro dela. Nesse caso, verifique se o uso extra está relacionado à persistência de AOF.

Como você sabe que as operações de reescrita de AOF podem acionar picos de carga temporários, é possível inspecionar a métrica aof_rewrites_count, que fornece a contagem cumulativa de reescritas de AOF durante o ciclo de vida da instância ou do nó dentro dela. Suponha que essa métrica mostre que os incrementos na contagem de reescritas correspondem a aumentos na latência. Nesse caso, é possível resolver o problema reduzindo a taxa de gravação ou aumentando a contagem de fragmentos para diminuir a frequência de regravações.

Verificar se as operações de salvamento do RDB causam latência e pressão de memória

Suponha que você detecte aumento na latência ou no uso de memória na sua instância ou no nó dentro dela. Nesse caso, verifique se o uso extra está relacionado à persistência do RDB.

Como você sabe que as operações de salvamento do RDB podem acionar picos de carga temporários, é possível inspecionar a métrica rdb_saves_count, que fornece a contagem cumulativa de salvamentos do RDB durante a vida útil da instância ou do nó dentro dela. Suponha que essa métrica mostre que os incrementos na contagem de salvamentos do RDB correspondem a aumentos na latência. Nesse caso, é possível reduzir o intervalo do snapshot do RDB para diminuir a frequência de reescritas. Também é possível escalonar horizontalmente a instância para reduzir os níveis de carga de referência.

Como interpretar métricas do Memorystore para Valkey

Como visto na lista acima, muitas das métricas compartilham três categorias: média, máximo e total.

Para o Memorystore para Valkey, oferecemos variações média e máxima da mesma métrica para que você possa usar as duas e identificar o hotspotting dessa família de métricas.

O valor total da métrica é independente e fornece insights separados não relacionados à finalidade de hotspotting de média e máximo.

Como entender as métricas de média e máxima

Suponha que você compare os valores average_keyspace_hits e maximum_keyspace_hits da sua instância. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica mais pontos de acesso de hits na sua instância. O ideal é ter um valor próximo entre average_keyspace_hits e maximum_keyspace_hits, porque isso significa que os hits estão distribuídos de maneira mais uniforme na sua instância.

Esse princípio se aplica a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de ponto de acesso

Se você comparar average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos na sua instância, a comparação desses valores vai indicar onde ocorre o hot spotting. Por exemplo, suponha que os fragmentos em uma instância de seis fragmentos tenham o seguinte número de hits:

  • Fragmento 1: 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6: 8 hits

Neste exemplo, average_keyspace_hits retorna um valor de 3, e maximum_keyspace_hits retorna 8, indicando que o fragmento 6 está quente.

Fornecemos métricas no nível do nó que podem ser úteis para identificar pontos de acesso na instância.