Nesta página, você encontra orientações sobre como usar o Memorystore para Valkey de maneira ideal. Essa página também indica possíveis problemas que devem ser evitados.
Práticas recomendadas de gerenciamento de memória
Esta seção descreve estratégias para gerenciar a memória da instância para que o Memorystore para Valkey funcione de maneira eficiente para seu aplicativo.
Conceitos de gerenciamento de memória
Uso da memória: a quantidade de memória usada pela instância. Você tem uma capacidade de memória fixa. É possível usar métricas para monitorar a quantidade de memória que você está usando.
Política de remoção: o Memorystore para Valkey usa a política de remoção
volatile-lru
. Você pode usar comandos do Valkey, comoEXPIRE
, para definir remoções de chaves.
Monitorar o uso de memória de uma instância
Para monitorar o uso de memória de uma instância do Memorystore para Valkey, recomendamos que você consulte a métrica /instance/memory/maximum_utilization
. Se o uso de memória da instância se aproximar de 80% e você esperar que o uso de dados aumente, aumente o tamanho da instância para abrir espaço para novos dados.
Se a instância tiver alto uso de memória, faça o seguinte para melhorar o desempenho:
- Aumente o tamanho da instância.
- Diminua o parâmetro de configuração
maxmemory
.
Se você tiver problemas, entre em contato com o atendimento ao cliente doGoogle Cloud .
Escalonar fragmentos no modo de cluster ativado
Ao escalonar o número de fragmentos em uma instância, recomendamos que você faça isso durante períodos de pouca gravação. O escalonamento durante períodos de alto uso pode colocar pressão de memória na instância devido à sobrecarga de memória causada pela replicação ou migração de slots.
Se o caso de uso do Valkey usar remoções de chaves, o escalonamento para um tamanho de instância menor poderá reduzir a proporção de ocorrência em cache. Nesse caso, não é preciso se preocupar com a perda de dados, já que a remoção de chaves é esperada.
Para casos de uso do Valkey em que você não quer perder chaves, faça reduzir escala vertical apenas para uma instância menor que ainda tenha espaço suficiente para seus dados. A nova contagem de fragmentos de destino precisa permitir pelo menos 1,5 vez a memória usada pelos dados. Em outras palavras, provisione fragmentos suficientes para 1,5 vez a quantidade de dados atualmente na sua instância. Use a métrica /instance/memory/total_used_memory
para saber a quantidade de dados armazenados na sua instância.
Práticas recomendadas para uso da CPU
Se ocorrer uma interrupção zonal inesperada, isso vai reduzir os recursos de CPU da sua instância devido à perda de capacidade dos nós na zona indisponível. Recomendamos o uso de instâncias altamente disponíveis. Usar duas réplicas por fragmento (em vez de uma) fornece recursos extras de CPU durante uma interrupção. Além disso, recomendamos gerenciar o uso da CPU do nó para que ele tenha sobrecarga suficiente para lidar com o tráfego extra da capacidade perdida se ocorrer uma interrupção zonal inesperada. Monitore o uso da CPU para primários e réplicas usando a métrica Segundos de CPU da linha de execução principal /instance/cpu/maximum_utilization
.
Dependendo de quantas réplicas você provisiona por nó, recomendamos as seguintes metas de uso da CPU /instance/cpu/maximum_utilization
:
- Para instâncias com uma réplica por nó, você deve segmentar um valor
/instance/cpu/maximum_utilization
de 0,5 segundo para o principal e a réplica. - Para instâncias com duas réplicas por nó, o valor de
/instance/cpu/maximum_utilization
precisa ser de 0,9 segundo para a instância principal e 0,5 segundo para as réplicas.
Se os valores da métrica excederem essas recomendações, aumente o número de fragmentos ou réplicas na sua instância.
Comandos do Valkey com uso intensivo de recursos
Recomendamos evitar o uso de comandos do Valkey que consomem muitos recursos. O uso desses comandos pode causar os seguintes problemas de desempenho:
- Alta latência e tempos limite do cliente
- Pressão na memória causada por comandos que aumentam o uso da memória
- Perda de dados durante a replicação e sincronização de nós porque a linha de execução principal do Valkey está bloqueada
- Verificações de integridade, observabilidade e replicação sem recursos
A tabela a seguir lista exemplos de comandos do Valkey que consomem muitos recursos e oferece alternativas mais eficientes.
Categoria | Comando que usa muitos recursos | Alternativa eficiente em termos de recursos |
---|---|---|
Executar para todo o keyspace | KEYS |
SCAN |
Executar para um conjunto de chaves de comprimento variável | LRANGE |
Limite o tamanho do intervalo usado em uma consulta. |
ZRANGE |
Limite o tamanho do intervalo usado em uma consulta. | |
HGETALL |
HSCAN |
|
SMEMBERS |
SSCAN |
|
Bloquear a execução de um script | EVAL |
Verifique se o script não é executado indefinidamente. |
EVALSHA |
Verifique se o script não é executado indefinidamente. | |
Remover arquivos e links | DELETE |
UNLINK |
Publicar e assinar | PUBLISH |
SPUBLISH |
SUBSCRIBE |
SSUBSCRIBE |
Práticas recomendadas para clientes do Valkey
Evitar sobrecarga de conexão no Valkey
Para reduzir o impacto causado por um fluxo repentino de conexões, recomendamos o seguinte:
Determine o tamanho do pool de conexões do cliente mais adequado para você. Um bom tamanho inicial para cada cliente é uma conexão por nó do Valkey. Em seguida, faça um comparativo de mercado para ver se mais conexões ajudam sem saturar a contagem máxima permitida.
Quando o cliente se desconecta do servidor porque o tempo limite do servidor expira, tente de novo com espera exponencial com jitter. Isso ajuda a evitar que vários clientes sobrecarreguem o servidor simultaneamente.
Para instâncias com o modo de cluster ativado
Seu aplicativo precisa usar um cliente Valkey compatível com cluster ao se conectar a uma instância do Memorystore para Valkey com o modo de cluster ativado. Para exemplos de clientes compatíveis com clusters e configurações de amostra, consulte Exemplos de código da biblioteca de cliente. O cliente precisa manter um mapa de slots de hash para os nós correspondentes na instância e enviar solicitações aos nós corretos. Isso evita a sobrecarga de desempenho causada por redirecionamentos.
Mapeamento de clientes
Os clientes precisam receber uma lista completa de slots e nós mapeados nas seguintes situações:
Quando o cliente é inicializado, ele precisa preencher o slot inicial com o mapeamento de nós.
Quando um redirecionamento
MOVED
é recebido do servidor, como em uma situação de failover em que todos os slots atendidos pelo antigo nó principal são assumidos pela réplica ou em um refragmentação quando os slots estão sendo movidos da origem principal para o nó principal de destino.Quando um erro
CLUSTERDOWN
é recebido do servidor ou as conexões com um servidor específico atingem tempos limite de forma persistente.Quando um erro
READONLY
é recebido do servidor. Isso pode acontecer quando uma instância principal é rebaixada para réplica.Além disso, os clientes precisam atualizar periodicamente a topologia para manter os clientes ativos para qualquer mudança e saber sobre mudanças que podem não resultar em redirecionamentos / erros do servidor, como quando novos nós de réplica são adicionados. Conexões desatualizadas também precisam ser fechadas como parte da atualização da topologia para reduzir a necessidade de lidar com conexões com falha durante a execução do comando.
Descoberta de clientes
A descoberta de clientes geralmente é feita emitindo um comando SLOTS
, NODES
ou CLUSTER SHARDS
para o servidor Valkey. Recomendamos usar o comando CLUSTER SHARDS
. O CLUSTER SHARDS
substitui o comando SLOTS
(descontinuado) ao fornecer uma representação mais eficiente e extensível da instância.
O tamanho da resposta para os comandos de descoberta de cliente pode variar de acordo com o tamanho e a topologia da instância. Instâncias maiores com mais nós produzem uma resposta maior. Por isso, é importante garantir que o número de clientes que fazem a descoberta da topologia de nós não cresça sem limites.
Essas atualizações de topologia de nós são caras no servidor Valkey, mas também são importantes para a disponibilidade do aplicativo. Portanto, é importante garantir que cada cliente faça uma única solicitação de descoberta a qualquer momento (e armazene o resultado na memória) e que o número de clientes que fazem as solicitações seja limitado para evitar sobrecarregar o servidor.
Por exemplo, quando o aplicativo cliente é iniciado ou perde a conexão com o servidor e precisa realizar a descoberta de nós, um erro comum é que o aplicativo cliente faz várias solicitações de reconexão e descoberta sem adicionar espera exponencial ao tentar novamente. Isso pode tornar o servidor Valkey sem resposta por um longo período, causando um uso muito alto da CPU.
Usar um endpoint de descoberta para descoberta de nós
Use o endpoint de descoberta do Memorystore para Valkey para realizar a descoberta de nós. O endpoint de descoberta tem alta disponibilidade e é balanceado por carga em todos os nós da instância. Além disso, o endpoint de descoberta tenta rotear as solicitações de descoberta de nós para aqueles com a visualização de topologia mais atualizada.
Para instâncias com o modo de cluster desativado
Ao se conectar a uma instância com o modo de cluster desativado, seu aplicativo precisa se conectar ao endpoint principal para gravar na instância e recuperar as gravações mais recentes. Seu aplicativo também pode se conectar ao endpoint do leitor para ler das réplicas e isolar o tráfego do nó principal.
Práticas recomendadas de persistência
Esta seção explica as práticas recomendadas para persistência.
Persistência do RDB
Para ter os melhores resultados ao fazer backup da instância com snapshots RDB, use as seguintes práticas recomendadas:
Gerenciamento de memória
Os snapshots do RDB usam um fork de processo e um mecanismo de "cópia na gravação" para criar um snapshot dos dados do nó. Dependendo do padrão de gravações nos nós, a memória usada deles aumenta à medida que as páginas afetadas pelas gravações são copiadas. No pior caso, o uso de memória pode ser o dobro do tamanho dos dados no nó.
Para garantir que os nós tenham memória suficiente para concluir o snapshot, mantenha ou defina maxmemory
em 80% da capacidade do nó para que 20% sejam reservados para sobrecarga. Para mais informações, consulte Monitorar o uso de memória de uma instância. Essa sobrecarga de memória, além dos snapshots do Monitoring, ajuda você a gerenciar sua carga de trabalho para ter snapshots bem-sucedidos.
Snapshots desatualizados
A recuperação de nós de um snapshot desatualizado pode causar problemas de desempenho no aplicativo, já que ele tenta reconciliar uma quantidade significativa de chaves desatualizadas ou outras mudanças no banco de dados, como uma mudança de esquema. Se você estiver preocupado com a recuperação de um snapshot desatualizado, desative o recurso de persistência do RDB. Depois que você reativar a persistência, um snapshot será criado no próximo intervalo programado.
Impacto no desempenho dos snapshots do RDB
Dependendo do padrão da carga de trabalho, os snapshots do RDB podem afetar o desempenho da instância e aumentar a latência dos aplicativos. Para minimizar o impacto na performance dos snapshots do RDB, programe a execução deles durante períodos de baixo tráfego de instâncias, se você não se importar com snapshots menos frequentes.
Por exemplo, se a instância tiver pouco tráfego das 1h às 4h, defina o horário de início como 3h e o intervalo como 24 horas.
Se o sistema tiver uma carga constante e exigir snapshots frequentes, avalie com cuidado o impacto na performance e pondere os benefícios de usar snapshots do RDB para a carga de trabalho.
Escolha uma instância de zona única se ela não usar réplicas
Ao configurar uma instância sem réplicas, recomendamos uma arquitetura de zona única para melhorar a confiabilidade. Geralmente, estes são os motivos:
Minimizar o impacto de interrupções
É menos provável que falhas zonais afetem sua instância. Ao colocar todos os nós em uma única zona, a chance de uma interrupção zonal afetar seu servidor cai de 100% para 33%. Isso acontece porque há uma chance de 33% de a zona em que sua instância está localizada ficar inativa, em vez de 100% de chance de os nós localizados na zona indisponível serem afetados.
Recuperação rápida
Se ocorrer uma interrupção temporária na zona, a recuperação será simplificada. Você pode responder provisionando rapidamente uma nova instância em uma zona em funcionamento e redirecionando seu aplicativo para operações minimamente interrompidas.