Preparar-se para um evento de pico de capacidade


Este guia explica como se preparar para eventos de pico de capacidade e tráfego alto para que você possa prestar seus serviços com um tempo de inatividade mínimo ou nenhum e sem degradação de desempenho ou experiência do usuário.

Ao gerenciar eventos na nuvem, há três fases principais:

  1. Preparação: realize atividades e tarefas para se preparar para o evento, incluindo uma revisão de arquitetura, planejamento de capacidade e criação de reservas.
  2. Execução: quando o evento começar, monitore-o de perto e reaja de acordo.
  3. Análise: depois que o evento terminar, analise o que deu certo, o que não deu certo e como melhorar os eventos futuros.

Este guia se concentra na fase de preparação.

Lista de verificação

Saiba como se preparar para um evento de capacidade máxima concluindo as seguintes tarefas:


Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações


Antes de começar

Dependendo do pacote de suporte do Customer Care que você comprou, entenda os serviços de prontidão para eventos disponíveis:

  • Suporte aprimorado: você pode otimizar a preparação para seus eventos, lançamentos e migrações usando o Suporte para eventos planejados, que é um serviço de valor agregado que oferece cobertura para fases críticas de eventos digitais de curto prazo com muito tráfego, como inaugurações, lançamentos de novos produtos ou migrações de dados.

  • Suporte Premium: use o Serviço de gerenciamento de eventos para eventos de pico planejados, como o lançamento de um produto ou um grande evento de vendas. Com esse serviço, o Customer Care faz uma parceria com você para criar um plano, oferecer orientações durante o evento e oferecer suporte com o seguinte:

    • Como preparar seus sistemas para momentos importantes e cargas de trabalho pesadas
    • Executar testes de desastre para resolver problemas em potencial de maneira proativa
    • Desenvolver e implementar um caminho mais rápido para resolvê-lo a fim de reduzir o impacto dos possíveis problemas.

    Após o evento, o gerente técnico de contas (TAM) trabalha com você para analisar os resultados e fazer recomendações para eventos futuros. Para começar ou saber mais, entre em contato com seu TAM.

Entender as práticas recomendadas de gerenciamento de eventos

Entenda e siga as práticas recomendadas de gerenciamento de eventos:

  1. Detalhar o processo de planejamento do evento: durante a fase de preparação para um evento de capacidade máxima, você precisa interagir com a equipe de contas ou o TAM para revisar sua arquitetura, criar diagramas, cronogramas e checklists de lançamento, verificar as cotas de serviço com base no seu perfil de tráfego previsto e determinar o impacto geral nos seus projetos.

  2. Monitorar e reagir durante a execução: quando a alta temporada ou o evento de lançamento começar, você vai precisar monitorar de perto a atividade e reagir conforme necessário. Se algum problema ocorrer, ter um processo de gerenciamento e encaminhamento de incidentes bem definido é essencial para reduzir o esforço e o tempo necessários e resolver o problema.

  3. Analise e documente sua análise: quando a alta temporada ou o evento de lançamento terminar, analise e documente as lições aprendidas para que você possa aplicá-las ao próximo evento importante.

Para mais informações, consulte Práticas recomendadas de gerenciamento de eventos.

Solicitar e garantir a capacidade adequada para seu evento

Um componente crítico da fase de preparação é o planejamento de capacidade, em que você determina a quantidade de recursos de nuvem necessários para garantir que suas cargas de trabalho tenham o que precisam para operar de maneira eficaz. Ao se preparar para o evento de alto tráfego ou a alta temporada, verifique se as cotas correspondem aos requisitos de recursos para que você não encontre falhas inesperadas. Para mais informações, consulte Garantir a capacidade do seu evento.

Usar o Planejador de Capacidade

O Planejador de Capacidade permite conferir o uso histórico e previsto de instâncias de máquina virtual (VM), volumes de disco permanente e GPUs. Também é possível ver reservas, reservar recursos com antecedência, gerenciar os limites de cota do projeto e configurar solicitações automáticas de aumento de cota. Para mais informações, consulte Conferir dados de uso e previsão no Planejador de Capacidade.

  1. No console do Google Cloud, acesse a página do Planejador de Capacidade.

    Acessar o Planejador de Capacidade

  2. Usando o seletor de recursos na barra de ferramentas do console, selecione um projeto, uma pasta ou uma organização.

  3. Selecione o tipo de recurso do Compute Engine para conferir os dados de uso:

    • Para conferir os dados de uso das VMs, clique na guia Máquina virtual, se ela ainda não estiver selecionada.

    • Para conferir os dados de uso dos volumes do Persistent Disk, clique na guia Disco.

    • Para conferir os dados de uso das GPUs, clique na guia GPU.

  4. É possível filtrar elementos para conferir diferentes visualizações de dados de uso e previsão do recurso.

Ativar o ajustador de cotas

O ajustador de cotas monitora o consumo de recursos e envia solicitações de ajuste de cota em seu nome para que você não precise fazer solicitações manuais. Para mais informações, consulte Como o ajustador de cota funciona.

  1. No console do Google Cloud, acesse a página IAM e administrador > Cotas e limites do sistema.

    Acesse "Cotas e limites do sistema"

  2. Clique na guia Configurações.

  3. Para ativar o ajustador de cota, clique no botão Ativar para a posição ativada.

Quando a coluna Status mostrar Ativado, o ajustador de cotas vai monitorar o uso de recursos e emitir solicitações de ajuste de cota quando o uso se aproximar do limite da cota.

Solicitar um ajuste de cota

Se as cotas não forem suficientes para o que você precisa, solicite um ajuste de cota. Para mais informações, consulte Ver e gerenciar cotas.

  1. No console do Google Cloud, acesse a página IAM e administrador > Cotas e limites do sistema.

    Acesse "Cotas e limites do sistema"

  2. Marque a caixa de seleção ao lado da cota que você quer atualizar.

    Como alternativa, para pesquisar uma cota, use o Filtro.

  3. Clique em Editar e o painel Mudanças de cota vai aparecer.

  4. No campo Novo valor, insira o valor da cota que você quer. Alguns valores de cota têm uma unidade de medida. Se for o caso, selecione a unidade que você quer na lista adjacente.

  5. Se você receber uma mensagem indicando que vai remover a substituição de cota solicitando uma cota maior que a substituição, marque a caixa de seleção para continuar e selecione Inscrever-se para uma cota maior.

  6. No campo Descrição da solicitação, insira uma descrição e clique em Concluído.

  7. Clique em Próxima e informe seus dados de contato.

  8. Clique em Enviar solicitação.

Se a solicitação for negada, tente solicitar o aumento de cota criando um caso de suporte ou entrando em contato com a equipe da sua conta ou o TAM.

Criar uma reserva

As reservas ajudam a garantir que você tenha os recursos do Compute Engine disponíveis para criar VMs com o mesmo hardware (memória e vCPUs) e recursos opcionais (GPUs e discos SSD locais) sempre que precisar.

Uma reserva sob demanda é provisionada no momento em que você a solicita, se a capacidade solicitada estiver disponível. Uma reserva futura permite solicitar capacidade com antecedência. Recomendamos que você procure reservas futuras com bastante antecipação. Saiba mais em Reservas para recursos zonais do Compute Engine.

Criar uma reserva sob demanda de projeto único

  1. No console do Google Cloud, acesse a página Reservas.

    Acessar "Reservas"

  2. Na guia Reservas on demand (padrão), clique em Criar reserva.

    A página Criar uma reserva é aberta.

  3. Insira um Nome para a reserva.

  4. Selecione uma Região e uma Zona em que você quer reservar recursos.

  5. Em Tipo de compartilhamento, selecione Local, caso ainda não esteja selecionado.

  6. Para permitir que uma reserva de VMs de GPU seja consumida por jobs de treinamento personalizado ou de previsão da Vertex AI, na seção Serviços do Google Cloud, selecione Compartilhar reserva.

  7. Selecione uma opção Usar com instância de VM:

    • Para permitir que VMs correspondentes consumam essa reserva automaticamente, selecione Usar reserva automaticamente, se ainda não estiver selecionado.

    • Para consumir os recursos desta reserva apenas ao criar VMs correspondentes que visam especificamente essa reserva por nome, clique em Selecionar reserva específica.

  8. Insira o Número de instâncias de VM que você quer reservar.

  9. Na seção Configuração da máquina, faça o seguinte:

    1. Para especificar as propriedades das VMs com base em um modelo de instância, selecione Usar modelo de instância.

    2. Especifique um modelo de instância. Se você selecionar um modelo regional, só poderá reservar recursos nessa região.

  10. Para excluir a reserva automaticamente em um horário especificado, marque a caixa de seleção Ativar a exclusão automática. A exclusão automática de reservas pode ser útil para evitar cobranças desnecessárias quando você para de consumir a reserva.

  11. Para criar a reserva, clique em Criar.

    A página Reservas abre. A criação da reserva pode levar até um minuto.

Criar uma reserva futura de projeto único

  1. No console do Google Cloud, acesse a página Reservas.

    Acessar "Reservas"

  2. Clique na guia Reservas adiantadas.

  3. Clique em Criar reserva adiantada.

    A página Criar uma reserva adiantada abre.

  4. Em Nome, insira um nome para sua solicitação de reserva adiantada.

  5. Em Prefixo, digite um prefixo de nome. O nome de cada reserva criada automaticamente com base nessa solicitação de reserva adiantada começa com esse prefixo.

  6. Para Região e Zona, selecione a região e a zona em que os recursos serão reservados.

  7. Em Horário de início, insira um horário de início para o período de reserva. O horário de início não pode ser posterior a um ano da data e hora em que foi enviada uma solicitação de reserva adiantada para análise. Para ter tempo suficiente para modificar, cancelar ou excluir a reserva futura antes que ela entre no horário de bloqueio, especifique um valor recomendado para o horário de início.

  8. Em Horário de término, insira o horário de término do período de reserva de pelo menos 14 dias. Na seção Resumo da duração, é possível conferir a duração do período de reserva. Para aumentar a probabilidade de o Google Cloud aprovar sua solicitação de reserva futura depois de enviá-la para análise, especifique um valor recomendado para o período de reserva.

  9. Na seção Tipo de compartilhamento, selecione Local, caso ainda não esteja selecionado.

  10. Em Capacidade total necessária, insira a contagem total de VMs que você quer reservar para o período, a configuração da VM e os projetos especificados nesta solicitação de reserva futura.

  11. Na seção Configuração da máquina, faça o seguinte:

    1. Selecione Usar modelo de instância.

    2. Em Modelo de instância, selecione o modelo de instância que preferir. Se você selecionar um modelo de instância regional, só poderá reservar na mesma região que a do modelo.

  12. Na seção Exclusão automática de reservas geradas automaticamente, siga um destes procedimentos:

    • Para permitir que o Compute Engine exclua automaticamente as reservas criadas automaticamente para sua solicitação de reserva adiantada, realize estas ações:

      1. Clique no botão Ativar exclusão automática para ativar a opção, se ela ainda não estiver definida.

      2. Opcional: em Horário da exclusão automática, digite uma data e hora para excluir as reservas criadas automaticamente. A data e a hora precisam ser posteriores ao horário de término do período de reserva. Se você deixar esse campo em branco, as reservas criadas automaticamente serão excluídas em até duas horas após o horário de término do período de reserva.

    • Caso contrário, clique no botão de alternar Ativar exclusão automática para a posição desativada.

  13. Para concluir a criação do rascunho da solicitação de reserva futura, clique em Salvar rascunho.

A página Reservas abre. A criação da solicitação de reserva adiantada pode levar até um minuto para ser concluída.

Prepare-se para resolver problemas rapidamente durante o evento

A forma como você responde, categoriza e resolve incidentes de diferentes gravidades pode afetar significativamente suas operações durante um evento. Use um sistema centralizado de gerenciamento de incidentes para um rastreamento eficaz em todo o ciclo de vida do incidente.

Além de analisar seus contatos e ativar a Personalized Service Health, faça o seguinte:

  • Revise as práticas recomendadas ao trabalhar com o atendimento ao cliente
  • Criar um plano de comunicação
  • Garanta o acesso

Para mais informações, consulte Preparar-se para resolver problemas durante o evento.

Revisar seus contatos

Muitos Google Cloud produtos enviam notificações para compartilhar informações importantes com Google Cloud os usuários. Por padrão, essas notificações são enviadas para membros com determinados papéis de gerenciamento de identidade e acesso (IAM). Com os contatos essenciais, você pode personalizar quem recebe notificações fornecendo sua própria lista de contatos. Para saber mais, consulte Como gerenciar contatos para notificações.

  1. No console do Google Cloud, acesse a página IAM e administrador > Contatos essenciais.

    Acessar Contatos essenciais.

  2. Verifique se o nome do projeto, da pasta ou da organização aparece no seletor de recursos na barra de ferramentas do console. O seletor de recursos informa de qual projeto, pasta ou organização você está gerenciando contatos.

  3. Para listar os contatos por categoria, selecione Categoria. Para listar os contatos em ordem alfabética, selecione Contatos.

Ativar o Personalized Service Health

O Personalized Service Health permite identificar Google Cloud interrupções de serviço relevantes para seus projetos e gerenciá-las e responder a elas com eficiência. Para mais informações, consulte a Visão geral da Personalized Service Health.

Verifique se você ativou a API Service Health antes do evento e se a organização pode acessar o painel e configurar alertas. Para mais informações, consulte Gerenciar o acesso à Personalized Service Health.

  1. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  2. Enable the Service Health API.

    Enable the API

Gerenciar e otimizar recursos de nuvem

Gerenciar e otimizar os recursos usados pelas cargas de trabalho Google Cloud. Isso envolve dimensionar os recursos de acordo com o uso e a demanda reais, usando o escalonamento automático para alocação dinâmica de recursos e revisando as recomendações de arquitetura e segurança.

Além de analisar as recomendações do Active Assist, faça o seguinte:

  • Conferir Google Cloud as práticas recomendadas
  • Analisar a escalonabilidade
  • Analisar as versões do produto
  • Analisar alertas e painéis

Para mais informações, consulte Otimizar seus recursos de nuvem.

Analisar as recomendações do Active Assist

O Active Assist se refere ao portfólio de ferramentas usadas no Google Cloud para gerar recomendações e insights que ajudam a otimizar os projetos Google Cloud . Para mais informações, consulte O que é o Active Assist.

  1. No console do Google Cloud, acesse o Hub de recomendações.

    Acesse o hub de recomendações

  2. Usando o seletor de recursos na barra de ferramentas do console, selecione um Google Cloud projeto, uma pasta ou uma organização.

    Só será possível ver recomendações no nível da organização ou da pasta se você tiver permissões para essa organização ou pasta, independentemente das permissões para pastas ou projetos dentro dela.

  3. No painel de navegação, clique em Todas as recomendações.

    As recomendações que podem ser filtradas, classificadas e compartilhadas são exibidas. É possível conferir as recomendações em detalhes, ver quais recursos são afetados e qual impacto a aplicação de uma recomendação pode ter.

  4. Para saber mais sobre uma recomendação, clique em nela na coluna Recomendação.

    Os dados relevantes que podem ajudar você a decidir se vai aplicar ou dispensar a recomendação são mostrados.

  5. Se você tiver permissão, poderá aplicar ou dispensar uma recomendação clicando no botão correspondente.

    Algumas recomendações podem não ser diretamente aplicáveis. Siga as instruções detalhadas no console para aplicá-las.

Programar e realizar testes de carga

O teste de carga pode determinar se o sistema será escalonado durante o uso em produção e encontrar gargalos que impeçam o escalonamento.

  1. De três a cinco meses antes do evento, realize testes de carga em projetos e cargas de trabalho críticos para simular o pico de tráfego.

  2. Investigue as implicações de cota e custo dos testes de carga e considere criar alertas de orçamento do Cloud Billing que monitorarão as despesas dos serviços que você vai usar mais.

  3. Após cada teste, avalie os resultados e use o Planejador de Capacidade para visualizar seus dados de uso e previsão e solicitar aumentos de cota, conforme necessário. Neste documento, consulte Usar o planejador de capacidade e Solicitar um ajuste de cota.

Se precisar de ajuda, entre em contato com sua equipe de conta ou com o TAM. Eles podem ajudar você a capturar e planejar mudanças de arquitetura para melhorar a confiabilidade geral e a disponibilidade dos seus serviços.

Programar e realizar testes de recuperação de desastres

Se você tiver uma estratégia de recuperação de desastres (DR) robusta e bem testada, poderá minimizar o impacto das interrupções, conseguir tempos de recuperação mais rápidos e retomar as operações principais mais rapidamente quando algo der errado.

Sua estratégia de DR deve incluir requisitos detalhados de resposta a emergências, operações de backup e procedimentos de recuperação.

  1. Um a três meses antes do evento, faça simulações de cenários de desastre para identificar lacunas nos planos de DR e de preparação.

  2. Após cada teste, avalie os resultados para determinar se são necessárias mudanças de arquitetura. Revise e otimize os recursos conforme necessário. Neste documento, consulte Gerenciar e otimizar seus recursos de nuvem.

Sua equipe de contas ou TAM pode ajudar com os testes de DR e como entender e melhorar o processo de resposta a incidentes. Para mais informações, consulte o Guia de planejamento de recuperação de desastres.

Resumo dos recursos

A tabela a seguir lista os guias mencionados neste documento.

Entender as práticas recomendadas de gerenciamento de eventos
Solicitar e garantir a capacidade adequada para seu evento
Prepare-se para resolver problemas rapidamente durante o evento
Gerenciar e otimizar recursos de nuvem
Programar e realizar testes de carga
Programar e realizar testes de recuperação de desastres

A seguir