Framework com boa arquitetura: pilar de excelência operacional

O pilar de excelência operacional no Google Cloud framework bem arquitetado fornece recomendações para operar cargas de trabalho de maneira eficiente em Google Cloud. A excelência operacional na nuvem envolve projetar, implementar e gerenciar soluções de nuvem que ofereçam valor, desempenho, segurança e confiabilidade. As recomendações neste pilar ajudam a melhorar e adaptar continuamente as cargas de trabalho para atender às necessidades dinâmicas e em constante evolução na nuvem.

O pilar de excelência operacional é relevante para os seguintes públicos-alvo:

  • Gerentes e líderes: um framework para estabelecer e manter a excelência operacional na nuvem e garantir que os investimentos em nuvem agreguem valor e apoiem os objetivos de negócios.
  • Equipes de operações na nuvem: orientação para gerenciar incidentes e problemas, planejar capacidade, otimizar o desempenho e gerenciar mudanças.
  • Engenheiros de confiabilidade do site (SREs, na sigla em inglês): práticas recomendadas que ajudam a alcançar altos níveis de confiabilidade do serviço, incluindo monitoramento, resposta a incidentes e automação.
  • Arquitetos e engenheiros de nuvem: requisitos operacionais e práticas recomendadas para as fases de projeto e implementação, para ajudar a garantir que as soluções sejam projetadas para eficiência operacional e escalonabilidade.
  • Equipes de DevOps: orientações sobre automação, pipelines de CI/CD e gerenciamento de mudança para permitir uma entrega de software mais rápida e confiável.

Para alcançar a excelência operacional, adote a automação, orquestração e insights baseados em dados. A automação ajuda a eliminar tarefas repetitivas. Ele também simplifica e cria proteções em torno de tarefas repetitivas. A orquestração ajuda a coordenar processos complexos. Insights baseados em dados permitem tomada de decisões com base em evidências. Com essas práticas, é possível otimizar as operações na nuvem, reduzir custos, melhorar a disponibilidade do serviço e reforçar a segurança.

A excelência operacional na nuvem vai além da proficiência técnica em operações na nuvem. Isso inclui uma mudança cultural que incentiva o aprendizado e a experimentação contínuos. As equipes precisam ser capacitadas para inovar, iterar e adotar uma mentalidade de crescimento. Uma cultura de excelência operacional promove um ambiente colaborativo em que as pessoas são incentivadas a compartilhar ideias, desafiar suposições e promover melhorias.

Para ver princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: excelência operacional no framework bem arquitetado.

Princípios básicos

As recomendações no pilar de excelência operacional do framework bem-arquitetado são mapeadas de acordo com os seguintes princípios fundamentais:

  • Garantir a prontidão operacional e o desempenho usando o CloudOps: garanta que as soluções de nuvem atendam aos requisitos operacionais e de desempenho definindo objetivos de nível de serviço (SLOs) e realizando monitoramento abrangente, teste de desempenho e planejamento de capacidade.
  • Gerencie incidentes e problemas: minimize o impacto dos incidentes na nuvem e evite a recorrência com observabilidade abrangente, procedimentos claros de resposta a incidentes, retrospectivas completas e medidas preventivas.
  • Gerenciar e otimizar recursos da nuvem: otimize e gerencie recursos de nuvem por meio de estratégias como dimensionamento correto, escalonamento automático e uso de ferramentas eficazes de monitoramento de custos.
  • Automatizar e gerenciar mudanças: automatize processos, simplifique a gestão de mudanças e reduza a carga do trabalho manual.
  • Melhorar e inovar continuamente: concentre-se em melhorias contínuas e na introdução de novas soluções para manter a competitividade.

Colaboradores

Autores:

Outros colaboradores:

Garanta prontidão operacional e desempenho usando o CloudOps

Esse princípio do pilar de excelência operacional do Google Cloud framework bem arquitetado (em inglês) ajuda a garantir a prontidão operacional e o desempenho de suas cargas de trabalho na nuvem. Ele enfatiza o estabelecimento de expectativas e compromissos claros para o desempenho do serviço, a implementação de monitoramento e alertas robustos, a realização de testes de desempenho e o planejamento proativo das necessidades de capacidade.

Visão geral do princípio

Organizações diferentes podem interpretar a prontidão operacional de maneira diferente. A prontidão operacional é como sua organização se prepara para operar com êxito as cargas de trabalho no Google Cloud. A preparação para operar uma carga de trabalho complexa e multicamadas na nuvem requer um planejamento cuidadoso para as operações de go-live e do day-2. Essas operações são geralmente chamadas de CloudOps.

Focar as áreas de prontidão operacional

A prontidão operacional consiste em quatro áreas de foco. Cada área de foco consiste em um conjunto de atividades e componentes necessários para se preparar para operar um aplicativo ou ambiente complexo na Google Cloud. A tabela abaixo lista os componentes e as atividades de cada área de foco:

Área de foco de prontidão operacional Atividades e componentes
Funcionários
  • Definição de funções e responsabilidades claras para as equipes que gerenciam e operam os recursos da nuvem.
  • Garantir que os membros da equipe tenham habilidades apropriadas.
  • Desenvolver um programa de aprendizado.
  • Estabelecer uma estrutura de equipe clara.
  • Contratar o talento necessário.
Processos
  • Observabilidade.
  • Gerenciar interrupções de serviço.
  • do Google Cloud.
  • Principais operações da nuvem.
Ferramentas Ferramentas necessárias para oferecer suporte aos processos do CloudOps.
Governança
  • Níveis de serviço e relatórios.
  • finanças da nuvem.
  • modelo operacional do Google Cloud.
  • Conselhos de governança e revisão de arquitetura.
  • Arquitetura e conformidade da nuvem.

Recomendações

Para garantir prontidão e desempenho operacional usando o CloudOps, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Definir SLOs e SLAs

Uma responsabilidade principal da equipe de operações da nuvem é definir objetivos de nível de serviço (SLOs) e contratos de nível de serviço (SLAs) para todas as cargas de trabalho críticas. Essa recomendação é relevante para a área de foco da prontidão operacional da governança.

Os SLOs precisam ser específicos, mensuráveis, alcançáveis, relevantes e com prazo definido (SMART), além de refletir o nível de serviço e o desempenho que você quer.

  • Específico: detalha claramente o nível de serviço e desempenho necessário.
  • Mensurável: quantificável e rastreável.
  • Atingível: atingível dentro dos limites das capacidades e recursos da sua organização.
  • Relevante: alinhado com as metas e prioridades da empresa.
  • Com duração definida: tem um período definido para medição e avaliação.

Por exemplo, um SLO de um aplicativo da Web pode ser "99,9% de disponibilidade" ou "tempo médio de resposta inferior a 200 ms". Esses SLOs definem claramente o nível de serviço e desempenho necessários para o aplicativo da Web. Além disso, os SLOs podem ser medidos e rastreados ao longo do tempo.

Os SLAs descrevem os compromissos com os clientes em relação à disponibilidade, desempenho e suporte do serviço, incluindo quaisquer penalidades ou medidas judiciais por não conformidade. Os SLAs precisam incluir detalhes específicos sobre os serviços prestados, o nível de serviço esperado, as responsabilidades do provedor de serviços e do cliente e as penalidades ou medidas de correção em caso de não conformidade. Os SLAs servem como um acordo contratual entre as duas partes, garantindo que ambas tenham um entendimento claro das expectativas e obrigações associadas ao serviço de nuvem.

Google Cloud fornece ferramentas como o Cloud Monitoring e os indicadores de nível de serviço (SLIs) para ajudar a definir e rastrear SLOs. O Cloud Monitoring fornece recursos abrangentes de monitoramento e observabilidade que permitem que sua organização colete e analise métricas relacionadas à disponibilidade, desempenho e latência de aplicativos e serviços baseados na nuvem. Os SLIs são métricas específicas que podem ser usadas para medir e rastrear SLOs ao longo do tempo. Com essas ferramentas, é possível monitorar e gerenciar serviços em nuvem com eficiência e garantir que eles atendam aos SLOs e SLAs.

Definir e comunicar claramente SLOs e SLAs para todos os seus serviços essenciais na nuvem ajuda a garantir a confiabilidade e o desempenho dos aplicativos e serviços implantados.

Implementar observabilidade abrangente

Para ter visibilidade em tempo real da integridade e do desempenho do seu ambiente de nuvem, recomendamos usar uma combinação de ferramentas de observabilidade do Google Cloud e soluções de terceiros. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

A implementação de uma combinação de soluções de observabilidade oferece uma estratégia abrangente de observabilidade que abrange vários aspectos da infraestrutura e dos aplicativos em nuvem. O Google Cloud Observability é uma plataforma unificada para coletar, analisar e visualizar métricas, registros e traces de vários Google Cloud serviços, aplicativos e fontes externas. Ao usar o Cloud Monitoring, é possível ter insights sobre a utilização de recursos, as características de desempenho e a integridade geral de seus recursos.

Para garantir um monitoramento abrangente, monitore métricas importantes alinhadas aos indicadores de integridade do sistema, como utilização da CPU, uso de memória, tráfego de rede, E/S de disco e tempos de resposta do aplicativo. Você também precisa considerar métricas específicas da empresa. Ao acompanhar essas métricas, você identifica possíveis gargalos, problemas de desempenho e restrições de recursos. Além disso, é possível configurar alertas para notificar as equipes relevantes de maneira proativa sobre possíveis problemas ou anomalias.

Para melhorar ainda mais os recursos de monitoramento, é possível integrar soluções de terceiros com a observabilidade do Google Cloud. Essas soluções podem fornecer outras funcionalidades, como análises avançadas, detecção de anomalias com tecnologia de machine learning e recursos de gerenciamento de incidentes. Essa combinação de ferramentas de observabilidade do Google Cloud e soluções de terceiros permite criar um ecossistema de monitoramento robusto e personalizável, adaptado às suas necessidades específicas. Com essa abordagem de combinação, é possível identificar e resolver problemas de maneira proativa, otimizar a utilização de recursos e garantir a disponibilidade e a confiabilidade geral dos aplicativos e serviços em nuvem.

Implementar testes de desempenho e carga

A realização de testes de desempenho regulares ajuda a garantir que a infraestrutura e os aplicativos baseados em nuvem possam lidar com os picos de carga e manter o desempenho ideal. O teste de carga simula padrões de tráfego realistas. O teste de estresse leva o sistema ao limite para identificar possíveis gargalos e limitações de desempenho. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

Ferramentas como o Cloud Load Balancing e os serviços de teste de carga podem ajudar a simular padrões de tráfego reais e realizar testes de estresse nos aplicativos. Essas ferramentas fornecem insights valiosos sobre como o sistema se comporta em várias condições de carga e podem ajudar a identificar áreas que exigem otimização.

Com base nos resultados do teste de desempenho, é possível tomar decisões para otimizar a infraestrutura e os aplicativos em nuvem para melhor desempenho e escalonabilidade. Essa otimização pode envolver o ajuste da alocação de recursos, das configurações ou da implementação de mecanismos de armazenamento em cache.

Por exemplo, se você achar que o aplicativo está passando por lentidão durante períodos de alto tráfego, talvez seja necessário aumentar o número de máquinas virtuais ou contêineres alocados para o aplicativo. Como alternativa, pode ser necessário ajustar a configuração do seu servidor da Web ou banco de dados para melhorar o desempenho.

Ao realizar testes de desempenho regularmente e implementar as otimizações necessárias, você garante que os aplicativos e a infraestrutura baseados em nuvem sejam sempre executados com o melhor desempenho e ofereçam uma experiência contínua e responsiva aos usuários. Isso ajuda você a manter uma vantagem competitiva e ganhar a confiança dos seus clientes.

Planejar e gerenciar a capacidade

O planejamento proativo para futuras necessidades de capacidade, orgânicas ou inorgânicas, ajuda a garantir a operação e a escalonabilidade tranquilas dos seus sistemas baseados na nuvem. Essa recomendação é relevante para a área de foco da prontidão operacional dos processos.

Planejar a capacidade futura inclui entender e gerenciar cotas para vários recursos, como instâncias de computação, armazenamento e solicitações de API. Ao analisar os padrões históricos de uso, as projeções de crescimento e os requisitos de negócios, é possível antecipar com precisão os requisitos de capacidade futuros. É possível usar ferramentas como o Cloud Monitoring e o BigQuery para coletar e analisar dados de uso, identificar tendências e prever demandas futuras.

Os padrões de uso históricos fornecem insights valiosos sobre a utilização de recursos ao longo do tempo. Examine métricas como utilização de CPU, uso de memória e tráfego de rede para identificar períodos de alta demanda e possíveis gargalos. Além disso, você pode estimar as necessidades futuras de capacidade fazendo projeções de crescimento com base em fatores como crescimento da base de usuários, novos produtos e recursos e campanhas de marketing. Ao avaliar as necessidades de capacidade, considere também requisitos de negócios, como SLAs e metas de desempenho.

Ao determinar o dimensionamento dos recursos para uma carga de trabalho, pense em fatores que podem afetar a utilização deles. Variações sazonais, como períodos de compras de fim de ano ou vendas no final do trimestre, podem levar a picos temporários na demanda. Eventos planejados, como lançamentos de produtos ou campanhas de marketing, também podem aumentar significativamente o tráfego. Para garantir que o sistema principal e de recuperação de desastres (DR) possa lidar com picos inesperados de demanda, planeje uma capacidade que possa oferecer suporte a um failover simples durante interrupções como desastres naturais e ataques cibernéticos.

O escalonamento automático é uma estratégia importante para ajustar dinamicamente os recursos de nuvem com base nas flutuações da carga de trabalho. Ao usar políticas de escalonamento automático, é possível escalonar automaticamente instâncias de computação, armazenamento e outros recursos em resposta à mudança na demanda. Isso garante o desempenho ideal durante períodos de pico e minimiza os custos quando a utilização dos recursos é baixa. Os algoritmos de escalonamento automático usam métricas como utilização de CPU, uso de memória e profundidade da fila para determinar quando escalonar recursos.

Monitorar e otimizar continuamente

Para gerenciar e otimizar cargas de trabalho na nuvem, estabeleça um processo para monitorar e analisar continuamente as métricas de desempenho. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

Para estabelecer um processo de monitoramento e análise contínuos, rastreie, colete e avalie dados relacionados a vários aspectos do ambiente de nuvem. Ao usar esses dados, é possível identificar proativamente áreas de melhoria, otimizar a utilização de recursos e garantir que a infraestrutura em nuvem atenda ou exceda de maneira consistente as expectativas de desempenho.

Um aspecto importante do monitoramento de desempenho é analisar regularmente os registros e rastreamentos. Os registros fornecem informações valiosas sobre eventos, erros e avisos do sistema. Os traces fornecem informações detalhadas sobre o fluxo de solicitações pelo aplicativo. Ao analisar registros e traces, é possível identificar possíveis problemas, identificar as causas raiz dos problemas e entender melhor como os aplicativos se comportam em diferentes condições. Métricas como o tempo de ida e volta entre os serviços podem ajudar a identificar e entender os gargalos que estão nas suas cargas de trabalho.

Além disso, é possível usar técnicas de ajuste de desempenho para melhorar significativamente os tempos de resposta do aplicativo e a eficiência geral. Confira a seguir exemplos de técnicas que podem ser usadas:

  • Armazenamento em cache: armazene dados acessados com frequência na memória para reduzir a necessidade de repetidas consultas de banco de dados ou chamadas de API.
  • Otimização de banco de dados: use técnicas como indexação e otimização de consultas para melhorar o desempenho das operações do banco de dados.
  • Criação de perfil de código: identifique áreas do código que consomem recursos em excesso ou causam problemas de desempenho.

Ao aplicar essas técnicas, você pode otimizar seus aplicativos e garantir que eles sejam executados de maneira eficiente na nuvem.

Gerenciar incidentes e problemas

Esse princípio do pilar de excelência operacional do Google Cloud framework bem arquitetado fornece recomendações para ajudar a gerenciar incidentes e problemas relacionados às cargas de trabalho na nuvem. Isso envolve a implementação de monitoramento e observabilidade abrangentes, o estabelecimento de procedimentos claros de resposta a incidentes, a realização de uma análise detalhada da causa raiz e a implementação de medidas preventivas. Muitos dos tópicos discutidos nesse princípio são abordados em detalhes no pilar Confiabilidade.

Visão geral do princípio

A gestão de incidentes e a gestão de problemas são componentes importantes de um ambiente de operações funcionais. A forma como você responde, categoriza e resolve incidentes de diferentes gravidades pode afetar significativamente as operações. Você também precisa fazer ajustes de forma proativa e contínua para otimizar a confiabilidade e o desempenho. Um processo eficiente de gerenciamento de incidentes e problemas depende dos seguintes elementos fundamentais:

  • Monitoramento contínuo: identifique e resolva problemas rapidamente.
  • Automação: simplifique tarefas e melhore a eficiência.
  • Orquestração: coordene e gerencie recursos de nuvem com eficiência.
  • Insights baseados em dados: otimize as operações na nuvem e tome decisões fundamentadas.

Esses elementos ajudam a criar um ambiente de nuvem resiliente que pode lidar com uma ampla gama de desafios e interrupções. Esses elementos também podem ajudar a reduzir o risco de incidentes e inatividade caros, além de ajudar você a ter mais agilidade e sucesso nos negócios. Esses elementos fundamentais estão distribuídos nas quatro áreas de foco da prontidão operacional: força de trabalho, processos, ferramentas e governança.

Recomendações

Para gerenciar incidentes e problemas de maneira eficaz, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Estabelecer procedimentos claros de resposta a incidentes

Responsabilidades e funções claras são essenciais para garantir uma resposta eficaz e coordenada a incidentes. Além disso, protocolos de comunicação claros e caminhos de encaminhamento ajudam a garantir que as informações sejam compartilhadas de forma rápida e eficaz durante um incidente. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: força de trabalho, processos e ferramentas.

Para estabelecer procedimentos de resposta a incidentes, você precisa definir os papéis e as expectativas de cada membro da equipe, como comandantes de incidentes, investigadores, comunicadores e especialistas técnicos. Estabelecer caminhos de comunicação e encaminhamento inclui a identificação de contatos importantes, a configuração de canais de comunicação e a definição do processo para encaminhar incidentes para níveis mais altos de gerenciamento, quando necessário. O treinamento e a preparação regulares ajudam a garantir que as equipes estejam equipadas com o conhecimento e as habilidades para responder a incidentes de maneira eficaz.

Ao documentar os procedimentos de resposta a incidentes em um runbook ou playbook, é possível fornecer um guia de referência padronizado para as equipes seguirem durante um incidente. O runbook precisa descrever as etapas a serem seguidas em cada estágio do processo de resposta a incidentes, incluindo comunicação, triagem, investigação e resolução. Eles também precisam incluir informações sobre ferramentas e recursos relevantes e dados de contato de pessoal importante. É preciso revisar e atualizar regularmente o runbook para garantir que ele permaneça atual e eficaz.

Centralizar o gerenciamento de incidentes

Para rastreamento e gerenciamento eficazes durante todo o ciclo de vida do incidente, considere o uso de um sistema centralizado de gerenciamento de incidentes. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

Um sistema centralizado de gerenciamento de incidentes oferece as seguintes vantagens:

  • Melhor visibilidade: ao consolidar todos os dados relacionados a incidentes em um único local, você elimina a necessidade das equipes de pesquisar em vários canais ou sistemas para contextualizar. Essa abordagem economiza tempo e reduz a confusão, além de oferecer às partes interessadas uma visão abrangente do incidente, incluindo status, impacto e progresso.
  • Melhor coordenação e colaboração: um sistema centralizado fornece uma plataforma unificada para comunicação e gerenciamento de tarefas. Ela promove a colaboração contínua entre os diferentes departamentos e funções envolvidos na resposta a incidentes. Essa abordagem garante que todos tenham acesso a informações atualizadas e reduz o risco de falhas de comunicação e desalinhamentos.
  • Responsabilidade e propriedade aprimoradas: um sistema centralizado de gerenciamento de incidentes permite que a organização aloque tarefas para indivíduos ou equipes específicas e garante que as responsabilidades sejam claramente definidas e rastreadas. Essa abordagem promove responsabilidade e incentiva a resolução proativa de problemas, porque os membros da equipe podem monitorar facilmente o progresso e as contribuições.

Um sistema centralizado de gerenciamento de incidentes precisa oferecer recursos robustos para rastreamento de incidentes, atribuição de tarefas e gerenciamento de comunicações. Esses recursos permitem personalizar fluxos de trabalho, definir prioridades e fazer a integração com outros sistemas, como ferramentas de monitoramento e sistemas de tíquetes.

Ao implementar um sistema centralizado de gerenciamento de incidentes, você pode otimizar os processos de resposta a incidentes da sua organização, melhorar a colaboração e aumentar a visibilidade. Isso acelera os tempos de resolução de incidentes, a inatividade e o aumento da satisfação do cliente. Também ajuda a promover uma cultura de melhoria contínua, porque é possível aprender com incidentes anteriores e identificar áreas de melhoria.

Conduzir análises pós-incidentes completas

Depois que um incidente ocorre, é preciso realizar uma análise pós-incidente (PIR, na sigla em inglês) detalhada, também conhecida como post-mortem, para identificar a causa raiz, os fatores de contribuição e as lições aprendidas. Esta revisão detalhada ajuda a evitar incidentes semelhantes no futuro. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: processos e governança.

O processo de PIR precisa envolver uma equipe multidisciplinar com experiência em vários aspectos do incidente. A equipe precisa reunir todas as informações relevantes em entrevistas, revisão da documentação e inspeções do local. É preciso criar uma linha do tempo de eventos para estabelecer a sequência de ações que levaram ao incidente.

Depois de coletar as informações necessárias, a equipe precisa realizar uma análise de causa raiz para determinar os fatores que levaram ao incidente. Essa análise precisa identificar a causa imediata e os problemas sistêmicos que contribuíram para o incidente.

Além de identificar a causa raiz, a equipe de PIR precisa identificar quaisquer outros fatores que podem ter causado o incidente. Esses fatores podem incluir erro humano, falha de equipamento ou fatores organizacionais, como falhas de comunicação e falta de treinamento.

O relatório PIR precisa documentar as descobertas da investigação, incluindo o cronograma dos eventos, a análise da causa raiz e as ações recomendadas. O relatório é um recurso valioso para implementar ações corretivas e evitar a recorrência. O relatório precisa ser compartilhado com todas as partes interessadas relevantes e precisa ser usado para desenvolver treinamentos e procedimentos de segurança.

Para garantir um processo PIR bem-sucedido, sua organização precisa promover uma cultura sem apontar culpados que se concentre no aprendizado e na melhoria, em vez de atribuir culpados. Essa cultura incentiva as pessoas a denunciar incidentes sem medo de retribuição e permite resolver problemas sistêmicos e fazer melhorias significativas.

Ao conduzir PIRs minuciosos e implementar medidas corretivas com base nas descobertas, você pode reduzir significativamente o risco de incidentes semelhantes que ocorrerem no futuro. Essa abordagem proativa para investigação e prevenção de incidentes ajuda a criar um ambiente de trabalho mais seguro e eficiente para todos os envolvidos.

Manter uma base de conhecimento

Uma base de conhecimento de problemas conhecidos, soluções e guias de solução de problemas é essencial para o gerenciamento e a resolução de incidentes. Os membros da equipe podem usar a base de conhecimento para identificar e resolver rapidamente problemas comuns. A implementação de uma base de conhecimento ajuda a reduzir a necessidade de encaminhamento para um supervisor e melhora a eficiência geral. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: força de trabalho e processos.

O principal benefício de uma base de conhecimento é que ela permite que as equipes aprendam com experiências passadas e evitem erros repetidos. Ao capturar e compartilhar soluções para problemas conhecidos, as equipes podem construir uma compreensão coletiva de como resolver problemas comuns e práticas recomendadas para a gestão de incidentes. O uso de uma base de conhecimento economiza tempo e esforço, além de ajudar a padronizar os processos e a garantir a consistência na resolução de incidentes.

Além de ajudar a melhorar os tempos de resolução de incidentes, uma base de conhecimento promove o compartilhamento de conhecimento e a colaboração entre equipes. Com um repositório central de informações, as equipes podem acessar e contribuir facilmente para a base de conhecimento, o que promove uma cultura de aprendizado e melhoria contínuos. Essa cultura incentiva as equipes a compartilhar conhecimentos e experiências, o que leva a uma base de conhecimento mais abrangente e valiosa.

Para criar e gerenciar uma base de conhecimento de maneira eficaz, use ferramentas e tecnologias apropriadas. Plataformas de colaboração como o Google Workspace são adequadas para essa finalidade porque permitem criar, editar e compartilhar documentos de maneira colaborativa. Essas ferramentas também são compatíveis com controle de versões e rastreamento de alterações, o que garante que a base de conhecimento permaneça atualizada e precisa.

Torne a base de conhecimento facilmente acessível para todas as equipes relevantes. Para isso, integre a base de conhecimento aos sistemas de gerenciamento de incidentes existentes ou forneça um portal dedicado ou site de intranet. Com uma base de conhecimento prontamente disponível, as equipes podem acessar rapidamente as informações necessárias para resolver incidentes de forma eficiente. Isso reduz a inatividade e minimiza o impacto nas operações comerciais.

Revise e atualize regularmente a base de conhecimento para garantir que ela continue relevante e útil. Monitorar relatórios de incidentes, identificar problemas e tendências comuns e incorporar novas soluções e guias de solução de problemas à base de conhecimento. Uma base de conhecimento atualizada ajuda suas equipes a resolver incidentes com mais rapidez e eficácia.

Automatizar a resposta a incidentes

A automação simplifica a resposta a incidentes e os processos de correção. Ele permite resolver violações de segurança e falhas do sistema de forma imediata e eficiente. Ao usar produtos Google Cloud como as funções do Cloud Run ou o Cloud Run, é possível automatizar várias tarefas que normalmente são manuais e demoradas. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

A resposta automatizada a incidentes oferece os seguintes benefícios:

  • Redução nos tempos de detecção e resolução de incidentes: as ferramentas automatizadas podem monitorar continuamente sistemas e aplicativos, detectar atividades suspeitas ou anômalas em tempo real e notificar as partes interessadas ou responder sem intervenção. Essa automação identifica possíveis ameaças ou problemas antes que se tornem grandes incidentes. Quando um incidente é detectado, as ferramentas automatizadas podem acionar ações de correção predefinidas, como isolar sistemas afetados, colocar arquivos maliciosos em quarentena ou reverter alterações para restaurar o sistema a um bom estado conhecido.
  • Carga reduzida das equipes de segurança e operações: a resposta automatizada a incidentes permite que as equipes de segurança e operações se concentrem em tarefas mais estratégicas. Com a automação de tarefas rotineiras e repetitivas, como a coleta de informações de diagnóstico ou o acionamento de alertas, sua organização pode liberar a equipe para lidar com incidentes mais complexos e críticos. Essa automação pode melhorar a eficácia e a eficiência geral da resposta a incidentes.
  • Consistência e precisão aprimoradas do processo de correção: ferramentas automatizadas podem garantir que as ações de correção sejam aplicadas de maneira uniforme em todos os sistemas afetados, minimizando o risco de erro humano ou inconsistência. Essa padronização do processo de correção ajuda a minimizar o impacto dos incidentes nos usuários e nos negócios.

Gerenciar e otimizar recursos da nuvem

Esse princípio do pilar de excelência operacional do Google Cloud framework bem arquitetado fornece recomendações para ajudar a gerenciar e otimizar os recursos usados pelas cargas de trabalho na nuvem. Isso envolve dimensionar recursos corretamente com base no uso e na demanda reais, usar escalonamento automático para alocação dinâmica de recursos, implementar estratégias de otimização de custos e revisar regularmente a utilização e os custos dos recursos. Muitos dos tópicos discutidos nesse princípio são abordados em detalhes no pilar Otimização de custos.

Visão geral do princípio

O gerenciamento e a otimização de recursos da nuvem desempenham um papel vital na otimização dos gastos da nuvem, do uso de recursos e da eficiência da infraestrutura. Ele inclui várias estratégias e práticas recomendadas destinadas a maximizar o valor e o retorno dos seus gastos na nuvem.

O foco desse pilar na otimização vai além da redução de custos. Ele enfatiza os seguintes objetivos:

  • Eficiência: o uso de automação e análise de dados para alcançar o pico de desempenho e a economia de custos.
  • Desempenho: escalone recursos sem esforço para atender às demandas variáveis e entregar os melhores resultados.
  • Escalonabilidade: adaptação da infraestrutura e dos processos para acomodar crescimento rápido e diversas cargas de trabalho.

Ao focar nessas metas, você alcança um equilíbrio entre custo e funcionalidade. É possível tomar decisões embasadas sobre provisionamento, escalonamento e migração de recursos. Além disso, você recebe insights valiosos sobre padrões de consumo de recursos, o que permite identificar e resolver problemas em potencial de maneira proativa antes que eles sejam encaminhados.

Recomendações

Para gerenciar e otimizar recursos, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Adequam os recursos

Monitorar continuamente a utilização de recursos e ajustar a alocação deles para corresponder à demanda real são essenciais para o gerenciamento eficiente dos recursos em nuvem. O provisionamento excessivo de recursos pode levar a custos desnecessários, e o subprovisionamento pode causar gargalos de desempenho que afetam o desempenho do aplicativo e a experiência do usuário. Para alcançar o equilíbrio ideal, adote uma abordagem proativa ao dimensionar corretamente os recursos de nuvem. Essa recomendação é relevante para a área de foco de prontidão operacional da governança.

O Cloud Monitoring e o Recomendador podem ajudar a identificar oportunidades de dimensionamento. O Cloud Monitoring fornece visibilidade em tempo real das métricas de utilização de recursos. Essa visibilidade permite rastrear os padrões de uso dos recursos e identificar possíveis ineficiências. O recomendador analisa os dados de utilização de recursos para fazer recomendações inteligentes a fim de otimizar a alocação de recursos. Com essas ferramentas, é possível receber insights sobre o uso de recursos e tomar decisões informadas sobre o dimensionamento correto deles.

Além do Cloud Monitoring e do Recomendador, considere usar métricas personalizadas para acionar ações automatizadas de dimensionamento. Com as métricas personalizadas, é possível rastrear métricas de utilização de recursos específicas relevantes para aplicativos e cargas de trabalho. Também é possível configurar alertas para notificar os administradores quando os limites predefinidos forem atingidos. Os administradores podem tomar as medidas necessárias para ajustar a alocação de recursos. Essa abordagem proativa garante que os recursos sejam escalonados em tempo hábil, o que ajuda a otimizar os custos da nuvem e evitar problemas de desempenho.

Use o escalonamento automático.

O escalonamento automático de computação e outros recursos ajuda a garantir o desempenho ideal e a eficiência de custos dos aplicativos com base na nuvem. Com o escalonamento automático, é possível ajustar dinamicamente a capacidade dos recursos com base nas variações de carga de trabalho. Assim, você tem os recursos necessários quando precisa deles e evita o provisionamento excessivo e os custos desnecessários. Essa recomendação é relevante para a área de foco de prontidão operacional dos processos.

Para atender às diversas necessidades de diferentes aplicativos e cargas de trabalho, oGoogle Cloud oferece várias opções de escalonamento automático, incluindo:

  • Os grupos gerenciados de instâncias (MIGs) do Compute Engine são grupos de VMs gerenciadas e escalonadas como uma única entidade. Com os MIGs, é possível definir políticas de escalonamento automático que especifiquem os números mínimo e máximo de VMs a serem mantidas no grupo e as condições que acionam o escalonamento automático. Por exemplo, é possível configurar uma política para adicionar VMs em um MIG quando a utilização da CPU atingir um determinado limite e para remover VMs quando a utilização ficar abaixo de um limite diferente.
  • O escalonamento automático do Google Kubernetes Engine (GKE) ajusta dinamicamente os recursos do cluster para atender às necessidades do aplicativo. Ele oferece as seguintes ferramentas:

    • O escalonador automático de clusters adiciona ou remove nós com base nas demandas de recursos do pod.
    • O escalonador automático horizontal de pods altera o número de réplicas de pods com base na CPU, na memória ou em métricas personalizadas.
    • O escalonador automático vertical de pods ajusta as solicitações e os limites de recursos do pod com base nos padrões de uso.
    • O provisionamento automático de nós cria automaticamente pools de nós otimizados para suas cargas de trabalho.

    Essas ferramentas trabalham juntas para otimizar a utilização de recursos, garantir o desempenho do aplicativo e simplificar o gerenciamento de clusters.

  • O Cloud Run é uma plataforma sem servidor que permite executar códigos sem precisar gerenciar a infraestrutura. O Cloud Run oferece escalonamento automático integrado, que ajusta automaticamente o número de instâncias com base no tráfego de entrada. Quando o volume de tráfego aumenta, o Cloud Run escalona verticalmente o número de instâncias para lidar com a carga. Quando o tráfego diminui, o Cloud Run reduz o número de instâncias para reduzir os custos.

Ao usar essas opções de escalonamento automático, você garante que os aplicativos baseados na nuvem tenham os recursos necessários para lidar com cargas de trabalho variadas, evitando o provisionamento excessivo e os custos desnecessários. O uso de escalonamento automático pode melhorar o desempenho, reduzir os custos e aumentar a eficiência dos recursos da nuvem.

Aproveite estratégias de otimização de custos

Otimizar os gastos da nuvem ajuda você a gerenciar com eficiência os orçamentos de TI da sua organização. Essa recomendação é relevante para a área de foco da prontidão operacional da governança.

OGoogle Cloud oferece várias ferramentas e técnicas para otimizar os custos da nuvem. Ao usar essas ferramentas e técnicas, você aproveita ao máximo seus gastos com a nuvem. Essas ferramentas e técnicas ajudam a identificar áreas em que os custos podem ser reduzidos, como identificar recursos subutilizados ou recomendar tipos de instância mais econômicos. Google Cloud As opções para otimizar os custos da nuvem incluem:

Os modelos de preços podem mudar com o tempo e podem ser introduzidos novos recursos que oferecem melhor desempenho ou menor custo em comparação com as opções atuais. Portanto, revise regularmente os modelos de preços e considere recursos alternativos. Ao manter-se informado sobre os modelos de preços e recursos mais recentes, é possível tomar decisões informadas sobre sua arquitetura de nuvem para minimizar custos.

As ferramentas de gerenciamento de custos daGoogle Cloud, como orçamentos e alertas, fornecem insights valiosos sobre os gastos na nuvem. Orçamentos e alertas permitem que os usuários definam orçamentos e recebam alertas quando os orçamentos forem excedidos. Elas ajudam os usuários a monitorar os gastos na nuvem e identificar onde é possível reduzir os custos.

Monitorar o uso de recursos e os custos

É possível usar inclusão de tags e rotulagem para rastrear o uso de recursos e os custos. É possível categorizar e organizar os recursos ao atribuir tags e rótulos aos recursos da nuvem, como projetos, departamentos ou outras dimensões relevantes. Isso permite monitorar e analisar padrões de gastos de recursos específicos e identificar áreas de alto uso ou possível economia de custos. Essa recomendação é relevante para estas áreas de foco da prontidão operacional: governança e ferramentas.

Ferramentas como o Faturamento do Cloud e o Gerenciamento de custos ajudam você a entender seus padrões de gastos. Essas ferramentas fornecem insights detalhados sobre o uso da nuvem e permitem identificar tendências, prever custos e tomar decisões fundamentadas. Ao analisar os dados históricos e os padrões atuais de gastos, você pode identificar as áreas de foco para suas iniciativas de otimização de custos.

Os painéis e relatórios personalizados ajudam você a visualizar dados de custo e receber insights mais detalhados sobre tendências de gastos. Ao personalizar painéis com métricas e dimensões relevantes, você pode monitorar os indicadores principais de desempenho (KPIs) e acompanhar o progresso das suas metas de otimização de custos. Os relatórios oferecem análises mais detalhadas dos dados de custo. Com os relatórios, é possível filtrar os dados por períodos específicos ou tipos de recurso para entender os fatores subjacentes que contribuem para seus gastos na nuvem.

Revise e atualize regularmente tags, rótulos e ferramentas de análise de custos para garantir que você tenha as informações mais atualizadas sobre uso e custos da nuvem. Ao manter-se informado e realizar análises de custos proativas ou análises post-mortem, é possível identificar imediatamente qualquer aumento inesperado nos gastos. Isso permite que você tome decisões proativas para otimizar recursos de nuvem e controlar custos.

Estabelecer a alocação de custos e o orçamento

Responsabilidade e transparência no gerenciamento de custos da nuvem são cruciais para otimizar a utilização de recursos e garantir o controle financeiro. Essa recomendação é relevante para a área de foco de prontidão operacional da governança.

Para garantir responsabilidade e transparência, você precisa ter mecanismos claros de alocação e estorno de custos. Ao alocar custos a equipes, projetos ou indivíduos específicos, sua organização pode garantir que cada uma dessas entidades seja responsável pelo uso da nuvem. Essa prática promove um senso de propriedade e incentiva o gerenciamento responsável de recursos. Além disso, os mecanismos de estorno permitem que sua organização recupere os custos de nuvem de clientes internos, alinhe incentivos com o desempenho e promova a disciplina fiscal.

Estabelecer orçamentos para diferentes equipes ou projetos é outro aspecto essencial do gerenciamento de custos da nuvem. Os orçamentos permitem que a organização defina limites de gastos e controle os gastos reais em relação a esses limites. Essa abordagem permite tomar decisões proativas para evitar gastos não controlados. Ao definir orçamentos realistas e alcançáveis, é possível garantir que os recursos da nuvem sejam usados de maneira eficiente e alinhados com os objetivos de negócios. O monitoramento regular dos gastos reais em relação aos orçamentos ajuda a identificar variações e resolver possíveis excedentes com rapidez.

Para monitorar orçamentos, use ferramentas como orçamentos e alertas do Cloud Billing. Essas ferramentas fornecem insights em tempo real sobre os gastos na nuvem e notificam as partes interessadas sobre possíveis excedentes. Ao usar esses recursos, é possível rastrear os custos da nuvem e tomar ações corretivas antes que ocorram desvios significativos. Essa abordagem proativa ajuda a evitar surpresas financeiras e garante o uso responsável dos recursos de nuvem.

Automatizar e gerenciar mudanças

Esse princípio do pilar de excelência operacional do Google Cloud framework bem arquitetado fornece recomendações para ajudar a automatizar e gerenciar mudanças nas cargas de trabalho da nuvem. Isso envolve implementar infraestrutura como código (IaC), estabelecer procedimentos operacionais padrão, implementar um processo de gestão da mudança estruturado e usar automação e orquestração.

Visão geral do princípio

A gestão da mudança e a automação desempenham um papel crucial para garantir transições suaves e controladas nos ambientes de nuvem. Para uma gestão da mudança eficaz, é preciso usar estratégias e práticas recomendadas que minimizem interrupções e garantam que as alterações sejam integradas perfeitamente aos sistemas atuais.

A gestão da mudança e a automação eficazes incluem os seguintes elementos fundamentais:

  • Governança da mudança: estabeleça políticas e procedimentos claros para a gestão de mudanças, incluindo processos de aprovação e planos de comunicação.
  • Avaliação de risco: identifique os riscos potenciais associados a mudanças e os reduza com técnicas de gestão de riscos.
  • Teste e validação: teste cuidadosamente as alterações para garantir que elas atendam aos requisitos funcionais e de desempenho e reduzam possíveis regressões.
  • Implantação controlada: implemente alterações de maneira controlada, garantindo que os usuários sejam transferidos sem problemas para o novo ambiente, com mecanismos para reverter sem problemas, se necessário.

Esses elementos fundamentais ajudam a minimizar o impacto das mudanças e garantir que elas tenham um efeito positivo nas operações comerciais. Esses elementos são representados pelas áreas de foco de prontidão operacional de processos, ferramentas e governança.

Recomendações

Para automatizar e gerenciar mudanças, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Adote a IaC

A infraestrutura como código (IaC, na sigla em inglês) é uma abordagem transformadora para gerenciar a infraestrutura em nuvem. É possível definir e gerenciar a infraestrutura em nuvem de maneira declarativa usando ferramentas como o Terraform. A IaC ajuda a alcançar consistência, capacidade de repetição e gestão de mudança simplificada. Ele também permite implantações mais rápidas e confiáveis. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

Confira a seguir os principais benefícios de adotar a abordagem de IaC em implantações na nuvem:

  • Configurações de recursos legíveis por humanos: com a abordagem de IaC, é possível declarar os recursos de infraestrutura em nuvem em um formato legível por humanos, como JSON ou YAML. Os administradores e operadores de infraestrutura podem entender e modificar facilmente a infraestrutura e colaborar com outros.
  • Consistência e repetibilidade: a IaC permite consistência e repetibilidade nas implantações de infraestrutura. É possível garantir que sua infraestrutura seja provisionada e configurada da mesma maneira todas as vezes, independentemente de quem esteja executando a implantação. Essa abordagem ajuda a reduzir erros e garante que sua infraestrutura esteja sempre em um estado conhecido.
  • Responsabilidade e solução de problemas simplificada: a abordagem de IaC ajuda a melhorar a responsabilidade e facilita a solução de problemas. Ao armazenar o código IaC em um sistema de controle de versões, é possível acompanhar as alterações e identificar quando elas foram feitas e por quem. Se necessário, é fácil reverter para versões anteriores.

Implementar o controle de versão

Um sistema de controle de versões como o Git é um componente essencial do processo de IaC. Ela fornece recursos robustos de gestão de mudanças e redução de riscos, e é por isso que é amplamente adotado, seja por desenvolvimento interno ou soluções SaaS. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: governança e ferramentas.

Ao rastrear alterações no código e nas configurações de IaC, o controle de versões fornece visibilidade sobre a evolução do código, facilitando a compreensão do impacto das alterações e a identificação de possíveis problemas. Essa visibilidade aprimorada promove a colaboração entre os membros da equipe que trabalham no mesmo projeto de IaC.

A maioria dos sistemas de controle de versões permite reverter mudanças facilmente, se necessário. Esse recurso ajuda a reduzir o risco de consequências ou erros não intencionais. Ao usar ferramentas como o Git no fluxo de trabalho de IaC, é possível melhorar significativamente os processos de gestão da mudança, promover a colaboração e reduzir riscos, o que leva a uma implementação de IaC mais eficiente e confiável.

Criar pipelines de CI/CD

Os pipelines de integração contínua e entrega contínua (CI/CD) simplificam o processo de desenvolvimento e implantação de aplicativos em nuvem. Os pipelines de CI/CD automatizam os estágios de criação, teste e implantação, o que permite lançamentos mais rápidos e frequentes com melhor controle de qualidade. Essa recomendação é relevante para a área de foco de prontidão operacional das ferramentas.

Os pipelines de CI/CD garantem que as alterações de código sejam integradas continuamente em um repositório central, normalmente um sistema de controle de versões, como o Git. A integração contínua facilita a detecção e a resolução precoce de problemas, além de reduzir a probabilidade de bugs ou problemas de compatibilidade.

Para criar e gerenciar pipelines de CI/CD para aplicativos na nuvem, use ferramentas como o Cloud Build e o Cloud Deploy.

  • O Cloud Build é um serviço de build totalmente gerenciado que permite aos desenvolvedores definir e executar etapas de build de maneira declarativa. Ele se integra perfeitamente a plataformas conhecidas de gerenciamento de código-fonte e pode ser acionado por eventos como solicitações de envio e de envio de código.
  • O Cloud Deploy é um serviço de implantação sem servidor que automatiza o processo de implantação de aplicativos em vários ambientes, como teste, preparo e produção. Ele fornece recursos como implantações azul-verde, divisão de tráfego e capacidades de reversão, facilitando o gerenciamento e o monitoramento de implantações de aplicativos.

A integração de pipelines de CI/CD com sistemas de controle de versão e frameworks de teste ajuda a garantir a qualidade e a confiabilidade dos aplicativos em nuvem. Ao executar testes automatizados como parte do processo de CI/CD, as equipes de desenvolvimento podem identificar e corrigir rapidamente quaisquer problemas antes que o código seja implantado no ambiente de produção. Essa integração ajuda a melhorar a estabilidade e o desempenho gerais dos aplicativos na nuvem.

Usar ferramentas de gerenciamento de configuração

Ferramentas como Puppet, Chef, Ansible e VM Manager ajudam a automatizar a configuração e o gerenciamento de recursos da nuvem. Com essas ferramentas, é possível garantir a consistência dos recursos e a conformidade em todos os ambientes de nuvem. Essa recomendação é relevante para a área de foco de prontidão operacional das ferramentas.

A automação da configuração e do gerenciamento de recursos de nuvem oferece os seguintes benefícios:

  • Redução significativa no risco de erros manuais: quando processos manuais estão envolvidos, há uma probabilidade maior de erros devido a erros humanos. As ferramentas de gerenciamento de configurações reduzem esse risco automatizando processos para que as configurações sejam aplicadas de maneira consistente e precisa em todos os recursos da nuvem. Essa automação pode melhorar a confiabilidade e a estabilidade do ambiente de nuvem.
  • Melhoria na eficiência operacional: ao automatizar tarefas repetitivas, sua organização pode liberar a equipe de TI para se concentrar em iniciativas mais estratégicas. Essa automação pode aumentar a produtividade e a economia, além de melhorar a capacidade de resposta às mudanças nas necessidades comerciais.
  • Gerenciamento simplificado de infraestrutura em nuvem complexa: à medida que os ambientes de nuvem crescem em tamanho e complexidade, gerenciar os recursos pode se tornar cada vez mais difícil. As ferramentas de gerenciamento de configurações fornecem uma plataforma centralizada para gerenciar recursos de nuvem. Elas facilitam o rastreamento de configurações, a identificação de problemas e a implementação de mudanças. O uso dessas ferramentas pode melhorar a visibilidade, o controle e a segurança do seu ambiente de nuvem.

Automatizar testes

A integração de testes automatizados aos pipelines de CI/CD ajuda a garantir a qualidade e a confiabilidade dos aplicativos em nuvem. Ao validar as alterações antes da implantação, você pode reduzir significativamente o risco de erros e regressões, o que leva a um sistema de software mais estável e robusto. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: processos e ferramentas.

Veja a seguir os principais benefícios de incorporar testes automatizados nos pipelines de CI/CD:

  • Detecção antecipada de bugs e defeitos: os testes automatizados ajudam a detectar bugs e defeitos no início do processo de desenvolvimento, antes que eles possam causar grandes problemas na produção. Essa capacidade economiza tempo e recursos, evitando a necessidade de retrabalho caro e correções de bugs em etapas posteriores do processo de desenvolvimento.
  • Código de alta qualidade com base em padrões: os testes automatizados podem ajudar a melhorar a qualidade geral do seu código, garantindo que ele atenda a determinados padrões e práticas recomendadas. Esse recurso possibilita aplicativos mais confiáveis e fáceis de manter, que estão menos propensos a erros.

É possível usar vários tipos de técnicas de teste em pipelines de CI/CD. Cada tipo de teste atende a uma finalidade específica.

  • O teste de unidade se concentra em testar unidades de código individuais, como funções ou métodos, para garantir que elas funcionem conforme o esperado.
  • Os testes de integração testam as interações entre diferentes componentes ou módulos do aplicativo para verificar se eles funcionam corretamente juntos.
  • Os testes completos são frequentemente usados com testes de unidade e integração. O teste completo simula cenários reais para testar o aplicativo como um todo e ajuda a garantir que ele atenda aos requisitos dos usuários finais.

Para integrar de maneira eficaz os testes automatizados aos pipelines de CI/CD, é preciso escolher ferramentas e frameworks de teste adequados. Há muitas opções diferentes, cada uma com pontos fortes e fracos. Também é preciso estabelecer uma estratégia de teste clara que descreva os tipos de testes a serem realizados, a frequência e os critérios para aprovação ou reprovação em um teste. Seguindo essas recomendações, você garante que o processo de teste automatizado seja eficiente e eficaz. Esse processo fornece insights valiosos sobre a qualidade e a confiabilidade dos aplicativos em nuvem.

Melhorar e inovar continuamente

Esse princípio do pilar de excelência operacional do Google Cloud framework bem arquitetado fornece recomendações para ajudar você a otimizar continuamente as operações na nuvem e promover a inovação.

Visão geral do princípio

Para melhorar e inovar continuamente na nuvem, você precisa se concentrar em aprendizado, experimentação e adaptação contínuos. Isso ajuda você a explorar novas tecnologias e otimizar os processos atuais, além de promover uma cultura de excelência que permite que sua organização alcance e mantenha a liderança no setor.

Com a melhoria e a inovação contínuas, é possível atingir as metas a seguir:

  • Acelere a inovação: explore novas tecnologias e serviços para aprimorar os recursos e impulsionar a diferenciação.
  • Reduzir custos: identifique e elimine ineficiências por meio de iniciativas de melhoria de processos.
  • Melhorar a agilidade: adapte-se rapidamente às demandas do mercado e às necessidades dos clientes em constante mudança.
  • Melhorar a tomada de decisões: receba insights valiosos de dados e análises para tomar decisões com base em dados.

As organizações que adotam o princípio de melhoria contínua e inovação podem usar todo o potencial do ambiente de nuvem e alcançar um crescimento sustentável. Esse princípio é mapeado principalmente para a área de foco de prontidão operacional da força de trabalho. Uma cultura de inovação permite que as equipes testem novas ferramentas e tecnologias para expandir capacidades e reduzir custos.

Recomendações

Para melhorar e inovar continuamente suas cargas de trabalho na nuvem, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Promova uma cultura de aprendizado

Incentive as equipes a testar, compartilhar conhecimento e aprender continuamente. Adotar uma cultura sem culpa em que os fracassos são vistos como oportunidades de crescimento e melhoria. Essa recomendação é relevante para a área de foco de prontidão operacional da força de trabalho.

Quando você promove uma cultura de aprendizado, as equipes podem aprender com os erros e iterar rapidamente. Essa abordagem incentiva os membros da equipe a correr riscos, testar novas ideias e expandir os limites do trabalho. Ela também cria um ambiente psicologicamente seguro em que as pessoas se sentem à vontade para compartilhar falhas e aprender com elas. Compartilhar dessa forma leva a um ambiente mais aberto e colaborativo.

Para facilitar o compartilhamento de conhecimento e o aprendizado contínuo, crie oportunidades para as equipes compartilharem conhecimento e aprenderem umas com as outras. Isso pode ser feito com sessões e conferências de aprendizado informais e formais.

Ao promover uma cultura de experimentação, compartilhamento de conhecimento e aprendizado contínuo, você pode criar um ambiente em que as equipes sejam capacitadas para assumir riscos, inovar e crescer. Esse ambiente pode gerar maior produtividade, melhoria na resolução de problemas e uma força de trabalho mais engajada e motivada. Além disso, ao promover uma cultura sem apontar culpados, você pode criar um espaço seguro para os funcionários aprender com os erros e contribuir para o conhecimento coletivo da equipe. Essa cultura resulta em uma força de trabalho mais resiliente e adaptável, mais bem equipada para lidar com desafios e impulsionar o sucesso a longo prazo.

Realizar retrospectivas regulares

As retrospectivas dão às equipes a oportunidade de refletir sobre suas experiências, identificar o que deu certo e identificar o que pode ser melhorado. Ao conduzir retrospectivas após projetos ou grandes incidentes, as equipes podem aprender com sucessos e fracassos e melhorar continuamente seus processos e práticas. Esta recomendação é relevante para estas áreas de foco de prontidão operacional: processos e governança.

Uma maneira eficaz de estruturar uma retrospectiva é usar o modelo Iniciar, parar e continuar:

  • Início: na fase Início da retrospectiva, os membros da equipe identificam novas práticas, processos e comportamentos que acreditam que podem melhorar o trabalho deles. Eles discutem por que as mudanças são necessárias e como podem ser implementadas.
  • Interromper: na fase Interromper, os membros da equipe identificam e eliminam práticas, processos e comportamentos que não são mais eficazes ou que impedem o progresso. Eles discutem por que essas mudanças são necessárias e como podem ser implementadas.
  • Continuar: na fase Continuar, os membros da equipe identificam práticas, processos e comportamentos que funcionam bem e precisam ser contínuos. Eles discutem por que esses elementos são importantes e como podem ser reforçados.

Ao usar um formato estruturado como o modelo Start-Stop-Continue, as equipes podem garantir que as retrospectivas sejam produtivas e focadas. Esse modelo ajuda a facilitar a discussão, identificar as principais conclusões e identificar etapas acionáveis para melhorias futuras.

Fique por dentro das tecnologias de nuvem

Para maximizar o potencial dos Google Cloud serviços, você precisa acompanhar os mais recentes avanços, recursos e práticas recomendadas. Essa recomendação é relevante para a área de foco de prontidão operacional da força de trabalho.

Participar de conferências, webinars e sessões de treinamento relevantes é uma maneira valiosa de expandir seus conhecimentos. Esses eventos oferecem oportunidades para aprender com Google Cloud especialistas, entender novos recursos e interagir com colegas do setor que podem enfrentar desafios semelhantes. Ao participar dessas sessões, você terá insights sobre como usar novos recursos de maneira eficaz, otimizar suas operações na nuvem e impulsionar a inovação na sua organização.

Para garantir que os membros da sua equipe acompanhem as tecnologias de nuvem, incentive-os a obter certificações e participar de cursos de treinamento.O Google Cloudoferece uma ampla variedade de certificações que validam habilidades e conhecimentos em domínios de nuvem específicos. Ganhar essas certificações demonstra compromisso com a excelência e fornece evidências tangíveis da proficiência em tecnologias de nuvem. Os cursos de treinamento oferecidos por Google Cloud e nossos parceiros se aprofundam em tópicos específicos. Eles fornecem experiência direta e habilidades práticas que podem ser aplicadas imediatamente a projetos do mundo real. Ao investir no desenvolvimento profissional da equipe, você promove uma cultura de aprendizado contínuo e garante que todos tenham as habilidades necessárias para ter sucesso na nuvem.

Busque e incorpore o feedback ativamente

Colete feedback de usuários, partes interessadas e membros da equipe. Use esse feedback para identificar oportunidades de melhoria. Essa recomendação é relevante para a área de foco de prontidão operacional da força de trabalho.

O feedback que você coleta pode ajudar a entender as necessidades, os problemas e as expectativas em constante evolução dos usuários das suas soluções. Esse feedback é uma contribuição valiosa para promover melhorias e priorizar melhorias futuras. É possível usar vários mecanismos para coletar feedback:

  • As pesquisas são uma maneira eficaz de coletar dados quantitativos de um grande número de usuários e partes interessadas.
  • As entrevistas com usuários oferecem uma oportunidade para uma coleta de dados qualitativos aprofundados. Entrevistas permitem entender os desafios e experiências de usuários individuais.
  • Os formulários de feedback que são colocados nas soluções em nuvem oferecem uma maneira conveniente para os usuários fornecerem feedback imediato sobre a própria experiência.
  • As reuniões regulares com os membros da equipe podem facilitar a coleta de feedback sobre aspectos técnicos e desafios de implementação.

O feedback coletado por esses mecanismos precisa ser analisado e sintetizado para identificar temas e padrões comuns. Essa análise pode ajudar você a priorizar melhorias futuras com base no impacto e na viabilidade das melhorias sugeridas. Ao lidar com as necessidades e problemas identificados por meio do feedback, é possível garantir que suas soluções de nuvem continuem atendendo aos requisitos crescentes dos usuários e das partes interessadas.

Medir e acompanhar o progresso

Os indicadores principais de desempenho (KPIs) e as métricas são cruciais para acompanhar o progresso e avaliar a eficácia das operações na nuvem. KPIs são medidas quantificáveis que refletem o desempenho geral. Métricas são pontos de dados específicos que contribuem para o cálculo de KPIs. Revise as métricas regularmente e use-as para identificar oportunidades de melhoria e medir o progresso. Isso ajuda a melhorar e otimizar continuamente seu ambiente em nuvem. Essa recomendação é relevante para estas áreas de foco de prontidão operacional: governança e processos.

Um dos principais benefícios do uso de KPIs e métricas é que eles permitem que sua organização adote uma abordagem baseada em dados para as operações na nuvem. Ao rastrear e analisar dados operacionais, é possível tomar decisões informadas sobre como melhorar o ambiente de nuvem. Essa abordagem orientada por dados ajuda a identificar tendências, padrões e anomalias que podem não ser visíveis sem o uso de métricas sistemáticas.

Para coletar e analisar dados operacionais, é possível usar ferramentas como o Cloud Monitoring e o BigQuery. O Cloud Monitoring permite o monitoramento em tempo real de recursos e serviços de nuvem. O BigQuery permite armazenar e analisar os dados coletados por meio do monitoramento. Usando essas ferramentas juntas, é possível criar painéis personalizados para visualizar métricas e tendências importantes.

Os painéis operacionais fornecem uma visualização centralizada das métricas mais importantes, o que permite identificar rapidamente as áreas que precisam de atenção. Por exemplo, um painel pode incluir métricas como utilização de CPU, uso de memória, tráfego de rede e latência para um determinado aplicativo ou serviço. Ao monitorar essas métricas, é possível identificar rapidamente possíveis problemas e tomar medidas para resolvê-los.