Guia de confiabilidade da infraestrutura de Google Cloud
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Last reviewed 2024-11-20 UTC
A infraestrutura confiável é um requisito essencial para as cargas de trabalho na nuvem.
Como arquiteto de nuvem, para projetar uma infraestrutura confiável para suas cargas de trabalho, você
precisa ter uma boa compreensão dos recursos de confiabilidade do provedor de nuvem
que você escolher. Neste documento, descrevemos os elementos básicos de confiabilidade no
Google Cloud (zonas, regiões e recursos com escopo de localização) e os
níveis de disponibilidade que eles oferecem. Neste documento, também fornecemos diretrizes
para avaliar os requisitos de confiabilidade das cargas de trabalho e apresentamos
recomendações de arquitetura para criação e gerenciamento de infraestruturas confiáveis
no Google Cloud.
Se você já leu este guia e quer saber o que mudou, consulte as
Notas da versão.
Visão geral da confiabilidade
Um aplicativo ou uma carga de trabalho é confiável quando atinge os objetivos atuais
de disponibilidade e resiliência a falhas.
Disponibilidade (ou tempo de atividade) é a porcentagem de tempo em que um aplicativo é
utilizável. Por exemplo, para um aplicativo que tem uma meta de disponibilidade de 99,99%, o tempo de inatividade total não pode exceder 8,64 segundos durante um período de 24 horas.
Às vezes, a disponibilidade é medida como a proporção de solicitações que o
aplicativo atende com êxito durante um determinado período. Por exemplo, para um aplicativo que tem uma meta de disponibilidade de 99,99% para cada 100.000 solicitações recebidas, mais de 10 solicitações podem falhar. A disponibilidade costuma ser expressa como o número de noves na porcentagem. Por exemplo, a disponibilidade de 99,99%
é expressa como "4 noves".
Dependendo da finalidade do aplicativo, você pode ter conjuntos diferentes de indicadores da confiabilidade do aplicativo. Veja abaixo exemplos desses
indicadores de confiabilidade:
Para aplicativos que exibem conteúdo, disponibilidade, latência e
capacidade são indicadores importantes de confiabilidade. Elas indicam se o
aplicativo pode responder a solicitações, quanto tempo leva para responder
às solicitações e quantas solicitações o aplicativo pode processar
em um determinado período.
Para bancos de dados e sistemas de armazenamento, latência, capacidade, disponibilidade
e durabilidade (como os dados estão protegidos contra perda ou corrupção) são
indicadores de confiabilidade. Elas indicam quanto tempo o sistema leva para ler
ou gravar dados e se os dados podem ser acessados sob demanda.
Para cargas de trabalho de Big Data e análise, como pipelines de processamento de dados, o desempenho consistente do pipeline (capacidade e latência) é essencial para garantir a atualização dos produtos de dados, além de ser um indicador importante de confiabilidade. Indica a quantidade de dados que podem ser processados e quanto tempo leva para o pipeline ir da ingestão de dados ao processamento de dados.
A maioria dos aplicativos tem a correção de dados como um indicador essencial de confiabilidade.
A confiabilidade de um aplicativo implantado em Google Cloud depende
dos seguintes fatores:
O design interno do aplicativo.
Os aplicativos secundários ou componentes de que o aplicativo depende.
Google Cloud recursos de infraestrutura, como computação, rede, armazenamento, bancos de dados e segurança, em que o aplicativo é executado e como ele usa a infraestrutura.
A capacidade da infraestrutura que você provisiona e como a capacidade é escalonada.
As ferramentas e os processos de DevOps que você usa para criar, implantar e manter o aplicativo, as dependências dele e a infraestrutura do Google Cloud.
Esses fatores estão resumidos no diagrama a seguir:
Conforme mostrado no diagrama anterior, a confiabilidade de um aplicativo
implantado no Google Cloud depende de vários fatores. O foco deste
guia é a confiabilidade da infraestrutura do Google Cloud .
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-11-20 UTC."],[[["\u003cp\u003eReliable cloud infrastructure is essential for application workloads, requiring a deep understanding of the cloud provider's reliability features.\u003c/p\u003e\n"],["\u003cp\u003eApplication reliability is defined by meeting availability and failure resilience objectives, with availability often measured in terms of uptime or successful request rates.\u003c/p\u003e\n"],["\u003cp\u003eKey reliability indicators vary by application type, including availability, latency, throughput, durability, and data correctness.\u003c/p\u003e\n"],["\u003cp\u003eThe reliability of applications in Google Cloud is influenced by the application's design, dependencies, infrastructure resources, capacity management, and DevOps processes.\u003c/p\u003e\n"],["\u003cp\u003eThis document provides a comprehensive guide for cloud architects on how to assess reliability requirements, and design, build and manage infrastructure in Google Cloud.\u003c/p\u003e\n"]]],[],null,["# Google Cloud infrastructure reliability guide\n\nReliable infrastructure is a critical requirement for workloads in the cloud.\nAs a cloud architect, to design reliable infrastructure for your workloads, you\nneed a good understanding of the reliability capabilities of your cloud provider\nof choice. This document describes the building blocks of reliability in\nGoogle Cloud (zones, regions, and location-scoped resources) and the\navailability levels that they provide. This document also provides guidelines\nfor assessing the reliability requirements of your workloads, and presents\narchitectural recommendations for building and managing reliable infrastructure\nin Google Cloud.\n\nThis document is divided into the following parts:\n\n- Overview of reliability (this part)\n- [Building blocks of reliability in Google Cloud](/architecture/infra-reliability-guide/building-blocks)\n- [Assess the reliability requirements for your cloud workloads](/architecture/infra-reliability-guide/requirements)\n- [Design reliable infrastructure for your workloads in Google Cloud](/architecture/infra-reliability-guide/design)\n- [Manage traffic and load for your workloads in Google Cloud](/architecture/infra-reliability-guide/traffic-load)\n- [Manage and monitor your Google Cloud infrastructure](/architecture/infra-reliability-guide/manage-and-monitor)\n\nIf you've read this guide previously and want to see what's changed, see the\n[Release notes](/architecture/release-notes).\n\nOverview of reliability\n-----------------------\n\nAn application or workload is reliable when it meets your current objectives\nfor availability and resilience to failures.\n\nAvailability (or uptime) is the percentage of time that an application is\nusable. For example, for an application that has an availability target of\n99.99%, the total downtime must not exceed 8.64 seconds during a 24-hour period.\nSometimes, availability is measured as the proportion of requests that the\napplication serves successfully during a given period. For example, for an\napplication that has an availability target of 99.99%, for every 100,000\nrequests received, not more than ten requests can fail. Availability is often\nexpressed as the number of nines in the percentage. For example, 99.99%\navailability is expressed as \"4 nines\".\n\nDepending on the purpose of the application, you might have different sets of\nindicators for how reliable the application is. The following are examples of\nsuch reliability indicators:\n\n- For applications that serve content, availability, latency, and throughput are important reliability indicators. They indicate whether the application can respond to requests, how long the application takes to respond to requests, and how many requests the application can process successfully in a given period.\n- For databases and storage systems, latency, throughput, availability, and durability (how well data is protected against loss or corruption), are indicators of reliability. They indicate how long the system takes to read or write data, and whether data can be accessed on demand.\n- For big data and analytics workloads such as data processing pipelines, consistent pipeline performance (throughput and latency) is essential to ensure freshness of the data products, and is an important reliability indicator. It indicates how much data can be processed, and how long it takes for the pipeline to progress from data ingestion to data processing.\n- Most applications have data correctness as an essential reliability indicator.\n\nFor further guidelines to define the reliability objectives for your\napplications, see\n[Assess the reliability requirements for your cloud workloads](/architecture/infra-reliability-guide/requirements).\n| **Note:** Planning for disaster recovery (DR) is related to reliability, and DR is essential for business continuity. For detailed guidance about DR planning, see the [Disaster recovery planning guide](/architecture/dr-scenarios-planning-guide).\n\nFactors that affect application reliability\n-------------------------------------------\n\nThe reliability of an application that's deployed in Google Cloud depends\non the following factors:\n\n- The internal design of the application.\n- The secondary applications or components that the application depends on.\n- Google Cloud infrastructure resources such as compute, networking, storage, databases, and security that the application runs on, and how the application uses the infrastructure.\n- Infrastructure capacity that you provision, and how the capacity scales.\n- The DevOps processes and tools that you use to build, deploy, and maintain the application, its dependencies, and the Google Cloud infrastructure.\n\nThese factors are summarized in the following diagram:\n\nAs shown in the preceding diagram, the reliability of an application that's\ndeployed in Google Cloud depends on multiple factors. The focus of this\nguide is the reliability of the Google Cloud infrastructure.\n\nWhat's next\n-----------\n\n- [Building blocks of reliability in Google Cloud](/architecture/infra-reliability-guide/building-blocks)\n- [Assess the reliability requirements for your cloud workloads](/architecture/infra-reliability-guide/requirements)\n- [Design reliable infrastructure for your workloads in Google Cloud](/architecture/infra-reliability-guide/design)\n- [Manage traffic and load for your workloads in Google Cloud](/architecture/infra-reliability-guide/traffic-load)\n- [Manage and monitor your Google Cloud infrastructure](/architecture/infra-reliability-guide/manage-and-monitor)\n\nContributors\n------------\n\nAuthors:\n\n- [Nir Tarcic](https://www.linkedin.com/in/nirtarcic) \\| Cloud Lifecycle SRE UTL\n- [Kumar Dhanagopal](https://www.linkedin.com/in/kumardhanagopal) \\| Cross-Product Solution Developer\n\n\u003cbr /\u003e\n\nOther contributors:\n\n- [Alok Kumar](https://www.linkedin.com/in/alok-kumar-0a51159) \\| Distinguished Engineer\n- [Andrew Fikes](https://www.linkedin.com/in/andrew-fikes) \\| Engineering Fellow, Reliability\n- [Chris Heiser](https://www.linkedin.com/in/christopher-heiser) \\| SRE TL\n- [David Ferguson](https://www.linkedin.com/in/davidsferguson) \\| Director, Site Reliability Engineering\n- [Joe Tan](https://www.linkedin.com/in/joe-tan-378a55a8) \\| Senior Product Counsel\n- [Krzysztof Duleba](https://www.linkedin.com/in/kduleba) \\| Principal Engineer\n- [Narayan Desai](https://www.linkedin.com/in/nldesai) \\| Principal SRE\n- [Sailesh Krishnamurthy](https://www.linkedin.com/in/saileshkrishnamurthy) \\| VP, Engineering\n- [Steve McGhee](https://www.linkedin.com/in/stevemcghee) \\| Reliability Advocate\n- [Sudhanshu Jain](https://www.linkedin.com/in/sudhanshujain) \\| Product Manager\n- [Yaniv Aknin](https://www.linkedin.com/in/yanivaknin) \\| Software Engineer\n\n\u003cbr /\u003e"]]