Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Last reviewed 2023-12-14 UTC
Este documento discute que o objetivo do padrão analítico híbrido e multicloud é aproveitar a divisão entre cargas de trabalho transacionais e analíticas.
Nos sistemas corporativos, a maioria das cargas de trabalho se enquadra nestas categorias:
Cargas de trabalho transacionais incluem aplicativos interativos como vendas, processamento financeiro, planejamento de recursos corporativos ou comunicação.
Cargas de trabalho analíticas incluem aplicativos para transformação, análise, refino ou visualização de dados, com o objetivo de ajudar nos processos de tomada de decisão.
Os sistemas de análise recebem dados de sistemas transacionais,
consultando APIs ou acessando bancos de dados. Na maioria das empresas, os sistemas analíticos e
transacionais tendem a ser separados e fracamente acoplados. O objetivo do
padrão analítico híbrido e de várias nuvens é aproveitar essa
divisão preexistente ao executar cargas de trabalho transacionais e de análise em dois
ambientes de computação diferentes. Os dados brutos são extraídos primeiro das cargas de trabalho em execução no
ambiente de computação particular e, em seguida, carregados no Google Cloud, onde
são usados para processamento analítico. Alguns dos resultados podem, então, ser retornados aos
sistemas transacionais.
O diagrama a seguir ilustra conceitualmente as arquiteturas possíveis mostrando
possíveis pipelines de dados. Cada caminho/seta representa uma possível opção de pipeline de movimentação
e transformação de dados que pode ser baseada em
ETL
ou ELT, dependendo da
qualidade de dados
disponível e do caso de uso desejado.
Para mover seus dados para o Google Cloud e aproveitar o valor deles, use os serviços de movimentação de dados, um pacote completo de serviços de ingestão, integração e replicação de dados.
Como mostrado no diagrama anterior, conectar o Google Cloud a ambientes locais e outros ambientes de nuvem pode ativar vários casos de uso de análise de dados, como streaming de dados e backups de banco de dados. Para oferecer o
transporte básico de um padrão de análise híbrida e multicloud que
exige um grande volume de transferência de dados, o Cloud Interconnect e o
Cross-Cloud Interconnect
oferecem conectividade dedicada a provedores de nuvem e locais.
Vantagens
A execução de cargas de trabalho analíticas na nuvem tem muitas vantagens importantes:
O tráfego de entrada (mover dados do ambiente de computação particular ou de outras nuvens para o Google Cloud) pode ser sem custo financeiro.
As cargas de trabalho analíticas geralmente precisam processar quantidades substanciais de dados, o que pode ser feito em bursts. Portanto, elas são especialmente adequadas para serem implantadas em um ambiente de nuvem pública. Ao dimensionar recursos de computação dinamicamente, é possível processar rapidamente grandes conjuntos de dados, sem a necessidade de investimentos iniciais ou do provisionamento de equipamentos de computação em excesso.
O Google Cloud oferece um conjunto avançado de serviços para gerenciar dados em
todo o ciclo de vida, desde a aquisição inicial até o processamento
e a análise até a visualização final.
Os serviços de movimentação de dados no Google Cloud oferecem um pacote completo
de produtos para mover, integrar e transformar dados de diferentes maneiras.
O Google Cloud ajuda a modernizar e otimizar sua plataforma de dados para quebrar silos de dados. O uso de um lakehouse de dados ajuda a padronizar diferentes formatos de armazenamento. Ele também pode fornecer
a flexibilidade, a escalonabilidade e a agilidade necessárias para garantir que seus
dados gerem valor para sua empresa, e não ineficiências. Para
mais informações, consulte
BigLake.
O BigQuery Omni oferece capacidade de computação executada localmente no armazenamento da AWS ou do Azure. Ele também ajuda a consultar seus próprios dados armazenados no Amazon Simple Storage Service (Amazon S3) ou no Armazenamento de Blobs do Azure. Esse recurso de análise multicloud
permite que as equipes de dados eliminem os silos de dados. Para mais informações sobre como consultar dados armazenados fora do BigQuery, consulte Introdução a fontes de dados externas.
Práticas recomendadas
Para implementar o padrão de arquitetura analítica híbrida e multicloud,
considere as seguintes práticas recomendadas gerais:
Use o
padrão de rede de transferência
para permitir a ingestão de dados. Se os resultados analíticos
precisarem ser retornados aos sistemas transacionais, combine a
entrega e o
padrão de saída controlada.
Use filas do Pub/Sub ou buckets do Cloud Storage para entregar dados ao Google Cloud de sistemas transacionais em execução no ambiente de computação particular. Essas filas ou buckets poderão disponibilizar fontes para canais de processamento de dados e cargas de trabalho.
Para implantar pipelines de dados ETL e ELT, use o
Cloud Data Fusion
ou o
Dataflow,
dependendo dos requisitos específicos do caso de uso. Ambos são serviços de processamento de dados totalmente gerenciados e com foco na nuvem para criar e gerenciar pipelines de dados.
Para descobrir, classificar e proteger seus recursos de dados valiosos, use os recursos de Proteção de Dados Sensíveis do Google Cloud, como técnicas de desidentificação.
Essas técnicas permitem mascarar, criptografar e substituir dados sensíveis, como
informações de identificação pessoal (PII), usando uma chave pré-determinada ou
gerada aleatoriamente, quando aplicável e em conformidade.
Ao realizar uma transferência de dados inicial do seu ambiente de computação particular para o Google Cloud, escolha a abordagem de transferência mais adequada ao tamanho do conjunto de dados e à largura de banda disponível. Para mais informações, consulte
Migração para o Google Cloud: como transferir grandes conjuntos de dados.
Se a transferência ou troca de dados entre o Google Cloud e outras nuvens
for necessária por um longo período com alto volume de tráfego, avalie o uso do
Cross-Cloud Interconnect
do Google Cloud para estabelecer conectividade dedicada de alta largura de banda entre
o Google Cloud e outros provedores de serviços em nuvem (disponível em determinados
locais).
Se a criptografia for necessária na
camada de conectividade, várias opções estão disponíveis com base na solução
de conectividade híbrida escolhida. Essas opções incluem túneis VPN,
VPN de alta disponibilidade pelo Cloud Interconnect e
MACsec para o Cross-Cloud Interconnect.
Use ferramentas e processos que sejam consistentes em vários ambientes. Em um cenário híbrido de análise, essa prática pode ajudar a aumentar a eficiência operacional, mas não é um pré-requisito.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2023-12-14 UTC."],[[["\u003cp\u003eThe analytics hybrid and multicloud pattern leverages the separation of transactional and analytics workloads, running them in distinct computing environments.\u003c/p\u003e\n"],["\u003cp\u003eRaw data is extracted from transactional systems in a private computing environment and loaded into Google Cloud for analytical processing, with some results potentially feeding back into transactional systems.\u003c/p\u003e\n"],["\u003cp\u003eGoogle Cloud offers numerous advantages for running analytics workloads, including cost-effective inbound data transfer, dynamic scalability for processing large datasets, and a comprehensive suite of data management services.\u003c/p\u003e\n"],["\u003cp\u003eImplementing this architecture involves best practices such as using handover networking, employing Pub/Sub or Cloud Storage for data transfer, and utilizing Cloud Data Fusion or Dataflow for building data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eCross-Cloud Interconnect can be utilized to facilitate long-term, high-volume data transfer between Google Cloud and other cloud providers.\u003c/p\u003e\n"]]],[],null,["# Analytics hybrid and multicloud pattern\n\nThis document discusses that the objective of the analytics hybrid and multicloud pattern is to capitalize on the split between transactional and analytics workloads.\n\nIn enterprise systems, most workloads fall into these categories:\n\n- *Transactional* workloads include interactive applications like sales, financial processing, enterprise resource planning, or communication.\n- *Analytics* workloads include applications that transform, analyze, refine, or visualize data to aid decision-making processes.\n\nAnalytics systems obtain their data from transactional systems by either\nquerying APIs or accessing databases. In most enterprises, analytics and\ntransactional systems tend to be separate and loosely coupled. The objective of\nthe *analytics hybrid and multicloud* pattern is to capitalize on this\npre-existing split by running transactional and analytics workloads in two\ndifferent computing environments. Raw data is first extracted from workloads\nthat are running in the private computing environment and then loaded into\nGoogle Cloud, where it's used for analytical processing. Some of the results\nmight then be fed back to transactional systems.\n\nThe following diagram illustrates conceptually possible architectures by showing\npotential data pipelines. Each path/arrow represents a possible data movement\nand transformation pipeline option that can be based on\n[ETL](/learn/what-is-etl)\nor ELT, depending on the available\n[data quality](/dataplex/docs/auto-data-quality-overview)\nand targeted use case.\n\nTo move your data into Google Cloud and unlock value from it, use\n[data movement](/data-movement)\nservices, a complete suite of data ingestion, integration, and replication\nservices.\n\nAs shown in the preceding diagram, connecting Google Cloud with\non-premises environments and other cloud environments can enable various data\nanalytics use cases, such as data streaming and database backups. To power the\nfoundational transport of a hybrid and multicloud analytics pattern that\nrequires a high volume of data transfer, Cloud Interconnect and\n[Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview)\nprovide dedicated connectivity to on-premises and other cloud providers.\n\nAdvantages\n----------\n\nRunning analytics workloads in the cloud has several key advantages:\n\n- Inbound traffic---moving data from your private computing environment or other clouds to Google Cloud---[might be free of charge](/vpc/network-pricing#general).\n- Analytics workloads often need to process substantial amounts of data and can be bursty, so they're especially well suited to being deployed in a public cloud environment. By dynamically scaling compute resources, you can quickly process large datasets while avoiding upfront investments or having to overprovision computing equipment.\n- Google Cloud provides a rich set of services to manage data throughout its entire lifecycle, ranging from initial acquisition through processing and analyzing to final visualization.\n - Data movement services on Google Cloud provide a complete suite of products to move, integrate, and transform data seamlessly in different ways.\n - Cloud Storage is well suited for [building a data lake](https://cloud.google.com/blog/topics/developers-practitioners/architect-your-data-lake-google-cloud-data-fusion-and-composer).\n- Google Cloud helps you to modernize and optimize your data\n platform to break down data silos. Using a\n [data lakehouse](/discover/what-is-a-data-lakehouse#section-3)\n helps to standardize across different storage formats. It can also provide\n the flexibility, scalability, and agility needed to help ensure that your\n data generates value for your business, rather than inefficiencies. For\n more information, see\n [BigLake](/biglake).\n\n- [BigQuery Omni,](/bigquery/docs/omni-introduction)\n provides compute power that runs locally to the storage on AWS or Azure. It\n also helps you query your own data stored in Amazon Simple Storage Service\n (Amazon S3) or Azure Blob Storage. This multicloud analytics capability\n lets data teams break down data silos. For more information about querying\n data stored outside of BigQuery, see\n [Introduction to external data sources](/bigquery/docs/external-data-sources).\n\nBest practices\n--------------\n\nTo implement the *analytics hybrid and multicloud* architecture pattern,\nconsider the following general best practices:\n\n- Use the [handover networking pattern](/architecture/hybrid-multicloud-secure-networking-patterns/handover-pattern) to enable the ingestion of data. If analytical results need to be fed back to transactional systems, you might combine both the handover and the [*gated egress*](/architecture/hybrid-multicloud-secure-networking-patterns/gated-egress) pattern.\n- Use [Pub/Sub](/pubsub) queues or [Cloud Storage](/storage) buckets to hand over data to Google Cloud from transactional systems that are running in your private computing environment. These queues or buckets can then serve as sources for data-processing pipelines and workloads.\n- To deploy ETL and ELT data pipelines, consider using [Cloud Data Fusion](/data-fusion) or [Dataflow](/dataflow) depending on your specific use case requirements. Both are fully managed, cloud-first data processing services for building and managing data pipelines.\n- To discover, classify, and protect your valuable data assets, consider using Google Cloud [Sensitive Data Protection](/sensitive-data-protection) capabilities, like [de-identification techniques](/sensitive-data-protection/docs/deidentify-sensitive-data). These techniques let you mask, encrypt, and replace sensitive data---like personally identifiable information (PII)---using a randomly generated or pre-determined key, where applicable and compliant.\n- When you're performing an initial data transfer from your private\n computing environment to Google Cloud, choose the transfer approach\n that is best suited for your dataset size and available bandwidth. For more\n information, see\n [Migration to Google Cloud: Transferring your large datasets](/architecture/migration-to-google-cloud-transferring-your-large-datasets).\n\n- If data transfer or exchange between Google Cloud and other clouds\n is required for the long term with high traffic volume, you should evaluate\n using Google Cloud\n [Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview)\n to help you establish high-bandwidth dedicated connectivity between\n Google Cloud and other cloud service providers (available in certain\n [locations](/network-connectivity/docs/interconnect/concepts/cci-overview#locations)).\n\n- If encryption is required at the connectivity layer, various options are\n available based on the selected hybrid connectivity solution. These options\n include VPN tunnels, HA VPN over Cloud Interconnect, and\n [MACsec for Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview#encryption).\n\n- Use consistent tooling and processes across environments. In an\n analytics hybrid scenario, this practice can help increase operational\n efficiency, although it's not a prerequisite."]]