Modèle analytique hybride et multicloud

Last reviewed 2023-12-14 UTC

Ce document explique que l'objectif du modèle analytique hybride et multicloud est de tirer parti de la répartition entre les charges de travail transactionnelles et analytiques.

Dans les systèmes d'entreprise, la plupart des charges de travail appartiennent aux catégories suivantes :

  • Les charges de travail transactionnelles incluent des applications interactives telles que des applications de vente, de traitement financier, de planification des ressources d'entreprise ou de communication.
  • Les charges de travail analytiques incluent des applications qui transforment, analysent, affinent ou visualisent des données pour faciliter les processus de prise de décision.

Les systèmes d'analyse obtiennent leurs données à partir de systèmes transactionnels en interrogeant des API ou en accédant à des bases de données. Dans la plupart des entreprises, les systèmes analytiques et transactionnels ont tendance à être séparés et faiblement couplés. L'objectif du modèle analytique hybride et multicloud est de tirer parti de cette division préexistante en exécutant des charges de travail transactionnelles et analytiques dans deux environnements informatiques différents. Les données brutes sont d'abord extraites des charges de travail exécutées dans l'environnement informatique privé, puis chargées dans Google Cloud, où elles sont utilisées à des fins de traitement analytique. Certains résultats peuvent ensuite être renvoyés aux systèmes transactionnels.

Le schéma suivant illustre les architectures conceptuellement possibles en affichant les pipelines de données potentiels. Chaque chemin/flèche représente une option de pipeline de transformation et de transfert de données possible pouvant être basée sur l'ETL ou l'ELT, en fonction de la qualité des données disponible et du cas d'utilisation ciblé.

Pour déplacer vos données vers Google Cloud et en tirer parti, utilisez les services de transfert de données, une suite complète de services d'ingestion, d'intégration et de réplication de données.

Données provenant d'un environnement sur site ou d'un autre environnement cloud et transmises à Google Cloud via l'ingestion, les pipelines, le stockage, l'analyse, puis la couche application et présentation.

Comme illustré dans le diagramme précédent, connecter Google Cloud à des environnements sur site et à d'autres environnements cloud peut permettre de mettre en œuvre divers cas d'utilisation d'analyse de données, tels que le streaming de données et les sauvegardes de bases de données. Pour alimenter le transport de base d'un modèle d'analyse hybride et multicloud qui nécessite un volume élevé de transfert de données, Cloud Interconnect et Cross-Cloud Interconnect fournissent une connectivité dédiée aux fournisseurs cloud sur site et autres.

Avantages

L'exécution de charges de travail analytiques dans le cloud présente plusieurs avantages essentiels :

  • Le trafic entrant (transfert de données de votre environnement informatique privé ou d'autres clouds vers Google Cloud) peut être gratuit.
  • Les charges de travail analytiques doivent souvent traiter des quantités importantes de données et peuvent être exécutées en rafale. Elles sont donc particulièrement bien adaptées au déploiement dans un environnement de cloud public. En procédant au scaling des ressources de calcul de manière dynamique, vous pouvez traiter rapidement des ensembles de données volumineux tout en évitant les investissements initiaux et tout surprovisionnement de matériel informatique.
  • Google Cloud fournit un ensemble complet de services permettant de gérer les données tout au long de leur cycle de vie, de l'acquisition initiale à la visualisation finale, en passant par le traitement et l'analyse.
    • Les services de transfert de données sur Google Cloud fournissent une suite complète de produits pour déplacer, intégrer et transformer des données de manière transparente de différentes manières.
    • Cloud Storage est parfaitement adapté à la construction d'un lac de données.
  • Google Cloud vous aide à moderniser et à optimiser votre plate-forme de données pour briser les silos de données. L'utilisation d'un ata lakehouse permet de standardiser les différents formats de stockage. Elle peut également offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité. Pour en savoir plus, consultez BigLake.

  • BigQuery Omni fournit une puissance de calcul qui s'exécute localement sur le stockage AWS ou Azure. Il vous aide également à interroger vos propres données stockées dans Amazon Simple Storage Service (Amazon S3) ou Azure Blob Storage. Cette fonctionnalité d'analyse multicloud permet aux équipes chargées des données de décloisonner les données. Pour en savoir plus sur l'interrogation des données stockées en dehors de BigQuery, consultez la section Présentation des sources de données externes.

Bonnes pratiques

Pour mettre en œuvre le modèle d'architecture hybride et multicloud pour l'analyse, tenez compte des bonnes pratiques générales suivantes:

  • Utilisez le schéma de mise en réseau de transfert pour permettre l'ingestion de données. Si les résultats analytiques doivent être renvoyés aux systèmes transactionnels, vous pouvez combiner le transfert et le modèle de sortie contrôlée.
  • Servez-vous des files d'attente Pub/Sub ou des buckets Cloud Storage pour transférer des données à Google Cloud à partir de systèmes transactionnels exécutés dans votre environnement informatique privé. Ces files d'attente ou buckets peuvent ensuite servir de sources pour les pipelines de traitement de données et les charges de travail.
  • Pour déployer des pipelines de données ETL et ELT, envisagez d'utiliser Cloud Data Fusion ou Dataflow, en fonction des exigences spécifiques de votre cas d'utilisation. Il s'agit de services de traitement de données cloud first entièrement gérés qui permettent de créer et de gérer des pipelines de données.
  • Pour découvrir, classer et protéger vos éléments de données importants, envisagez d'utiliser les fonctionnalités de protection des données sensibles de Google Cloud, telles que les techniques d'anonymisation. Ces techniques vous permettent de masquer, de chiffrer et de remplacer les données sensibles, telles que les informations permettant d'identifier personnellement l'utilisateur, à l'aide d'une clé générée de manière aléatoire ou prédéterminée, le cas échéant et conformément à la réglementation.
  • Lorsque vous avez des charges de travail Hadoop ou Spark existantes, il peut être utile de migrer les tâches vers Dataproc et de migrer les données HDFS existantes vers Cloud Storage.
  • Lorsque vous effectuez un premier transfert de données de votre environnement informatique privé vers Google Cloud, choisissez la méthode de transfert la mieux adaptée à la taille de votre ensemble de données et à la bande passante disponible. Pour en savoir plus, consultez la page Migration vers Google Cloud : transférer des ensembles de données volumineux.

  • Si le transfert ou l'échange de données entre Google Cloud et d'autres clouds est nécessaire à long terme avec un volume de trafic élevé, nous vous recommandons d'évaluer l'utilisation de Google Cloud Cross-Cloud Interconnect pour vous aider à établir une connectivité dédiée à haut débit entre Google Cloud et d'autres fournisseurs de services cloud (disponible dans certains emplacements).

  • Si le chiffrement est requis au niveau de la couche de connectivité, différentes options sont disponibles en fonction de la solution de connectivité hybride sélectionnée. Ces options incluent les tunnels VPN, le VPN haute disponibilité sur Cloud Interconnect et MACsec pour Cross-Cloud Interconnect.

  • Utilisez des outils et des processus cohérents dans tous les environnements. Dans un scénario d'analyse hybride, cette pratique peut contribuer à accroître l'efficacité opérationnelle, bien qu'elle ne constitue pas une condition préalable.