Hybrid- und Multi-Cloud-Muster für Analysen

Last reviewed 2023-12-14 UTC

In diesem Dokument wird erläutert, dass das Ziel des Hybrid- und Multi-Cloud-Musters für Analysen darin besteht, die Aufteilung zwischen Transaktions- und Analysearbeitslasten zu nutzen.

In Unternehmenssystemen fallen die meisten Arbeitslasten in folgende Kategorien:

  • Transaktionsarbeitslasten umfassen interaktive Anwendungen für den Vertrieb, die Finanzabwicklung, das Enterprise-Resource-Planning (ERP), die Kommunikation usw.
  • Zu Analysearbeitslasten gehören Anwendungen, die Daten transformieren, analysieren, optimieren oder visualisieren, um Entscheidungsprozesse zu verbessern.

Analysesysteme erhalten ihre Daten von Transaktionssystemen, indem sie entweder APIs abfragen oder auf Datenbanken zugreifen. In den meisten Unternehmen sind Analyse- und Transaktionssysteme in der Regel getrennt und nur lose verbunden. Das Ziel des Hybrid- und Multi-Cloud-Musters für Analysen besteht darin, diese vorhandene Trennung auszunutzen und Transaktions- und Analysearbeitslasten in zwei verschiedenen Computing-Umgebungen auszuführen. Dabei werden Rohdaten zuerst aus Arbeitslasten extrahiert, die in der privaten Rechenumgebung ausgeführt werden, und dann zur analytischen Verarbeitung in Google Cloud geladen. Unter Umständen werden einige Ergebnisse dann wieder in Transaktionssysteme eingespeist.

Das folgende Diagramm zeigt konzeptionell mögliche Architekturen anhand potenzieller Datenpipelines. Jeder Pfad/Pfeil steht für eine mögliche Datenübertragungs- und Transformationspipeline, die je nach verfügbarer Datenqualität und dem gewünschten Anwendungsfall auf ETL oder ELT basieren kann.

Wenn Sie Ihre Daten in Google Cloud verschieben und aus ihnen Mehrwert schaffen möchten, verwenden Sie Datenmigrationsdienste – eine umfassende Suite mit Diensten zur Datenaufnahme, -integration und -replikation.

Daten, die aus einer lokalen oder anderen Cloud-Umgebung über Datenaufnahme, Pipelines, Speicher und Analysen in die Anwendungs- und Präsentationsschicht in Google Cloud fließen.

Wie im vorherigen Diagramm dargestellt, können Sie durch die Verbindung von Google Cloud mit lokalen Umgebungen und anderen Cloud-Umgebungen verschiedene Anwendungsfälle für die Datenanalyse nutzen, z. B. Datenstreaming und Datenbanksicherungen. Für den grundlegenden Transport eines Hybrid- und Multi-Cloud-Analysemusters, das ein hohes Datenübertragungsvolumen erfordert, bieten Cloud Interconnect und Cross-Cloud Interconnect eine dedizierte Konnektivität zu lokalen und anderen Cloud-Anbietern.

Vorteile

Das Ausführen von Analysearbeitslasten in der Cloud bietet mehrere zentrale Vorteile:

  • Eingehender Traffic, also die Datenübertragung aus Ihrer privaten Rechenumgebung oder anderen Clouds in Google Cloud, ist möglicherweise kostenlos.
  • Analysearbeitslasten müssen häufig beträchtliche Datenmengen verarbeiten und können stoßweise auftreten. Daher eignen sie sich besonders für die Bereitstellung in einer öffentlichen Cloudumgebung. Durch die dynamische Skalierung von Rechenressourcen können Sie große Datasets schnell verarbeiten und somit Investitionen im Vorfeld und eine Überdimensionierung von Rechenressourcen vermeiden.
  • Google Cloud bietet eine Vielzahl von Diensten zur Verwaltung von Daten über ihren gesamten Lebenszyklus hinweg – von der ersten Erfassung über die Verarbeitung und Analyse bis hin zur endgültigen Visualisierung.
    • Die Datenmigrationsdienste in Google Cloud bieten eine umfassende Suite von Produkten, mit denen Daten auf unterschiedliche Weise nahtlos verschoben, integriert und transformiert werden können.
    • Cloud Storage eignet sich hervorragend zum Erstellen eines Data Lakes.
  • Mit Google Cloud können Sie Ihre Datenplattform modernisieren und optimieren, um Datensilos aufzulösen. Mit einem Data Lakehouse können Sie verschiedene Speicherformate standardisieren. Außerdem bietet sie die Flexibilität, Skalierbarkeit und Agilität, die erforderlich sind, damit Ihre Daten einen Mehrwert für Ihr Unternehmen schaffen und nicht zu Ineffizienzen führen. Weitere Informationen finden Sie unter BigLake.

  • BigQuery Omni bietet Rechenleistung,die lokal auf dem Speicher in AWS oder Azure ausgeführt wird. Außerdem können Sie damit eigene Daten abfragen, die in Amazon Simple Storage Service (Amazon S3) oder Azure Blob Storage gespeichert sind. Mit dieser Multi-Cloud-Analysefunktion können Datenteams Datensilos aufbrechen. Weitere Informationen zum Abfragen von Daten, die außerhalb von BigQuery gespeichert sind, finden Sie unter Einführung in externe Datenquellen.

Best Practices

Berücksichtigen Sie bei der Implementierung des Architekturmusters Hybrid- und Multi-Cloud-Analysen die folgenden allgemeinen Best Practices:

  • Verwenden Sie das Handover-Netzwerkmuster, um die Datenaufnahme zu ermöglichen. Wenn Analyseergebnisse wieder in Transaktionssysteme übernommen werden müssen, können Sie das Handover-Muster mit dem Muster für gatewaygesteuerten ausgehenden Traffic kombinieren.
  • Verwenden Sie Pub/Sub-Warteschlangen oder Cloud Storage-Buckets, um Daten von in Ihrer privaten Rechenumgebung ausgeführten Transaktionssystemen an Google Cloud zu übergeben. Diese Warteschlangen oder Buckets können dann als Quellen für Datenverarbeitungspipelines und Arbeitslasten dienen.
  • Je nach Anforderungen Ihres Anwendungsfalls können Sie Cloud Data Fusion oder Dataflow verwenden, um ETL- und ELT-Datenpipelines bereitzustellen. Beide sind vollständig verwaltete, cloudbasierte Datenverarbeitungsdienste zum Erstellen und Verwalten von Datenpipelines.
  • Wenn Sie Ihre wertvollen Daten-Assets ermitteln, klassifizieren und schützen möchten, sollten Sie die Funktionen des Schutzes sensibler Daten in Google Cloud verwenden, z. B. De-Identifikationstechniken. Mit diesen Verfahren können Sie sensible Daten wie personenidentifizierbare Informationen (PII) mit einem zufällig generierten oder vordefinierten Schlüssel maskieren, verschlüsseln und ersetzen, sofern dies zulässig und konform ist.
  • Wenn Sie bereits Hadoop- oder Spark-Arbeitslasten haben, sollten Sie die Migration von Jobs zu Dataproc und die Migration vorhandener HDFS-Daten zu Cloud Storage in Betracht ziehen.
  • Wählen Sie bei der ersten Datenübertragung von Ihrer privaten Rechenumgebung zu Google Cloud die für Ihre Dataset-Größe und verfügbare Bandbreite am besten geeignete Übertragungsmethode. Weitere Informationen finden Sie unter Migration zu Google Cloud: Große Datasets übertragen.

  • Wenn eine langfristige Datenübertragung oder ein Datenaustausch zwischen Google Cloud und anderen Clouds mit hohem Trafficvolumen erforderlich ist, sollten Sie Cross-Cloud Interconnect von Google Cloud in Betracht ziehen. So können Sie eine dedizierte Verbindung mit hoher Bandbreite zwischen Google Cloud und anderen Cloud-Dienstanbietern herstellen (verfügbar in bestimmten Standorten).

  • Wenn eine Verschlüsselung am Konnektivitätslayer erforderlich ist, stehen je nach ausgewählter Hybridkonnektivitätslösung verschiedene Optionen zur Verfügung. Zu diesen Optionen gehören VPN-Tunnel, HA VPN über Cloud Interconnect und MACsec für Cloud-übergreifende Interconnects.

  • Verwenden Sie konsistente Tools und Prozesse in allen Umgebungen. In einem Hybridszenario für Analysen kann diese Vorgehensweise die Betriebseffizienz steigern, obwohl sie keine Voraussetzung ist.