Dieser Leitfaden bietet einen Überblick über den BigQuery-Connector für SAP. Er beschreibt die Funktionen und wie er die Datenintegration zwischen SAP-Systemen und BigQuery ermöglicht. Der BigQuery-Connector für SAP repliziert Ihre SAP-Daten nahezu in Echtzeit in BigQuery. Mit Ihren Daten in BigQuery können Sie Analysen mit künstlicher Intelligenz oder maschinellem Lernen für Live-SAP-Anwendungsdaten durchführen. In BigQuery können Sie Ihre SAP-Daten auch in Daten aus anderen Quellen einbinden.
BigQuery-Connector für SAP wird in SAP Landscape Transformation Replication Server (SAP LT Replication Server) installiert und verwendet die Standardschnittstellen und -funktionen von SAP LT Replication Server. BigQuery-Connector für SAP unterstützt alle Datenquellen, die von SAP LT Replication Server unterstützt werden.
Google Cloud hat den BigQuery-Connector für SAP als Implementierung eines SAP Business Add In (BAdI) für SAP LT Replication Server gemäß dem SAP LT Replication Server SDK-Prozess entwickelt. Der Connector verwendet das Change Data Capture-Feature (CDC) von SAP LT Replication Server.
Datenverarbeitung
BigQuery Connector für SAP ermöglicht nur eine minimale Datentransformation, was im Gegensatz zu einem Modell zum Extrahieren, Transformieren und Laden (ETL) einem Modell zum Extrahieren, Laden, Transformieren (ELT) entspricht. Weitere Informationen zu diesen Modellen finden Sie unter Verfahren und Muster für Datenpipelines.
Der Connector schlägt automatisch die Felder, Feldnamen und Datentypen für die Zieltabelle auf Basis der Quelldaten vor. Bevor die BigQuery-Zieltabelle erstellt wird, können Sie die vorgeschlagenen Werte nach Bedarf ändern. Die vorgeschlagenen Namen für die Zielfelder basieren auf den Beschreibungen der Felder in der Quelltabelle. Weitere Informationen finden Sie unter Standardbenennungsoptionen für Felder.
Obwohl BigQuery Connector für SAP die BigQuery-Datentypen für die meisten Felder automatisch vorschlägt, können boolesche, Zeitstempel- und Hexadezimalwerte nicht automatisch interpretiert werden. Sie müssen sie also manuell zuordnen. Weitere Informationen finden Sie unter Datentypzuordnung.
BigQuery-Connector für SAP bietet mehrere Optimierungspunkte, an denen Sie Ihre eigenen benutzerdefinierte Optimierungen für BigQuery-Connector für SAP einfügen können. Weitere Informationen finden Sie unter Optimierungspunkte.
Wenn in BigQuery noch keine Zieltabelle vorhanden ist, wird von BigQuery-Connector für SAP eine solche erstellt. Für die CDC-Replikation über Pub/Sub erstellt der BigQuery-Connector für SAP auch automatisch das erforderliche Pub/Sub-Thema, -Schema und -Abo.
Unterstützte Replikationspfade
Der BigQuery-Connector für SAP unterstützt die folgenden Replikationspfade:
CDC-Replikation (Change Data Capture) über Pub/Sub
Mit der Change Data Capture (CDC)-Replikation über Pub/Sub werden Änderungen aus den SAP-Quelltabelle direkt in Ihre BigQuery-Tabelle übernommen. Vorhandene Daten werden aktualisiert und neue Datensätze hinzugefügt, um die Daten synchron zu halten. Bei diesem Ansatz werden die CDC-Funktionen der Storage Write API verwendet, sodass keine manuelle Deduplizierung erforderlich ist. Bei CDC werden nur die Änderungen (Aktualisierungen, Löschungen und neue Einfügungen) erfasst und angewendet, die in Ihren SAP-Quelltabellen vorgenommen werden.
Wenn ein Datensatz in einer SAP-Tabelle aktualisiert oder gelöscht wird, veröffentlicht BigQuery-Connector für SAP diese Änderung in einem Pub/Sub-Thema. Ein BigQuery-Abo streamt die Änderung dann direkt in die entsprechende BigQuery-Tabelle und wendet sie ohne Duplikate an.
Streamingdatenreplikation
Bei der Streaming-Datenreplikation werden Ihrer BigQuery-Tabelle kontinuierlich neue Datensätze hinzugefügt. Jede Änderung wird als separater Eintrag im Nur-Einfügen-Modus erfasst. Wenn BigQuery ein Update für einen Datensatz erhält, der bereits in der BigQuery-Tabelle vorhanden ist, fügt BigQuery eine neue Instanz des Datensatzes in diese Tabelle ein, ohne die vorhandene Instanz zu ändern. Die zuletzt eingefügte Instanz des Datensatzes spiegelt den aktuellen Status des Datensatzes in der Quelltabelle wider.
Für die Replikation von Streamingdaten verwendet BigQuery-Connector für SAP die BigQuery Streaming API.
Das folgende Diagramm veranschaulicht beide Datenreplikationspfade von SAP nach BigQuery mit dem BigQuery-Connector für SAP:
Der Datenfluss und die Komponenten für die einzelnen Pfade sind so aufgeteilt:
Datenextraktion und erste Verarbeitung (für beide Pfade)
- SAP-Datenquelle:Hier stammen die Daten aus der SAP-Umgebung.
- SAP LT Replication Server:Stellt über eine RFC-Verbindung eine Verbindung zur SAP-Datenquelle her. Die Hauptaufgabe besteht darin, CDC-Daten aus der SAP-Quelle zu extrahieren.
- BigQuery-Connector für SAP:Empfängt die extrahierten CDC-Daten und bestimmt anhand der Konfigurationen, welchen Replikationspfad die Daten nehmen.
CDC-Replikationspfad
Bei diesem Pfad geht es darum, Änderungen an einer BigQuery-CDC-Tabelle über Pub/Sub zu replizieren:
- Pub/Sub REST API: Der BigQuery-Connector für SAP veröffentlicht die CDC-Daten in Pub/Sub über die Pub/Sub REST API.
- Pub/Sub-Thema: Dies fungiert als zentraler Message Broker, der die veröffentlichten CDC-Daten empfängt.
- Pub/Sub-Schema: Das Schema ist mit dem Pub/Sub-Thema verknüpft und erzwingt die Datenstruktur, wodurch die Datenkonsistenz gewahrt wird.
- Pub/Sub-BigQuery-Abo: Abonniert das Pub/Sub-Thema und streamt die CDC-Daten in die BigQuery-CDC-Tabelle.
- BigQuery-CDC-Tabelle:Das endgültige Ziel für die CDC-Daten in BigQuery. Es wendet Änderungen (Aktualisierungen/Löschungen) an und fügt neue Datensätze ein, um eine deduplizierte, aktuelle Ansicht der SAP-Daten zu erhalten.
- Dead-Letter-Thema: Ein Pub/Sub-Thema, an das Nachrichten gesendet werden, die nicht vom BigQuery-Abo verarbeitet werden können. So können sie manuell untersucht werden, um Datenverlust zu vermeiden.
Pfad für die Replikation von Streamingdaten (nur Einfügen)
Dieser Pfad ist für das kontinuierliche Einfügen neuer Datensätze in eine BigQuery-Staging-Tabelle vorgesehen, wobei jede Änderung als neuer Eintrag beibehalten wird:
- BigQuery Streaming REST API: Der BigQuery-Connector für SAP streamt die Daten direkt in BigQuery.
- BigQuery-Staging-Tabelle: Das Ziel für die Streamingdaten. In diesem Nur-Einfügen-Modus führt jede Änderung (einschließlich Aktualisierungen und Löschvorgänge für vorhandene SAP-Datensätze) dazu, dass dieser Tabelle eine neue Zeile angehängt wird.
Replikationspfad auswählen
In diesem Abschnitt werden die Replikationspfade verglichen, damit Sie entscheiden können, welcher am besten zu Ihren spezifischen Datenanforderungen und betrieblichen Anforderungen passt.
Faktor | CDC-Replikation über Pub/Sub | Streamingdatenreplikation (Nur-Einfügen-Modus) |
---|---|---|
Funktionsweise | Es werden nur die Änderungen an der BigQuery-Tabelle erfasst und angewendet. | Jede Änderung wird als neuer Datensatz in die BigQuery-Tabelle eingefügt. |
BigQuery-Ergebnis | Es wird ein einzelner, aktueller Datensatz verwaltet, indem vorhandene Zeilen nativ aktualisiert oder gelöscht werden. | Jede Änderung führt zu einem neuen Eintrag, sodass mehrere Versionen desselben Datensatzes vorhanden sind. |
Hauptvorteile | Bietet hohe Datenkonsistenz mit den neuesten Daten. | Nützlich für die grundlegende Aufnahme und bietet einen Verlauf der Audits. |
Deployment-Architekturen
Sie installieren BigQuery-Connector für SAP als Business Add-In (BAdI) in einer SAP LT Replication Server-Instanz.
Die Instanz von SAP LT Replication Server kann sich in Google Cloud, lokal oder bei einem anderen Cloud-Anbieter befinden. Wir empfehlen, die SAP LT Replication Server-Instanz so nah wie möglich an der SAP-Datenquelle zu platzieren. Arbeiten Sie mit Ihrem Netzwerkteam zusammen, um eine niedrige Latenz und einen hohen Durchsatz zwischen dem SAP-Quellsystem, SAP LT Replication Server und Ihrem BigQuery-Dataset zu gewährleisten.
In den folgenden Abschnitten werden allgemeine empfohlene Architekturen für BigQuery-Connector für SAP beschrieben.
Bereitstellungsarchitekturen für die CDC-Replikation über Pub/Sub
Architektur für SAP-Datenquellen auf Google Cloud
Das folgende Diagramm zeigt zwei Beispielinstallationen für SAP LT Replication Server auf Google Cloudmit der SAP-Datenquelle auf Google Cloud.
Um beide Architekturen zu veranschaulichen, verwendet eine der Beispielinstallationen eine eigenständige SAP LT Replication Server-Architektur, in der SAP LT Replication Server auf einem separaten Server installiert wird. Die andere Installation verwendet eine in SAP LT Replication Server-Architektur eingebundene Architektur, in der SAP LT Replication Server auf dem SAP-Quellsystemserver installiert ist.
Da die SAP LT Replication Server-Instanzen inGoogle Cloudinstalliert sind, stellt BigQuery-Connector für SAP direkt eine Verbindung zum Pub/Sub API-Endpunkt her, ohne eine Cloud Interconnect- oder Cloud VPN-Verbindung zu erfordern.
Architektur für SAP-Datenquellen lokal oder bei einem anderen Cloud-Anbieter
Das folgende Diagramm zeigt zwei Beispielinstallationen für SAP LT Replication Server, die entweder lokal oder bei einem anderen Cloud-Anbieter ausgeführt werden.
Um beide Architekturen zu veranschaulichen, verwendet eine der Installationen eine eigenständige SAP LT Replication Server-Architektur und die andere eine eingebettete SAP LT Replication Server-Architektur.
In beiden Beispielen wird SAP LT Replication Server in derselben Umgebung wie die SAP-Datenquelle installiert.
Die Verbindung von BigQuery-Connector für SAP in SAP LT Replication Server zu Pub/Sub wird entweder über eine Cloud Interconnect-Verbindung oder über eine Cloud VPN-Verbindung bereitgestellt.
Detaillierte Architekturansicht des Datenflusses
Das folgende Diagramm zeigt, wo BigQuery-Connector für SAP in den Datenfluss von SAP LT Replication Server passt:
Die folgenden nummerierten Erläuterungen entsprechen den Ziffern im Diagramm:
- Nachdem SAP LT Replication Server initialisiert wurde, werden Änderungen durch Einfügen, Aktualisieren oder Löschen von Einträgen in den Quelltabellen in den Loggingtabellen der Datenbank aufgezeichnet.
- SAP LT Replication Server prüft die Logging-Tabellen kontinuierlich über RFC-Aufrufe auf neue Einträge.
- Wenn SAP LT Replication Server neue Einträge findet, liest die Read Engine die Datensätze und ruft die Zuordnungs- und Transformations-Engine auf.
- Die Zuordnungs- und Transformations-Engine ruft die Write-Engine auf, die BigQuery-Connector für SAP aufruft.
- Die Write-Engine übergibt die verarbeiteten Daten an BigQuery-Connector für SAP. Hier werden die SAP-Änderungsdatensätze durch die benutzerdefinierte BAdI-Implementierung des Connectors in ein Avro-kompatibles JSON-Format umgewandelt.
Bestimmte Metadatenfelder werden so ausgefüllt:
_CHANGE_TYPE
: Wird basierend auf dem SAP SLT-Vorgang ausgefüllt. Beispiel:UPSERT
für Einfügungen oder Aktualisierungen,DELETE
für Löschungen._CHANGE_SEQUENCE_NUMBER
: Ein detaillierter Zeitstempel für die chronologische Sortierung und Konfliktlösung in BigQuery.
- Die transformierten Nachrichten werden dann vom BigQuery-Connector für SAP über die Pub/Sub REST API mit HTTPS über eine sichere Verbindung in Pub/Sub veröffentlicht.
- Nach dem Eingang der Daten führt Pub/Sub die folgenden Aktionen aus:
- Führt Validierungsprüfungen gemäß dem Schema durch.
- HTTP 200-Statuscode (
OK
) für gültige Nachrichten zurück an BigQuery-Connector für SAP senden. - Die Datensätze werden über das BigQuery-Abo in die BigQuery-Zieltabelle eingefügt.
- Erfasst die Nachrichten, die bei der BigQuery-Aufnahme fehlschlagen, in einem Dead-Letter-Thema, um Datenverlust zu verhindern und die Fehlerbehebung zu vereinfachen.
- Die BigQuery Storage Write API verwendet die Felder
_CHANGE_TYPE
und_CHANGE_SEQUENCE_NUMBER
in den Nachrichten, um die Änderungen anzuwenden. Die API führt Einfüge-, Aktualisierungs- oder Löschvorgänge aus und sorgt so für synchronisierte Daten in den BigQuery-Tabellen für die Datenanalyse. - BigQuery-Connector für SAP übergibt den HTTP-Statuscode
OK
an SAP LT Replication Server, der die replizierten Einträge aus der Logging-Tabelle löscht und Ressourcen im SAP-Quellsystem freigibt.
Bereitstellungsarchitekturen für die Replikation von Streamingdaten
Das folgende Diagramm zeigt zwei Beispielinstallationen für SAP LT Replication Server auf Google Cloudmit der SAP-Datenquelle auf Google Cloud.
Um beide Architekturen zu veranschaulichen, verwendet eine der Bereitstellungen eine eigenständige SAP LT Replication Server-Architektur, in der SAP LT Replication Server auf einem separaten Server installiert ist, und die andere eine eingebettete SAP LT Replication Server-Architektur, in der SAP LT Replication Server auf dem Server des SAP-Quellsystems installiert ist.
Da die SAP LT Replication Server-Instanzen inGoogle Cloudinstalliert sind, stellt BigQuery-Connector für SAP direkt eine Verbindung zum BigQuery API-Endpunkt her, ohne eine Cloud Interconnect- oder Cloud VPN-Verbindung zu erfordern.
Im Diagramm sind die SAP-Systeme und BigQuery in verschiedenen Google Cloud -Projekten dargestellt. Sie können jedoch bei Bedarf dasselbe Projekt für beide verwenden.
Architektur für SAP-Datenquellen lokal oder bei einem anderen Cloud-Anbieter
Das folgende Diagramm zeigt zwei Beispielinstallationen für SAP LT Replication Server, die entweder lokal oder bei einem anderen Cloud-Anbieter ausgeführt werden.
Um beide Architekturen zu veranschaulichen, verwendet eine der Installationen eine eigenständige SAP LT Replication Server-Architektur und die andere eine eingebettete SAP LT Replication Server-Architektur.
In beiden Beispielen wird SAP LT Replication Server in derselben Umgebung wie die SAP-Datenquelle installiert.
Die Verbindung von BigQuery-Connector für SAP in SAP LT Replication Server zu BigQuery wird entweder über eine Cloud Interconnect-Verbindung oder über eine Cloud VPN-Verbindung bereitgestellt.
Detaillierte Architekturansicht des Datenflusses
Das folgende Diagramm zeigt, wo BigQuery-Connector für SAP in den Datenfluss von SAP LT Replication Server passt:
Die folgenden nummerierten Erläuterungen entsprechen den Ziffern im Diagramm:
- Nachdem SAP LT Replication Server initialisiert wurde, werden Änderungen durch Einfügen, Aktualisieren oder Löschen von Einträgen in den Quelltabellen in den Loggingtabellen der Datenbank aufgezeichnet.
- SAP LT Replication Server prüft die Logging-Tabellen kontinuierlich über RFC-Aufrufe auf neue Einträge.
- Wenn SAP LT Replication Server neue Einträge findet, liest die Read Engine die Datensätze und ruft die Zuordnungs- und Transformations-Engine auf.
- Die Zuordnungs- und Transformations-Engine ruft die Write-Engine auf, die BigQuery-Connector für SAP aufruft.
- BigQuery-Connector für SAP führt die folgenden Aktionen aus:
- Ordnet die SAP-Daten dem Namen der Zieltabelle, den Feldnamen und den BigQuery-Datentypen zu.
- Erstellt bei Bedarf die BigQuery-Tabelle
- Sendet die Datensätze in Blöcken über die BigQuery Streaming API.
- Nach dem Eingang der Daten führt BigQuery die folgenden Aktionen aus:
- Führt Validierungsprüfungen durch
- Datensätze in die Zieltabelle einfügen.
- HTTP 200-Statuscode (
OK
) zurück an BigQuery-Connector für SAP senden.
- BigQuery-Connector für SAP übergibt den HTTP-Statuscode
OK
an SAP LT Replication Server, der die replizierten Einträge aus der Logging-Tabelle löscht und Ressourcen im SAP-Quellsystem freigibt.
Nächste Schritte
Informationen zur Planung der Installation und Konfiguration von BigQuery-Connector für SAP finden Sie im Planungsleitfaden für BigQuery-Connector für SAP.