Questa guida fornisce una panoramica di BigQuery Connector per SAP, descrivendone le funzionalità e il modo in cui facilita l'integrazione dei dati tra i sistemi SAP e BigQuery. BigQuery Connector per SAP replica i tuoi dati SAP in BigQuery quasi in tempo reale. Con i tuoi dati in BigQuery, puoi eseguire analisi con l'intelligenza artificiale o il machine learning sui dati delle applicazioni SAP in tempo reale. In BigQuery puoi anche integrare i tuoi dati SAP con quelli di altre origini.
BigQuery Connector per SAP viene installato in SAP Landscape Transformation Replication Server (SAP LT Replication Server) e utilizza le interfacce e le funzionalità standard di SAP Landscape Transformation Replication Server. BigQuery Connector per SAP supporta tutte le origini dati supportate da SAP LT Replication Server.
Google Cloud ha sviluppato BigQuery Connector per SAP come implementazione di un Business Add In (BAdI) SAP per SAP LT Replication Server, seguendo la procedura dell'SDK SAP LT Replication Server. Il connettore utilizza la funzionalità Change Data Capture (CDC) di SAP LT Replication Server.
Trattamento dati
BigQuery Connector per SAP consente solo una trasformazione minima dei dati, in conformità a un modello Estrai, carica, trasforma (ELT), anziché a un modello Estrai, trasforma e carica (ETL). Per ulteriori informazioni su questi modelli, consulta Procedure e pattern per le pipeline di dati.
Il connettore suggerisce automaticamente i campi, i nomi dei campi e i tipi di dati per la tabella di destinazione in base ai dati di origine. Prima che venga creata la tabella BigQuery di destinazione, puoi modificare i valori suggeriti in base alle tue esigenze. I nomi suggeriti per i campi di destinazione si basano sulle descrizioni dei campi nella tabella di origine. Per ulteriori informazioni, vedi Opzioni di denominazione predefinite per i campi.
Sebbene BigQuery Connector per SAP suggerisca automaticamente i tipi di dati BigQuery per la maggior parte dei campi, i valori booleani, timestamp e esadecimali non possono essere interpretati automaticamente, quindi devi mapparli manualmente. Per saperne di più, vedi Mappatura dei tipi di dati.
BigQuery Connector per SAP fornisce diversi punti di miglioramento in cui puoi inserire i tuoi miglioramenti personalizzati nel codice di BigQuery Connector per SAP. Per ulteriori informazioni, vedi Uscite per miglioramenti.
Se una tabella di destinazione non esiste già in BigQuery, BigQuery Connector per SAP ne crea una. Per la replica CDC tramite Pub/Sub, BigQuery Connector per SAP crea automaticamente anche l'argomento Pub/Sub, lo schema e la sottoscrizione necessari.
Percorsi di replica supportati
BigQuery Connector per SAP supporta i seguenti percorsi di replica:
Replica Change Data Capture (CDC) tramite Pub/Sub
Con la replica Change Data Capture (CDC) tramite Pub/Sub, la tabella BigQuery riflette direttamente le modifiche apportate alle tabelle SAP di origine, aggiornando i dati esistenti e aggiungendo nuovi record per mantenere i dati sincronizzati. Questo approccio utilizza le funzionalità CDC dell'API Storage Write, eliminando la necessità di deduplicazione manuale. CDC si concentra sull'acquisizione e sull'applicazione solo delle modifiche (aggiornamenti, eliminazioni e nuovi inserimenti) che si verificano nelle tabelle SAP di origine.
Quando un record in una tabella SAP viene aggiornato o eliminato, BigQuery Connector per SAP pubblica questa modifica in un argomento Pub/Sub. Una sottoscrizione BigQuery lo trasmette poi direttamente alla tabella BigQuery corrispondente, applicando la modifica senza duplicati.
Replica dei dati in streaming
Con la replica dei dati in streaming, la tabella BigQuery aggiunge continuamente nuovi record, riflettendo ogni modifica come una voce distinta in modalità di sola inserimento. Se BigQuery riceve un aggiornamento di un record già esistente nella tabella BigQuery, BigQuery inserisce una nuova istanza del record in questa tabella senza modificare l'istanza esistente. L'istanza inserita più di recente del record riflette lo stato attuale del record nella tabella di origine.
Per la replica dei dati di streaming, BigQuery Connector per SAP utilizza l'API BigQuery Streaming.
Il seguente diagramma illustra entrambi i percorsi di replica dei dati da SAP a BigQuery utilizzando BigQuery Connector per SAP:
La suddivisione del flusso di dati e dei componenti per ogni percorso è la seguente:
Estrazione dei dati ed elaborazione iniziale (comune a entrambi i percorsi)
- Origine dati SAP: l'origine dei dati all'interno dell'ambiente SAP.
- SAP LT Replication Server: si connette all'origine dati SAP tramite una connessione RFC. Il suo ruolo principale è estrarre i dati CDC dall'origine SAP.
- BigQuery Connector per SAP: riceve i dati CDC estratti e determina quale percorso di replica seguiranno i dati in base alle configurazioni.
Percorso di replica CDC
Questo percorso si concentra sulla replica delle modifiche a una tabella CDC BigQuery tramite Pub/Sub:
- API Pub/Sub REST: BigQuery Connector per SAP pubblica i dati CDC su Pub/Sub utilizzando l'API Pub/Sub REST.
- Argomento Pub/Sub: funge da broker di messaggi centrale, ricevendo i dati CDC pubblicati.
- Schema Pub/Sub: associato all'argomento Pub/Sub, lo schema applica la struttura dei dati, che mantiene la coerenza dei dati.
- Sottoscrizione Pub/Sub BigQuery: esegue la sottoscrizione all'argomento Pub/Sub e trasmette in streaming i dati CDC alla tabella CDC BigQuery.
- Tabella CDC BigQuery: la destinazione finale dei dati CDC in BigQuery. Applica le modifiche (aggiornamenti/eliminazioni) e inserisce nuovi record, mantenendo una visualizzazione aggiornata e deduplicata dei dati SAP.
- Argomento dead letter: un argomento Pub/Sub in cui vengono inviati i messaggi che non vengono elaborati dalla sottoscrizione BigQuery per ulteriori indagini manuali, garantendo l'assenza di perdita di dati.
Percorso di replica dei dati in streaming (solo inserimento)
Questo percorso è progettato per inserire continuamente nuovi record in una tabella di gestione temporanea BigQuery, conservando ogni modifica come una nuova voce:
- API BigQuery Streaming REST: BigQuery Connector per SAP trasmette i dati direttamente a BigQuery utilizzando l'API BigQuery Streaming REST.
- Tabella di gestione temporanea BigQuery: la destinazione dei dati di streaming. In questa modalità di solo inserimento, ogni modifica (inclusi aggiornamenti ed eliminazioni di record SAP esistenti) comporta l'aggiunta di una nuova riga a questa tabella.
Scegliere il percorso di replica
Questa sezione confronta i percorsi di replica per aiutarti a decidere quale si adatta meglio alle tue esigenze specifiche in termini di dati e ai requisiti operativi.
Fattore | Replica CDC tramite Pub/Sub | Replica dei dati in streaming (modalità solo inserimento) |
---|---|---|
Come funziona | Acquisisce e applica solo le modifiche alla tabella BigQuery. | Inserisce ogni modifica come nuovo record nella tabella BigQuery. |
Risultato BigQuery | Mantiene un unico record aggiornato aggiornando o eliminando in modo nativo le righe esistenti. | Ogni modifica crea una nuova voce, generando più versioni dello stesso record. |
Vantaggi principali | Fornisce un'elevata coerenza dei dati con i dati più recenti. | Utile per l'importazione di base e fornisce un audit storico. |
Architetture di deployment
Installa BigQuery Connector per SAP come Business Add-In (BAdI) all'interno di un'istanza di SAP LT Replication Server.
L'istanza SAP LT Replication Server può trovarsi su Google Cloud, on-premise o su un altro provider cloud. Ti consigliamo di posizionare l'istanza di SAP LT Replication Server il più vicino possibile all'origine dati SAP. Collabora con il tuo team di rete per assicurarti che ci sia una bassa latenza e un'alta velocità effettiva tra il sistema SAP di origine, SAP LT Replication Server e il tuo set di dati BigQuery.
Le sezioni seguenti descrivono le architetture comuni e consigliate per BigQuery Connector per SAP.
Architetture di deployment per la replica CDC tramite Pub/Sub
Architettura per le origini dati SAP su Google Cloud
Il seguente diagramma mostra due installazioni di esempio di SAP LT Replication Server su Google Cloud, con l'origine dati SAP su Google Cloud.
Per mostrare un esempio di ciascuna architettura, un'installazione utilizza un'architettura standalone di SAP LT Replication Server, in cui SAP LT Replication Server è installato su un server separato, mentre l'altra utilizza un'architettura incorporata di SAP LT Replication Server, in cui SAP LT Replication Server è installato nel server del sistema di origine SAP.
Poiché le istanze di SAP LT Replication Server sono installate su Google Cloud, BigQuery Connector per SAP si connette direttamente all'endpoint API Pub/Sub, senza richiedere una connessione Cloud Interconnect o Cloud VPN.
Architettura per le origini dati SAP on-premise o su un altro provider cloud
Il seguente diagramma mostra due esempi di installazioni di SAP LT Replication Server in esecuzione on-premise o su un altro provider cloud.
Per mostrare un esempio di ciascuna architettura, un'installazione utilizza un'architettura standalone di SAP LT Replication Server e l'altra utilizza un'architettura incorporata di SAP LT Replication Server.
In entrambi gli esempi, SAP LT Replication Server è installato nello stesso ambiente dell'origine dati SAP.
La connessione da BigQuery Connector per SAP in SAP LT Replication Server a Pub/Sub viene fornita da una connessione Cloud Interconnect o da una connessione Cloud VPN.
Visualizzazione architettonica dettagliata del flusso di dati
Il seguente diagramma mostra dove si inserisce BigQuery Connector per SAP nel flusso di dati di SAP LT Replication Server:
Le seguenti spiegazioni numerate corrispondono ai numeri nel diagramma:
- Dopo l'inizializzazione di SAP LT Replication Server, quando i record nelle tabelle di origine vengono inseriti, aggiornati o eliminati, il trigger del database registra le modifiche nelle tabelle di logging.
- SAP LT Replication Server controlla continuamente le tabelle di logging per rilevare nuove voci utilizzando le chiamate RFC.
- Se SAP LT Replication Server trova nuove voci, il motore di lettura legge i record e chiama il motore di mappatura e trasformazione.
- Il motore di mapping e trasformazione chiama il motore di scrittura, che richiama BigQuery Connector per SAP.
- Il motore di scrittura passa i dati elaborati a BigQuery Connector per SAP. In questo caso, l'implementazione
BAdI personalizzata del connettore trasforma i record di modifica SAP in un formato JSON compatibile con Avro.
Compila campi di metadati specifici come segue:
_CHANGE_TYPE
: compilato in base all'operazione SAP SLT. Ad esempio,UPSERT
per inserimenti o aggiornamenti,DELETE
per eliminazioni._CHANGE_SEQUENCE_NUMBER
: un timestamp granulare per l'ordinamento cronologico e la risoluzione dei conflitti in BigQuery.
- I messaggi trasformati vengono poi pubblicati da BigQuery Connector per SAP su Pub/Sub tramite l'API REST di Pub/Sub, utilizzando HTTPS su una connessione sicura.
- Una volta ricevuti i dati, Pub/Sub esegue le seguenti
azioni:
- Esegue controlli di convalida in base allo schema.
- Restituisce un codice di stato HTTP 200 (
OK
) a BigQuery Connector per SAP per i messaggi validi. - Inserisce i record nella tabella BigQuery di destinazione tramite la sottoscrizione BigQuery.
- Acquisisce i messaggi per cui l'importazione BigQuery non va a buon fine in un argomento messaggi non recapitabili, evitando la perdita di dati e semplificando la risoluzione dei problemi.
- L'API BigQuery Storage Write utilizza i campi
_CHANGE_TYPE
e_CHANGE_SEQUENCE_NUMBER
nei messaggi per applicare le modifiche. L'API esegue operazioni di inserimento, aggiornamento o eliminazione, mantenendo così i dati sincronizzati nelle tabelle BigQuery per l'analisi dei dati. - BigQuery Connector per SAP restituisce il codice di stato HTTP
OK
a SAP LT Replication Server, che elimina le voci replicate dalla tabella di logging e libera le risorse sul sistema di origine SAP.
Architetture di deployment per la replica dei dati in streaming
Il seguente diagramma mostra due installazioni di esempio di SAP LT Replication Server su Google Cloud, con l'origine dati SAP su Google Cloud.
Per mostrare un esempio di ciascuna architettura, un deployment utilizza un'architettura autonoma di SAP LT Replication Server, in cui SAP LT Replication Server è installato su un server separato, mentre l'altro utilizza un'architettura incorporata di SAP LT Replication Server, in cui SAP LT Replication Server è installato nel server del sistema di origine SAP.
Poiché le istanze di SAP LT Replication Server sono installate su Google Cloud, BigQuery Connector per SAP si connette direttamente all'endpoint API BigQuery, senza richiedere una connessione Cloud Interconnect o Cloud VPN.
Nel diagramma, i sistemi SAP e BigQuery sono mostrati in progetti Google Cloud diversi, ma puoi utilizzare lo stesso progetto per entrambi, se necessario.
Architettura per le origini dati SAP on-premise o su un altro provider cloud
Il seguente diagramma mostra due esempi di installazioni di SAP LT Replication Server in esecuzione on-premise o su un altro provider cloud.
Per mostrare un esempio di ciascuna architettura, un'installazione utilizza un'architettura standalone di SAP LT Replication Server e l'altra utilizza un'architettura incorporata di SAP LT Replication Server.
In entrambi gli esempi, SAP LT Replication Server è installato nello stesso ambiente dell'origine dati SAP.
La connessione da BigQuery Connector per SAP in SAP LT Replication Server a BigQuery viene fornita da una connessione Cloud Interconnect o da una connessione Cloud VPN.
Visualizzazione architettonica dettagliata del flusso di dati
Il seguente diagramma mostra dove si inserisce BigQuery Connector per SAP nel flusso di dati di SAP LT Replication Server:
Le seguenti spiegazioni numerate corrispondono ai numeri nel diagramma:
- Dopo l'inizializzazione di SAP LT Replication Server, quando i record nelle tabelle di origine vengono inseriti, aggiornati o eliminati, il trigger del database registra le modifiche nelle tabelle di logging.
- SAP LT Replication Server controlla continuamente le tabelle di logging per rilevare nuove voci utilizzando le chiamate RFC.
- Se SAP LT Replication Server trova nuove voci, il motore di lettura legge i record e chiama il motore di mappatura e trasformazione.
- Il motore di mapping e trasformazione chiama il motore di scrittura, che richiama BigQuery Connector per SAP.
- BigQuery Connector per SAP esegue le seguenti azioni:
- Mappa i dati SAP con il nome della tabella di destinazione, i nomi dei campi e i tipi di dati BigQuery.
- Crea la tabella BigQuery, se necessario.
- Invia i record a BigQuery in blocchi tramite l'API BigQuery Streaming.
- Una volta ricevuti i dati, BigQuery esegue le seguenti
azioni:
- Esegue controlli di convalida.
- Inserisce i record nella tabella di destinazione.
- Invia un codice di stato HTTP 200 (
OK
) a BigQuery Connector per SAP.
- BigQuery Connector per SAP restituisce il codice di stato HTTP
OK
a SAP LT Replication Server, che elimina le voci replicate dalla tabella di logging e libera le risorse sul sistema di origine SAP.
Passaggi successivi
Per informazioni sulla pianificazione dell'installazione e della configurazione di BigQuery Connector per SAP, consulta la guida alla pianificazione di BigQuery Connector per SAP.