Visão geral do BigQuery Connector para SAP

Este guia oferece uma visão geral do BigQuery Connector para SAP, detalhando os recursos e como ele facilita a integração de dados entre sistemas SAP e o BigQuery. O BigQuery Connector para SAP replica seus dados do SAP no BigQuery quase em tempo real. Com os dados no BigQuery, é possível realizar análises com inteligência artificial ou machine learning em dados de aplicativos SAP em tempo real. No BigQuery, também é possível integrar seus dados da SAP com dados de outras fontes.

O BigQuery Connector para SAP instala no SAP Landscape Transformation Replication Server (SAP LT Replication Server) e usa as interfaces e os recursos padrão do SAP Landscape Transformation Replication Server. O BigQuery Connector para SAP é compatível com todas as origens de dados aceitas pelo SAP LT Replication Server.

Google Cloud desenvolveu o BigQuery Connector para SAP como uma implementação de um complemento empresarial (BAdI) do SAP para o SAP LT Replication Server, seguindo o processo do SDK do SAP LT Replication Server. O conector usa o recurso de captura de dados alterados (CDC) do SAP LT Replication Server.

Processamento de dados

O BigQuery Connector para SAP permite apenas uma transformação de dados mínima, em conformidade com umaextrair, carregar, transformar modelo (ELT), e não umaextrair, transformar e carregar (ETL, na sigla em inglês). Para mais informações sobre esses modelos, consulte Procedimentos e padrões de pipelines de dados.

O conector sugere automaticamente os campos, nomes de campos e tipos de dados da tabela de destino com base nos dados de origem. Antes de criar a tabela de destino do BigQuery, modifique os valores sugeridos conforme necessário. Os nomes sugeridos para os campos de destino são baseados nas descrições dos campos na tabela de origem. Para mais informações, consulte Opções de nomenclatura padrão para campos.

O BigQuery Connector para SAP sugere automaticamente os tipos de dados do BigQuery para a maioria dos campos, mas os valores booleanos, de carimbo de data/hora e hexadecimais não podem ser interpretados de maneira automática. Portanto, você precisa mapeá-los manualmente. Para mais informações, consulte Mapeamento de tipo de dados.

O BigQuery Connector para SAP oferece vários locais de aprimoramento em que é possível inserir suas próprias melhorias personalizadas no código do BigQuery Connector para SAP. Para mais informações, consulte Saídas de aprimoramento.

Se uma tabela de destino ainda não existir no BigQuery, o BigQuery Connector para SAP será criado. Para replicação de CDC pelo Pub/Sub, o BigQuery Connector para SAP também cria automaticamente o tópico, o esquema e a assinatura necessários do Pub/Sub.

Caminhos de replicação compatíveis

O BigQuery Connector para SAP é compatível com os seguintes caminhos de replicação:

Replicação de captura de dados de alterações (CDC) pelo Pub/Sub

Com a replicação de captura de dados alterados (CDC) pelo Pub/Sub, sua tabela do BigQuery reflete diretamente as mudanças das tabelas de origem do SAP, atualizando os dados atuais e adicionando novos registros para manter os dados sincronizados. Essa abordagem usa os recursos de CDC da API Storage Write, eliminando a necessidade de remoção manual de duplicidades. A CDC se concentra na captura e na aplicação apenas das mudanças (atualizações, exclusões e novas inserções) que ocorrem nas tabelas SAP de origem.

Quando um registro em uma tabela SAP é atualizado ou excluído, o BigQuery Connector para SAP publica essa mudança em um tópico do Pub/Sub. Uma assinatura do BigQuery transmite os dados diretamente para a tabela correspondente do BigQuery, aplicando a mudança sem duplicatas.

Replicação de dados de streaming

Com a replicação de dados de streaming, sua tabela do BigQuery anexa continuamente novos registros, refletindo cada mudança como uma entrada distinta em um modo somente de inserção. Se o BigQuery receber uma atualização em um registro que já existe nele, o BigQuery inserirá uma nova instância do registro nessa tabela sem modificar a instância atual. A instância do registro inserida mais recentemente reflete o estado atual do registro na tabela de origem.

Para a replicação de dados de streaming, o BigQuery Connector para SAP usa a API BigQuery Streaming.

O diagrama a seguir ilustra os dois caminhos de replicação de dados do SAP para o BigQuery usando o BigQuery Connector para SAP:

Caminhos de replicação para o BigQuery

Confira a seguir o detalhamento do fluxo de dados e dos componentes de cada caminho:

Extração de dados e processamento inicial (comum aos dois caminhos)

  • Fonte de dados SAP:origina os dados no ambiente SAP.
  • SAP LT Replication Server:se conecta à fonte de dados SAP por uma conexão RFC. A função principal dele é extrair dados de CDC da fonte SAP.
  • BigQuery Connector para SAP:recebe os dados de CDC extraídos e determina qual caminho de replicação os dados vão seguir com base nas configurações.

Caminho de replicação de CDC

Este caminho se concentra na replicação de mudanças em uma tabela de CDC do BigQuery usando o Pub/Sub:

  • API REST do Pub/Sub: o BigQuery Connector para SAP publica os dados de CDC no Pub/Sub usando a API REST do Pub/Sub.
  • Tópico do Pub/Sub: funciona como um agente de mensagens central, recebendo os dados de CDC publicados.
  • Esquema do Pub/Sub: associado ao tópico do Pub/Sub, o esquema impõe a estrutura de dados, que mantém a consistência dos dados.
  • Assinatura do Pub/Sub no BigQuery: assina o tópico do Pub/Sub e transmite os dados de CDC para a tabela de CDC do BigQuery.
  • Tabela de CDC do BigQuery:o destino final dos dados de CDC no BigQuery. Ele aplica mudanças (atualizações/exclusões) e insere novos registros, mantendo uma visualização atualizada e sem duplicações dos dados do SAP.
  • Tópico de mensagens inativas: um tópico do Pub/Sub em que as mensagens que não são processadas pela assinatura do BigQuery são enviadas para investigação manual, garantindo que não haja perda de dados.

Caminho de replicação de dados de streaming (somente inserção)

Esse caminho foi projetado para inserir continuamente novos registros em uma tabela de preparação do BigQuery, preservando cada mudança como uma nova entrada:

  • API REST de streaming do BigQuery: o BigQuery Connector para SAP faz streaming dos dados diretamente para o BigQuery usando a API REST de streaming do BigQuery.
  • Tabela de preparo do BigQuery: o destino dos dados de streaming. Nesse modo somente inserção, cada mudança (incluindo atualizações e exclusões de registros SAP atuais) resulta em uma nova linha anexada a essa tabela.

Escolher o caminho de replicação

Esta seção compara os caminhos de replicação para ajudar você a decidir qual deles melhor se adapta às suas necessidades específicas de dados e requisitos operacionais.

Fator Replicação de CDC pelo Pub/Sub Replicação de dados de streaming (modo somente inserção)
Como funciona Captura e aplica apenas as mudanças na tabela do BigQuery. Insere cada mudança como um novo registro na tabela do BigQuery.
Resultado do BigQuery Mantém um único registro atualizado atualizando ou excluindo linhas existentes de forma nativa. Cada mudança cria uma nova entrada, resultando em várias versões do mesmo registro.
Principais vantagens Oferece alta consistência de dados com as informações mais recentes. Útil para ingestão básica e fornece uma auditoria histórica.

Arquiteturas de implantação

Você instala o BigQuery Connector para SAP como um complemento empresarial (BAdI) em uma instância do servidor SAP LT Replication.

A instância do SAP LT Replication Server pode estar no Google Cloud, no local ou em outro provedor de nuvem. Recomendamos que você coloque a instância do SAP LT Replication Server o mais próximo possível da fonte de dados SAP. Trabalhe com sua equipe de rede para garantir baixa latência e alta capacidade entre o sistema SAP de origem, o SAP LT Replication Server e o conjunto de dados do BigQuery.

As seções a seguir descrevem arquiteturas comuns e recomendadas para o BigQuery Connector para SAP.

Arquiteturas de implantação para replicação de CDC pelo Pub/Sub

Arquitetura para fontes de dados SAP no Google Cloud

O diagrama a seguir mostra dois exemplos de instalações do SAP LT Replication Server em Google Cloud, com a fonte de dados SAP em Google Cloud.

Para mostrar um exemplo de cada arquitetura, uma instalação usa uma arquitetura independente do SAP LT Replication Server, em que o servidor é instalado em um servidor separado e o outro usa uma Arquitetura incorporada do SAP LT Replication Server, em que o SAP LT Replication Server está instalado no servidor do sistema de origem SAP.

Como as instâncias do servidor de replicação do SAP LT estão instaladas no Google Cloud, o BigQuery Connector para SAP se conecta diretamente ao endpoint de API Pub/Sub, sem exigir uma conexão do Cloud Interconnect ou do Cloud VPN.

Arquitetura para fontes de dados SAP no Google Cloud

Arquitetura de fontes de dados SAP no local ou em outro provedor de nuvem

O diagrama a seguir mostra dois exemplos de instalações do SAP LT Replication Server em execução no local ou em outro provedor de nuvem.

Para mostrar um exemplo de cada arquitetura, uma instalação usa uma arquitetura autônoma do SAP LT Replication Server, e a outra usa uma arquitetura incorporada.

Nos dois exemplos, o SAP LT Replication Server é instalado no mesmo ambiente que a fonte de dados SAP.

A conexão do BigQuery Connector para SAP no SAP LT Replication Server com o Pub/Sub é fornecida por uma conexão do Cloud Interconnect ou do Cloud VPN.

Arquitetura de fontes de dados SAP no local ou em outro provedor de nuvem

Visualização arquitetônica detalhada do fluxo de dados

O diagrama a seguir mostra onde o BigQuery Connector para SAP se encaixa no fluxo de dados do SAP LT Replication Server:

Visualização arquitetônica detalhada do fluxo de dados

As seguintes explicações numeradas correspondem aos números no diagrama:

  1. Depois que o SAP LT Replication Server é inicializado, quando os registros nas tabelas de origem são inseridos, atualizados ou excluídos, o gatilho do banco de dados registra as mudanças nas tabelas de geração de registros.
  2. O servidor de replicação SAP LT verifica continuamente as tabelas de geração de registros em busca de novas entradas por meio de chamadas RFC.
  3. Se o SAP LT Replication Server encontrar novas entradas, o mecanismo de leitura lerá os registros e chamará o mecanismo de mapeamento e transformação.
  4. O mecanismo de mapeamento e transformação chama o mecanismo de gravação, que invoca BigQuery Connector para SAP.
  5. O mecanismo de gravação transmite os dados processados ao BigQuery Connector para SAP. Aqui, a implementação personalizada da BAdI do conector transforma os registros de mudança do SAP em um formato JSON compatível com Avro. Ele preenche campos de metadados específicos da seguinte forma:
    1. _CHANGE_TYPE: preenchido com base na operação do SAP SLT. Por exemplo, UPSERT para inserções ou atualizações e DELETE para exclusões.
    2. _CHANGE_SEQUENCE_NUMBER: um carimbo de data/hora granular para ordenação cronológica e resolução de conflitos no BigQuery.
    O conector também mapeia tabelas e campos (nomes e tipos de dados) do SAP para o BigQuery.
  6. As mensagens transformadas são publicadas pelo BigQuery Connector para SAP no Pub/Sub pela API REST do Pub/Sub, usando HTTPS em uma conexão segura.
  7. Após o recebimento dos dados, o Pub/Sub realiza as seguintes ações:
    1. Executa verificações de validação de acordo com o esquema.
    2. Envia um código de status HTTP 200 (OK) de volta ao BigQuery Connector para SAP para mensagens válidas.
    3. Insere os registros na tabela de destino do BigQuery usando a assinatura do BigQuery.
    4. Captura as mensagens que falham na ingestão do BigQuery em um tópico de mensagens inativas, evitando a perda de dados e simplificando a solução de problemas.
  8. A API BigQuery Storage Write usa os campos _CHANGE_TYPE e _CHANGE_SEQUENCE_NUMBER nas mensagens para aplicar as mudanças. A API realiza operações de inserção, atualização ou exclusão, mantendo os dados sincronizados nas tabelas do BigQuery para análise de dados.
  9. O BigQuery Connector para SAP transmite o código de status HTTP OK de volta para o SAP LT Replication Server, que exclui as entradas replicadas da tabela de geração de registros e libera recursos no sistema de origem SAP.

Arquiteturas de implantação para replicação de dados de streaming

O diagrama a seguir mostra dois exemplos de instalações do SAP LT Replication Server em Google Cloud, com a fonte de dados SAP em Google Cloud.

Para mostrar um exemplo de cada arquitetura, uma implantação usa uma arquitetura independente do SAP LT Replication Server, em que o SAP LT Replication Server é instalado em um servidor separado, e a outra usa uma arquitetura incorporada do SAP LT Replication Server, em que o SAP LT Replication Server é instalado no servidor do sistema de origem do SAP.

Como as instâncias do servidor de replicação do SAP LT estão instaladas no Google Cloud, o BigQuery Connector para SAP se conecta diretamente ao endpoint de API BigQuery, sem exigir uma conexão do Cloud Interconnect ou do Cloud VPN.

No diagrama, os sistemas SAP e o BigQuery são mostrados em diferentes projetos do Google Cloud , mas é possível usar o mesmo projeto para ambos, se necessário.

Arquitetura para fontes de dados SAP no Google Cloud

Arquitetura de fontes de dados SAP no local ou em outro provedor de nuvem

O diagrama a seguir mostra dois exemplos de instalações do SAP LT Replication Server em execução no local ou em outro provedor de nuvem.

Para mostrar um exemplo de cada arquitetura, uma instalação usa uma arquitetura autônoma do SAP LT Replication Server, e a outra usa uma arquitetura incorporada.

Nos dois exemplos, o SAP LT Replication Server é instalado no mesmo ambiente que a fonte de dados SAP.

A conexão do BigQuery Connector para SAP no SAP LT Replication Server com o BigQuery é fornecida por uma conexão do Cloud Interconnect ou do Cloud VPN.

Arquitetura de fontes de dados SAP no local ou em outro provedor de nuvem

Visualização arquitetônica detalhada do fluxo de dados

O diagrama a seguir mostra onde o BigQuery Connector para SAP se encaixa no fluxo de dados do SAP LT Replication Server:

Visualização arquitetônica detalhada do fluxo de dados

As seguintes explicações numeradas correspondem aos números no diagrama:

  1. Depois que o SAP LT Replication Server é inicializado, quando os registros nas tabelas de origem são inseridos, atualizados ou excluídos, o gatilho do banco de dados registra as mudanças nas tabelas de geração de registros.
  2. O servidor de replicação SAP LT verifica continuamente as tabelas de geração de registros em busca de novas entradas por meio de chamadas RFC.
  3. Se o SAP LT Replication Server encontrar novas entradas, o mecanismo de leitura lerá os registros e chamará o mecanismo de mapeamento e transformação.
  4. O mecanismo de mapeamento e transformação chama o mecanismo de gravação, que invoca BigQuery Connector para SAP.
  5. O BigQuery Connector para SAP realiza as seguintes ações:
    1. Mapeia os dados do SAP para o nome da tabela de destino, os nomes de campo e os tipos de dados do BigQuery.
    2. Cria a tabela do BigQuery, se necessário.
    3. Envia os registros para o BigQuery em partes por meio da API de streaming do BigQuery.
  6. Após o recebimento dos dados, o BigQuery realiza as seguintes ações:
    1. Executa verificações de validação.
    2. Insere os registros na tabela de destino.
    3. Envia um código de status HTTP 200 (OK) de volta ao conector do BigQuery para SAP.
  7. O BigQuery Connector para SAP transmite o código de status HTTP OK de volta para o SAP LT Replication Server, que exclui as entradas replicadas da tabela de geração de registros e libera recursos no sistema de origem SAP.

A seguir

Para informações sobre o planejamento da instalação e configuração do BigQuery Connector para SAP, consulte o Guia de planejamento do BigQuery Connector para SAP.