Ringkasan BigQuery Connector untuk SAP

Panduan ini memberikan ringkasan BigQuery Connector untuk SAP, yang menjelaskan kemampuannya dan cara memfasilitasi integrasi data antara sistem SAP dan BigQuery. BigQuery Connector untuk SAP mereplikasi data SAP Anda ke BigQuery hampir secara real time. Dengan data di BigQuery, Anda dapat menjalankan analytics dengan kecerdasan buatan atau machine learning pada data aplikasi SAP secara langsung. Di BigQuery, Anda juga dapat mengintegrasikan data SAP dengan data dari sumber lain.

BigQuery Connector untuk SAP diinstal ke Server Replikasi Transformasi Lanskap SAP (SAP LT Replication Server) dan menggunakan antarmuka serta kemampuan standar SAP Landscape Transformation Replication Server. BigQuery Connector untuk SAP mendukung semua sumber data yang didukung oleh Server Replikasi SAP LT.

Google Cloud telah mengembangkan BigQuery Connector untuk SAP sebagai penerapan Business Add In (BAdI) SAP untuk SAP LT Replication Server, dengan mengikuti proses SDK Server Replikasi SAP LT. Konektor ini menggunakan fitur pengambilan data perubahan (CDC) Server Replikasi SAP LT.

Pemrosesan data

BigQuery Connector untuk SAP hanya memungkinkan transformasi data yang minimal, sesuai dengan model extract, load, transform (ELT), bukan model extract, transform, load (ETL). Untuk mengetahui informasi selengkapnya tentang model ini, lihat Prosedur dan pola untuk pipeline data.

Konektor otomatis menyarankan kolom, nama kolom, dan jenis data untuk tabel target berdasarkan data sumber. Sebelum tabel BigQuery target dibuat, Anda dapat mengubah nilai yang disarankan sesuai kebutuhan. Nama yang disarankan untuk kolom target didasarkan pada deskripsi kolom dalam tabel sumber. Untuk mengetahui informasi selengkapnya, lihat Opsi penamaan default untuk kolom.

Meskipun BigQuery Connector untuk SAP otomatis menyarankan jenis data BigQuery untuk sebagian besar kolom, nilai boolean, stempel waktu, dan heksadesimal tidak dapat diinterpretasikan secara otomatis, sehingga Anda perlu memetakannya secara manual. Untuk mengetahui informasi selengkapnya, lihat Pemetaan jenis data.

BigQuery Connector untuk SAP menyediakan beberapa spot peningkatan kualitas tempat Anda dapat memasukkan peningkatan kustom sendiri ke dalam kode BigQuery Connector untuk SAP. Untuk mengetahui informasi selengkapnya, lihat Exit peningkatan.

Jika tabel target belum ada di BigQuery, maka BigQuery Connector untuk SAP akan membuatnya. Untuk replikasi CDC melalui Pub/Sub, BigQuery Connector untuk SAP juga otomatis membuat topik, skema, dan langganan Pub/Sub yang diperlukan.

Jalur replikasi yang didukung

BigQuery Connector untuk SAP mendukung jalur replikasi berikut:

Replikasi Change Data Capture (CDC) melalui Pub/Sub

Dengan replikasi Change Data Capture (CDC) melalui Pub/Sub, tabel BigQuery Anda secara langsung mencerminkan perubahan dari tabel SAP sumber, memperbarui data yang ada, dan menambahkan data baru agar data tetap disinkronkan. Pendekatan ini menggunakan kemampuan CDC Storage Write API, sehingga tidak perlu melakukan penghapusan duplikat secara manual. CDC berfokus untuk mengambil dan menerapkan hanya perubahan (pembaruan, penghapusan, dan penyisipan baru) yang terjadi di tabel SAP sumber Anda.

Saat kumpulan data dalam tabel SAP diperbarui atau dihapus, BigQuery Connector untuk SAP akan memublikasikan perubahan ini ke topik Pub/Sub. Kemudian, langganan BigQuery akan melakukan streaming langsung ke tabel BigQuery yang sesuai, menerapkan perubahan tanpa duplikat.

Replikasi data streaming

Dengan replikasi data streaming, tabel BigQuery Anda akan terus menambahkan kumpulan data baru, yang mencerminkan setiap perubahan sebagai entri yang berbeda dalam mode hanya sisipkan. Jika BigQuery menerima pembaruan pada kumpulan data yang sudah ada dalam tabel BigQuery, BigQuery akan memasukkan instance kumpulan data baru ke dalam tabel tersebut tanpa mengubah instance yang ada. Instance kumpulan data yang baru saja dimasukkan mencerminkan status kumpulan data saat ini dalam tabel sumber.

Untuk replikasi data streaming, BigQuery Connector untuk SAP menggunakan BigQuery streaming API.

Diagram berikut menggambarkan kedua jalur replikasi data dari SAP ke BigQuery, dengan menggunakan BigQuery Connector untuk SAP:

Jalur replikasi ke BigQuery

Perincian aliran data dan komponen untuk setiap jalur adalah sebagai berikut:

Ekstraksi data dan pemrosesan awal (Umum untuk kedua jalur)

  • Sumber data SAP: Berasal dari data dalam lingkungan SAP.
  • SAP LT Replication Server: Terhubung ke sumber data SAP melalui koneksi RFC. Peran utamanya adalah mengekstrak data CDC dari sumber SAP.
  • BigQuery Connector untuk SAP: Menerima data CDC yang diekstrak dan menentukan jalur replikasi yang akan diambil data berdasarkan konfigurasi.

Jalur replikasi CDC

Jalur ini berfokus pada mereplikasi perubahan ke tabel CDC BigQuery melalui Pub/Sub:

  • Pub/Sub REST API: BigQuery Connector untuk SAP memublikasikan data CDC ke Pub/Sub menggunakan Pub/Sub REST API.
  • Topik Pub/Sub: Ini bertindak sebagai broker pesan pusat, yang menerima data CDC yang dipublikasikan.
  • Skema Pub/Sub: Terkait dengan topik Pub/Sub, skema ini menerapkan struktur data, yang mempertahankan konsistensi data.
  • Langganan Pub/Sub BigQuery: Berlangganan ke topik Pub/Sub dan mengalirkan data CDC ke tabel CDC BigQuery.
  • Tabel CDC BigQuery: Tujuan akhir untuk data CDC di BigQuery. Proses ini menerapkan perubahan (pembaruan/penghapusan) dan menyisipkan data baru, dengan mempertahankan tampilan data SAP yang sudah dideduplikasi dan terbaru.
  • Topik yang dihentikan pengirimannya: Topik Pub/Sub tempat pesan yang gagal diproses oleh langganan BigQuery dikirim untuk penyelidikan manual lebih lanjut, sehingga memastikan tidak ada kehilangan data.

Jalur replikasi data streaming (Khusus penyisipan)

Jalur ini dirancang untuk terus menyisipkan kumpulan data baru ke dalam tabel penyiapan BigQuery, dengan mempertahankan setiap perubahan sebagai entri baru:

  • BigQuery Streaming REST API: BigQuery Connector untuk SAP melakukan streaming data langsung ke BigQuery menggunakan BigQuery Streaming REST API.
  • Tabel penyiapan BigQuery: Tujuan untuk data streaming. Dalam mode hanya sisipkan ini, setiap perubahan (termasuk pembaruan dan penghapusan pada data SAP yang ada) akan menghasilkan baris baru yang ditambahkan ke tabel ini.

Memilih jalur replikasi Anda

Bagian ini membandingkan jalur replikasi untuk membantu Anda memutuskan jalur mana yang paling sesuai dengan kebutuhan data dan persyaratan operasional spesifik Anda.

Faktor Replikasi CDC melalui Pub/Sub Replikasi data streaming (Mode hanya penyisipan)
Cara kerjanya Mencatat dan hanya menerapkan perubahan pada tabel BigQuery. Menyisipkan setiap perubahan sebagai data baru ke tabel BigQuery.
Hasil BigQuery Mempertahankan satu catatan yang terbaru dengan memperbarui atau menghapus baris yang ada secara native. Setiap perubahan akan membuat entri baru, sehingga menghasilkan beberapa versi dari data yang sama.
Manfaat utama Menyediakan konsistensi data yang tinggi dengan data terbaru. Berguna untuk penyerapan dasar dan memberikan audit historis.

Arsitektur deployment

Anda menginstal BigQuery Connector untuk SAP sebagai Business Add-In (BAdI) dalam instance Server Replikasi SAP LT.

Instance Server Replikasi SAP LT dapat berada di Google Cloud, infrastruktur lokal, atau di penyedia cloud lainnya. Sebaiknya tempatkan instance Server Replikasi SAP LT sedekat mungkin dengan sumber data SAP. Bekerja samalah dengan tim jaringan Anda untuk memastikan latensi rendah dan throughput yang tinggi antara sistem SAP sumber, Server Replikasi SAP LT, dan set data BigQuery.

Bagian berikut menjelaskan arsitektur umum yang direkomendasikan untuk BigQuery Connector untuk SAP.

Arsitektur deployment untuk replikasi CDC melalui Pub/Sub

Arsitektur untuk sumber data SAP di Google Cloud

Diagram berikut menunjukkan dua contoh penginstalan Server Replikasi SAP LT di Google Cloud, dengan sumber data SAP di Google Cloud.

Untuk menunjukkan contoh setiap arsitektur, salah satu penginstalan menggunakan arsitektur mandiri Server Replikasi SAP LT, dengan Server Replikasi SAP LT diinstal di server terpisah, dan penginstalan lainnya menggunakan arsitektur tersemat Server Replikasi SAP LT, dengan Server Replikasi SAP LT diinstal di server sistem sumber SAP.

Karena instance Server Replikasi SAP LT diinstal di Google Cloud, BigQuery Connector untuk SAP terhubung langsung ke endpoint Pub/Sub API, tanpa memerlukan koneksi Cloud Interconnect atau Cloud VPN.

Arsitektur untuk sumber data SAP di Google Cloud

Arsitektur untuk sumber data SAP di infrastruktur lokal atau di penyedia cloud lain

Diagram berikut menunjukkan dua contoh penginstalan Server Replikasi SAP LT yang berjalan di infrastruktur lokal atau di penyedia cloud lain.

Untuk menampilkan contoh setiap arsitektur, satu penginstalan menggunakan arsitektur mandiri Server Replikasi SAP LT dan penginstalan lainnya menggunakan arsitektur tersemat Server Replikasi SAP LT.

Dalam kedua contoh tersebut, Server Replikasi SAP LT diinstal di lingkungan yang sama dengan sumber data SAP.

Koneksi dari BigQuery Connector untuk SAP di Server Replikasi SAP LT ke Pub/Sub disediakan oleh koneksi Cloud Interconnect atau koneksi Cloud VPN.

Arsitektur untuk sumber data SAP di infrastruktur lokal atau di penyedia cloud lain

Tampilan arsitektur mendetail tentang aliran data

Diagram berikut menunjukkan lokasi BigQuery Connector untuk SAP sesuai dengan aliran data Server Replikasi SAP LT:

Tampilan arsitektur mendetail tentang aliran data

Penjelasan bernomor berikut sesuai dengan angka dalam diagram:

  1. Setelah Server Replikasi SAP LT diinisialisasi, saat kumpulan data dalam tabel sumber disisipkan, diperbarui, atau dihapus, pemicu database akan mencatat perubahan dalam tabel logging.
  2. Server Replikasi SAP LT terus memeriksa tabel logging untuk entri baru menggunakan panggilan RFC.
  3. Jika Server Replikasi SAP LT menemukan entri baru, mesin Baca akan membaca kumpulan data dan memanggil mesin Pemetaan dan transformasi.
  4. Mesin Pemetaan dan transformasi memanggil mesin Tulis, yang memanggil BigQuery Connector untuk SAP.
  5. Mesin tulis meneruskan data yang diproses ke BigQuery Connector untuk SAP. Di sini, penerapan BAdI kustom konektor mengubah rekaman perubahan SAP menjadi format JSON yang kompatibel dengan Avro. Kolom ini mengisi kolom metadata tertentu sebagai berikut:
    1. _CHANGE_TYPE: Diisi berdasarkan operasi SAP SLT. Misalnya, UPSERT untuk penyisipan atau pembaruan, DELETE untuk penghapusan.
    2. _CHANGE_SEQUENCE_NUMBER: Stempel waktu terperinci untuk pengurutan kronologis dan penyelesaian konflik di BigQuery.
    Konektor juga memetakan tabel dan kolom (nama dan jenis data) dari SAP ke BigQuery.
  6. Pesan yang telah diubah kemudian dipublikasikan oleh BigQuery Connector untuk SAP ke Pub/Sub melalui Pub/Sub REST API, dengan menggunakan HTTPS melalui koneksi yang aman.
  7. Setelah menerima data, Pub/Sub akan melakukan tindakan berikut:
    1. Melakukan pemeriksaan validasi sesuai dengan skema.
    2. Mengirim respons kode status HTTP 200 (OK) ke BigQuery Connector untuk SAP untuk pesan yang valid.
    3. Menyisipkan rekaman ke dalam tabel target BigQuery melalui langganan BigQuery.
    4. Mencatat pesan yang gagal diproses BigQuery, dalam topik pesan yang tidak terkirim, sehingga mencegah kehilangan data dan menyederhanakan pemecahan masalah.
  8. BigQuery Storage Write API menggunakan kolom _CHANGE_TYPE dan _CHANGE_SEQUENCE_NUMBER dalam pesan untuk menerapkan perubahan. API melakukan operasi penyisipan, pembaruan, atau penghapusan, sehingga data tetap disinkronkan di tabel BigQuery untuk analisis data.
  9. BigQuery Connector untuk SAP meneruskan kode status OK HTTP kembali ke Server Replikasi SAP LT, yang menghapus entri yang direplikasi dari tabel logging dan membebaskan resource pada sistem sumber SAP.

Arsitektur deployment untuk replikasi data streaming

Diagram berikut menunjukkan dua contoh penginstalan Server Replikasi SAP LT di Google Cloud, dengan sumber data SAP di Google Cloud.

Untuk menampilkan contoh setiap arsitektur, satu deployment menggunakan arsitektur mandiri Server Replikasi SAP LT, yang menginstal Server Replikasi SAP LT di server terpisah, dan deployment lainnya menggunakan arsitektur tersemat Server Replikasi SAP LT, yang menginstal Server Replikasi SAP LT di server sistem sumber SAP.

Karena instance Server Replikasi SAP LT diinstal di Google Cloud, BigQuery Connector untuk SAP terhubung secara langsung ke endpoint BigQuery API, tanpa memerlukan koneksi Cloud Interconnect atau Cloud VPN.

Dalam diagram, sistem SAP dan BigQuery ditampilkan dalam project yang berbeda, tetapi Anda dapat menggunakan project yang sama untuk keduanya, jika perlu. Google Cloud

Arsitektur untuk sumber data SAP di Google Cloud

Arsitektur untuk sumber data SAP di infrastruktur lokal atau di penyedia cloud lain

Diagram berikut menunjukkan dua contoh penginstalan Server Replikasi SAP LT yang berjalan di infrastruktur lokal atau di penyedia cloud lain.

Untuk menampilkan contoh setiap arsitektur, satu penginstalan menggunakan arsitektur mandiri Server Replikasi SAP LT dan penginstalan lainnya menggunakan arsitektur tersemat Server Replikasi SAP LT.

Dalam kedua contoh tersebut, Server Replikasi SAP LT diinstal di lingkungan yang sama dengan sumber data SAP.

Koneksi dari BigQuery Connector untuk SAP di Server Replikasi SAP LT ke BigQuery disediakan oleh koneksi Cloud Interconnect atau koneksi Cloud VPN.

Arsitektur untuk sumber data SAP di infrastruktur lokal atau di penyedia cloud lain

Tampilan arsitektur mendetail tentang aliran data

Diagram berikut menunjukkan lokasi BigQuery Connector untuk SAP sesuai dengan aliran data Server Replikasi SAP LT:

Tampilan arsitektur mendetail tentang aliran data

Penjelasan bernomor berikut sesuai dengan angka dalam diagram:

  1. Setelah Server Replikasi SAP LT diinisialisasi, saat kumpulan data dalam tabel sumber disisipkan, diperbarui, atau dihapus, pemicu database akan mencatat perubahan dalam tabel logging.
  2. Server Replikasi SAP LT terus memeriksa tabel logging untuk entri baru menggunakan panggilan RFC.
  3. Jika Server Replikasi SAP LT menemukan entri baru, mesin Baca akan membaca kumpulan data dan memanggil mesin Pemetaan dan transformasi.
  4. Mesin Pemetaan dan transformasi memanggil mesin Tulis, yang memanggil BigQuery Connector untuk SAP.
  5. BigQuery Connector untuk SAP melakukan tindakan berikut:
    1. Memetakan data SAP ke nama tabel target, nama kolom, dan jenis data BigQuery.
    2. Membuat tabel BigQuery, jika diperlukan.
    3. Mengirim kumpulan data ke BigQuery dalam beberapa potongan melalui BigQuery streaming API.
  6. Setelah menerima data, BigQuery akan melakukan tindakan berikut:
    1. Melakukan pemeriksaan validasi.
    2. Menyisipkan kumpulan data ke dalam tabel target.
    3. Mengirim respons kode status HTTP 200 (OK) ke BigQuery Connector untuk SAP.
  7. BigQuery Connector untuk SAP meneruskan kode status OK HTTP kembali ke Server Replikasi SAP LT, yang menghapus entri yang direplikasi dari tabel logging dan membebaskan resource pada sistem sumber SAP.

Langkah berikutnya

Untuk mengetahui informasi tentang perencanaan penginstalan dan konfigurasi BigQuery Connector untuk SAP, lihat panduan perencanaan BigQuery Connector untuk SAP.