Diese Seite wurde von der Cloud Translation API übersetzt.

Daten aus SQL Server in BigQuery replizieren

In dieser Anleitung erfahren Sie, wie Sie einen Job erstellen und bereitstellen, der geänderte Daten kontinuierlich aus einer Microsoft SQL Server-Datenbank in eine BigQuery-Tabelle repliziert.

Ziele

In dieser Anleitung erwartet Sie Folgendes:

Aktivieren Sie Change Data Capture (CDC) in Ihrer SQL Server-Datenbank.
Cloud Data Fusion-Replikationsjob erstellen und ausführen
Ergebnisse in BigQuery anzeigen

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Nutzern von Google Cloud steht möglicherweise eine kostenlose Testversion zur Verfügung.

Wenn die Replikation ausgeführt wird, wird Ihnen der Dataproc-Cluster in Rechnung gestellt und es entstehen Verarbeitungskosten für BigQuery. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.

Hinweise

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Erstellen Sie eine öffentliche Cloud Data Fusion-Instanz in Version 6.3.0 oder höher. Wenn Sie eine private Instanz erstellen, richten Sie VPC-Netzwerk-Peering ein.
- Aktivieren Sie beim Erstellen der Instanz die Replikation: Klicken Sie auf Beschleuniger hinzufügen und wählen Sie das Kästchen Replikation aus.
- Informationen zum Aktivieren der Replikation in einer vorhandenen Instanz finden Sie unter Replikation aktivieren.

Weitere Informationen zu Netzwerken finden Sie unter HAProxy mit Cloud Data Fusion verwenden, um komplexe Netzwerktopologien zu durchlaufen.

Erforderliche Rollen

Informationen zum Abrufen der für diese Anleitung erforderlichen Berechtigungen finden Sie unter Zugriffssteuerung mit IAM und Berechtigung für Dienstkontonutzer erteilen.

Optional: SQL Server-VM-Instanz einrichten

SQL Server-Instanz erstellen
Laden Sie die AdventureWorks2017-Datenbank (OLTP) herunter und laden Sie die Daten in Ihre SQL Server-Instanz.

CDC in Ihrer SQL Server-Datenbank aktivieren

Aktivieren Sie für die Replikation Change Data Capture (CDC) für die Datenbank und die Tabelle, die Sie replizieren möchten.

Wenn Sie benutzerdefinierte Datentypen in den Tabellenspalten definiert haben, die repliziert werden, muss der Inhaber der Tabelle EXECUTE-Berechtigungen für die benutzerdefinierten Datentypen für den Datenbanknutzer erteilen, der im Replikationsjob angegeben ist.

Cloud Data Fusion-Replikationsjob erstellen und ausführen

JDBC-Treiber hochladen

Laden Sie den SQL Server-JDBC-Treiber auf Ihren lokalen Computer herunter.
Laden Sie in der Cloud Data Fusion-Weboberfläche den JDBC-Treiber hoch. Konfigurieren Sie den JDBC-Treiber mit diesen Werten:
- Geben Sie im Feld Name sqlserver ein.
- Geben Sie im Feld Klassenname com.microsoft.sqlserver.jdbc.SQLServerDriver ein.
- Übernehmen Sie im Feld Version die Standardeinstellung.

Auftrag erstellen

Klicken Sie in der Cloud Data Fusion-Web-UI auf Replikation.
Klicken Sie auf Replikationsjob erstellen.
Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an und klicken Sie auf Weiter.
Konfigurieren Sie die Quelle:
1. Wählen Sie Microsoft SQL Server als Quelle aus.
2. Geben Sie unter Host den Hostnamen des SQL-Servers ein, aus dem gelesen werden soll.
3. Geben Sie unter Port den Port ein, der für die Verbindung zum SQL Server verwendet werden soll: 1433.
4. Wählen Sie unter Name des JDBC-Plug-ins sqlserver aus oder den Namen, den Sie bei der Konfiguration des JDBC-Treibers angegeben haben.
5. Geben Sie als Datenbankname AdventureWorks2017 ein.
6. Geben Sie im Abschnitt Anmeldedaten Ihren Nutzernamen und Ihr Passwort ein, um auf den SQL-Server zuzugreifen.
Klicken Sie auf Weiter.
Konfigurieren Sie das Ziel:
1. Wählen Sie das BigQuery-Ziel aus.
2. Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Ändern Sie sie nicht.
3. Optional: Im Abschnitt Erweitert können Sie den Namen und den Speicherort des Cloud Storage-Bucket, das Ladeintervall, das Präfix der Staging-Tabelle und das Verhalten konfigurieren, wenn Tabellen oder Datenbanken gelöscht werden.
Klicken Sie auf Weiter.
Wenn die Verbindung erfolgreich ist, wird eine Liste der AdventureWorks2017-Tabellen angezeigt. Wählen Sie für diese Anleitung einige Tabellen und Ereignisse aus, z. B. Insert-, Update- und Delete-Ereignisse.

Hinweis :Damit Sie fortfahren können, müssen Sie CDC für die ausgewählten Tabellen aktivieren.
Optional: Konfigurieren Sie die erweiterten Attribute. Für diese Anleitung können Sie die Standardeinstellungen verwenden.
Klicken Sie auf Weiter.
Klicken Sie auf der Seite Bewertung prüfen für eine der Tabellen auf Zuordnungen ansehen, um eine Bewertung der Schemaprobleme, der fehlenden Funktionen oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten können. Probleme müssen behoben werden, bevor Sie fortfahren können. Wenn in dieser Anleitung Probleme mit Tabellen auftreten, gehen Sie zurück zu dem Schritt, an dem Sie Tabellen ausgewählt haben, und wählen Sie eine Tabelle oder ein Ereignis ohne Probleme aus.

Weitere Informationen zu Datentypkonvertierungen von der Quelldatenbank zum BigQuery-Ziel finden Sie unter Replikationsdatentypen.
Klicken Sie auf Back (Zurück).
Klicken Sie auf Weiter.
Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.

Job starten

Klicken Sie auf der Seite Replikationsjobdetails auf Starten.

Der Replikationsjob wechselt vom Status Wird bereitgestellt zu Wird gestartet zu Wird ausgeführt. Im Status „Wird ausgeführt“ lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten (z. B. die Tabelle „People“) in BigQuery. In diesem Status wird der Status der Tabelle als Snapshots werden erstellt aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle „Personen“ vorgenommenen Änderungen nach BigQuery repliziert. Der Status der Tabelle wird als Wird repliziert aufgeführt.

Job überwachen

Sie können den Replikationsjob starten und beenden, seine Konfiguration und Logs prüfen und den Replikationsjob überwachen.

Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.

Klicken Sie auf der Seite Replikation auf den Namen des Replikationsjobs.
Klicken Sie auf Monitoring.

Ergebnisse in BigQuery anzeigen

Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen aus der entsprechenden SQL Server-Datenbank und den Tabellennamen übernommen werden.

Öffnen Sie BigQuery in derGoogle Cloud Console.
Klicken Sie im linken Bereich auf den Projektnamen, um eine Liste der Datasets zu maximieren.
Wählen Sie zuerst das Dataset adventureworks2017 und dann eine Tabelle aus.

Weitere Informationen finden Sie in der BigQuery-Dokumentation.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Löschen Sie nach Abschluss der Anleitung die von Ihnen inGoogle Clouderstellten Ressourcen.

VM-Instanz löschen

In the Google Cloud console, go to the VM instances page.
Go to VM instances
Select the checkbox for the instance that you want to delete.
To delete the instance, click More actions, click Delete, and then follow the instructions.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, zum Beispiel eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, anstatt das gesamte Projekt.

Wenn Sie weitere Architekturen, Tutorials oder Anleitungen nutzen möchten, können Sie vorhandene Projekte verwenden und somit vermeiden, Projektkontingente zu überschreiten.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte

Weitere Informationen zur Replikation in Cloud Data Fusion
Replication API-Referenz
Anleitung zum Replizieren von Daten aus MySQL in BigQuery
Anleitung zum Replizieren von Daten aus Oracle in BigQuery