Diese Seite wurde von der Cloud Translation API übersetzt.

FAQ

Auf dieser Seite finden Sie Antworten auf häufig gestellte Fragen (FAQs) zur Verwendung von Datastream. Diese FAQ beziehen sich auf:

Allgemeine Fragen zu Datastream und Change Data Capture (CDC)
Allgemeines Quellverhalten und Einschränkungen
Verhalten und Einschränkungen von MySQL-Quellen
Verhalten und Einschränkungen von Oracle-Quellen
Verhalten und Einschränkungen von PostgreSQL-Quellen (einschließlich AlloyDB for PostgreSQL)
Verhalten und Einschränkungen von SQL Server-Quellen
Verhalten und Einschränkungen von Salesforce-Quellen
Verhalten von BigQuery-Zielen
Verhalten des Cloud Storage-Ziels
Gängige Anwendungsfälle für die Verwendung von Datastream
Wie Datastream Google Cloud Datendienste einbindet
Sicherheit und Konnektivität
Datastream überwachen
Preise
Weitere Informationen zu Datastream

Allgemeine Fragen zu Datastream und Change Data Capture (CDC)

Frage	Antwort
Was ist Datastream?	Datastream ist ein serverloser, nutzerfreundlicher Change Data Capture- (CDC) und Replikationsdienst. Mit Datastream können Daten aus relationalen Datenbankquellen wie AlloyDB for PostgreSQL, PostgreSQL, MySQL, SQL Server und Oracle sowie aus Salesforce und MongoDB nahtlos direkt in BigQuery repliziert werden. Datastream bietet die Skalierbarkeit, Geschwindigkeit, Sicherheit und Einfachheit, die moderne Unternehmen benötigen. Mit der serverlosen, automatisch skalierten Architektur ermöglicht Ihnen Datastream das Einrichten einer ELT-Pipeline (Extrahieren, Laden und Transformieren) für die Datenreplikation mit niedriger Latenz. Somit lassen sich Informationen nahezu in Echtzeit ableiten. Mit Datastream können Sie Datenstreams auch über heterogene Datenbanken und Anwendungen hinweg zuverlässig und mit minimaler Latenz synchronisieren. Sie können den Dienst in Dataflow-Vorlagen einbinden, um Datenbanken in Cloud SQL oder Spanner zu replizieren und so Datenbanken zu synchronisieren. Alternativ können Sie den Ereignisstream direkt aus Cloud Storage nutzen, um ereignisgesteuerte Architekturen zu realisieren.
Welche Methoden verwendet Datastream zum Streamen von Daten?	Datastream streamt Daten aus einer Quelle mit einer von zwei Methoden an ein Ziel: CDC: Fortlaufende Änderungen von der Quelle in Echtzeit erfassen. Backfill: Einen historischen Snapshot von Daten in einer Tabelle bereitstellen.
Was ist CDC?	CDC ist ein Ansatz für die Datenintegration, mit dem Sie Daten schneller und mit weniger Systemressourcen integrieren und analysieren können. Dies ist eine Methode, um nur die neuesten Änderungen (Aktualisierungen, Einfügungen oder Löschungen) aus einer Datenquelle abzurufen. Dabei wird häufig das Änderungslog gelesen, das von der Quelle zu ihrer eigenen internen transaktionalen Integrität beibehalten wird. CDC ist ein hocheffizienter Mechanismus zum Begrenzen der Auswirkungen auf die Quelle, wenn neue Daten in operative Datenspeicher und Data Warehouses geladen werden. Außerdem kann durch CDC auf das Aktualisieren von Bulk-Ladegängen und umständliche Batch-Fenster verzichtet werden, indem inkrementelles Laden oder Streaming von Datenänderungen in nahezu Echtzeit an ein Datenziel ermöglicht werden. CDC kann in vielen Anwendungsfällen verwendet werden, die Nutzen aus einem konstanten Zugriff auf Datenänderungen ziehen, z. B. Analysen, Synchronisierung von Daten über geografisch verteilte Systeme und ereignisgesteuerte Architekturen.
Was ist Backfill?	Neben den laufenden Änderungen verwendet Datastream auch Backfill, um alle vorhandenen Daten aus einer Quelle abzurufen und sie dann an ein Ziel zu streamen. Deshalb wird auf das Ziel ein "Backfill" mit allen Verlaufsdaten aus der Quelle angewendet. Es gibt zwei Arten von Backfill: Inkrementell: Der Standardtyp für das Backfill von Tabellen. Beim inkrementellen Backfill ruft Datastream Daten aus Zeilenbereichen in mehreren Batches ab und streamt die Daten Batch für Batch an ein Ziel. Vollständiger Dump: Beim Backfill mit vollständigem Dump ruft Datastream alle Daten auf einmal ab und streamt sie an ein Ziel.
Gibt es Einschränkungen, die Sie beim Backfill beachten müssen?	Informationen zu Backfill-Einschränkungen finden Sie auf den Seiten zu bekannten Einschränkungen für die jeweiligen Quelltypen: MySQL Oracle PostgreSQL (einschließlich AlloyDB for PostgreSQL) SQL Server Salesforce MongoDB
Welche Reihenfolge wird für CDC- und Backfill-Vorgänge empfohlen?	In den meisten Fällen gibt es hier keine besonderen Aspekte. Wenn der Backfill für einen Stream aktiviert ist, führt Datastream gleichzeitig Backfill und CDC aus. In einigen Grenzsituationen, z. B. beim Replizieren sehr großer Tabellen, die mit Datastream nicht nachgefüllt werden können, müssen Sie die Daten möglicherweise zuerst in BigQuery laden, bevor Sie den Stream starten.
Kann ich den Status von CDC- und Backfill-Vorgängen überwachen?	Sie können den Backfill-Status für jedes Objekt überwachen: Rufen Sie in der Google Cloud Console die Seite Streams auf. Klicken Sie auf den Stream, den Sie überwachen möchten. Klicken Sie auf den Tab Objekte. Der CDC-Status ist im Grunde der Streamstatus. Wenn der CDC-Vorgang fehlschlägt, schlägt der gesamte Stream fehl. Zusätzliche Messwerte auf Objektebene sind in Cloud Monitoring verfügbar. Weitere Informationen finden Sie in der Cloud Monitoring-Dokumentation.
Was ist ein Änderungsstream im Vergleich zur Replikation?	Ein Änderungsstream ist eine Abfolge von Ereignissen, die Datastream an ein Ziel für die nachgelagerte Nutzung ausgibt. Das Ergebnis eines Änderungsstreams, der in Cloud Storage geschrieben wird, besteht aus einer Reihe von Dateien, die Änderungslogereignisse aus einer bestimmten Tabelle über einen bestimmten Zeitraum enthalten. Die Ereignisse stellen Einfügungen, Aktualisierungen und Löschungen in der Tabelle dar. Die Ereignisse können von Diensten wie Dataflow für Anwendungsfälle wie ereignisgesteuerte Architekturen nachgelagert genutzt und verarbeitet werden. Replikation bedeutet im Datastream-Kontext eine aktuelle 1:1-Darstellung der Quelltabelle im Ziel. Ein Beispiel ist eine Tabelle in Oracle, deren Änderungen kontinuierlich in eine BigQuery-Tabelle repliziert werden. Die BigQuery-Tabelle wird mit den Änderungen aus der Oracle-Tabelle auf dem neuesten Stand gehalten. Bei der Replikation werden Änderungsstreams genutzt, indem die einzelnen Änderungsereignisse verarbeitet und zum Aktualisieren des Ziels verwendet werden. Datastream ermöglicht die direkte Replikation in BigQuery und unterstützt zusätzliche Ziele wie Cloud SQL und Spanner durch die Einbindung in Dataflow. Dazu werden Vorlagen verwendet, mit denen die Änderungsstream-Ereignisse aus Cloud Storage abgerufen und die Zieltabellen entsprechend aktualisiert werden.
Erfordert Datastream einen Agent an der Quelle?	Sie müssen keinen Agent an der Quelle installieren. Datastream verwendet vorhandene Schnittstellen (z. B. Oracle LogMiner), um die Daten aus der Quelle abzurufen.
Wie viele Tabellen kann ich in einen einzelnen Stream einfügen?	Datastream kann bis zu 10.000 Tabellen in einem einzelnen Stream verarbeiten. Es gibt keinen technischen Grund, eine Datenbank in mehrere Streams aufzuteilen. Es kann jedoch geschäftliche Gründe geben, verschiedene Streams für verschiedene logische Abläufe zu verwenden, z. B. beim Replizieren großer Transaktionen aus PostgreSQL-Quellen. Jeder Stream beansprucht jedoch die Quelldatenbank. Diese Last ist für CDC vernachlässigbar, kann aber für Backfill erheblich sein.
Wie wirkt sich die Leistung von Datastream auf die Nutzung in einer Produktionsdatenbank aus?	CDC ist ein hocheffizienter Mechanismus zum Begrenzen der Auswirkungen auf die Quelle, wenn neue Daten in Zieldatenspeicher und Data Warehouses geladen werden. Außerdem kann durch CDC auf das Aktualisieren von Bulk-Ladegängen und umständliche Batch-Fenster verzichtet werden, indem inkrementelles Laden oder Streaming von Datenänderungen in nahezu Echtzeit an ein Ziel ermöglicht werden. Darüber hinaus minimiert Datastream die Auswirkungen eines ersten Backfills durch Begrenzen der Anzahl gleichzeitiger Backfill-Aufgaben. Außerdem können Sie steuern, auf welche Objekte und wann ein Backfill angewendet werden soll.
Können Sie die Logdateien aus der Quelle nach Google Cloudkopieren?	Nein. Datastream fragt die Logs direkt auf dem Datenbankserver ab. Nur Änderungen an den angegebenen Tabellen werden in das Ziel geschrieben.
Kann Datastream auch Verlaufsdaten übertragen?	Ja. Standardmäßig ruft Datastream parallel zum CDC-Stream alle Verlaufsdaten aus Datenbanktabellen der von Ihnen angegebenen Quelle ab. Mit Datastream können Sie Verlaufsdaten aus einigen oder allen Datenbanktabellen in Ihrer Quelle flexibel abrufen. Wenn Sie den Stream konfigurieren, können Sie außerdem verlaufsbezogene Backfills deaktivieren.
Garantiert Datastream eine genau einmalige Übermittlung?	Nein. Datastream bietet eine mindestens einmalige Übermittlung. Die zusätzlichen Metadaten, die Datastream in jedes Ereignis schreibt, können zum Entfernen von doppelten Daten verwendet werden.
Kann Datastream verschlüsselte Datenbanken verarbeiten?	Ja.
Kann Datastream bestimmte Tabellen und Spalten aus einer Quelle streamen?	Ja. Mit Datastream können Sie Ein- und Ausschlusslisten für Tabellen und Schemas angeben, um nur die gewünschten Daten aus einer Quelle an ein Ziel zu streamen. Bei eingeschlossenen Tabellen können Sie bestimmte Spalten ausschließen, um noch genauer festzulegen, welche Daten in das Ziel gestreamt werden sollen. Materialisierte Ansichten können jedoch nicht repliziert werden.
Wie verschieben Sie einen Stream in ein anderes Projekt oder eine andere Region?	Erstellen Sie einen Stream in einer neuen Region oder einem neuen Projekt mit derselben Konfiguration wie der vorhandene Stream, aber wählen Sie nicht das Kästchen Verlaufsdaten für Backfill aus. Starten Sie den Stream, den Sie erstellt haben. Sobald der erstellte Stream den Status `RUNNING` hat, halten Sie den vorhandenen Stream an. Optional können Sie den neuen Stream ändern, indem Sie das Kästchen Backfill-Verlaufsdaten aktivieren. Vorhandene Daten in Tabellen, die dem Stream in Zukunft hinzugefügt werden, werden von der Quelle an das Ziel gestreamt.
Wie verarbeitet Datastream nicht festgeschriebene Transaktionen in den Logdateien der Datenbank?	Wenn Datenbanklogdateien nicht festgeschriebene Transaktionen enthalten und Transaktionen zurückgesetzt werden, spiegelt die Datenbank dies in den Logdateien als „umgekehrte“ DML-Vorgänge (Datenbearbeitungssprache) wider. Ein Rollback-Vorgang `INSERT` hat beispielsweise einen entsprechenden `DELETE`-Vorgang. Datastream liest diese Vorgänge aus den Logdateien.
Was ist die regionale Verfügbarkeit von Datastream?	Eine Liste der Regionen, in denen Datastream verfügbar ist, finden Sie unter IP-Zulassungslisten und Regionen.

Allgemeines Quellverhalten und Einschränkungen

Frage	Antwort
Welche Quellen werden von Datastream unterstützt?	Datastream unterstützt das Streaming von Daten aus Oracle-, MySQL-, PostgreSQL-, AlloyDB for PostgreSQL-, SQL Server-, Salesforce- und MongoDB-Quellen, sowohl in der Cloud als auch selbstverwaltet. Informationen zu quellspezifischen Versionen finden Sie auf den folgenden Seiten: MySQL-Quelle Oracle-Quelle PostgreSQL-Quelle (einschließlich AlloyDB for PostgreSQL) SQL Server-Quelle Salesforce-Quelle MongoDB-Quelle
Kann Datastream verschlüsselte Datenbanken verarbeiten?	Ja.
Wie extrahiert Datastream Daten aus den Quellen?	Für MySQL verarbeitet Datastream das binäre MySQL-Log, um Änderungsereignisse zu extrahieren. Für Oracle verwendet Datastream LogMiner und zusätzliche Logging-Einstellungen, um Daten aus den Redo-Logs von Oracle zu extrahieren. Für PostgreSQL und AlloyDB for PostgreSQL verwendet Datastream die Funktion Logische Decodierung von PostgreSQL. Bei der logischen Decodierung werden alle Änderungen, die in der Datenbank committet wurden, verfügbar gemacht, sodass sie genutzt und verarbeitet werden können. Bei SQL Server verfolgt Datastream Änderungen an der Datenbearbeitungssprache (Data Manipulation Language, DML) mithilfe von Transaktionsprotokollen.
Können Sie Logdateien direkt aus einer Quelle nach Google Cloudkopieren?	Datastream kopiert nicht alle Logdateien, sondern fragt die Logdateien direkt vom Datenbankserver ab und repliziert nur Änderungen aus den angegebenen Tabellen an das Ziel.
Welche Einschränkungen gelten für die Daten, die von Datastream verarbeitet werden können?	Es gibt allgemeine Einschränkungen und Einschränkungen, die für bestimmte Datenbankquellen gelten. Allgemeine Einschränkungen: Ereignisgröße: Das maximale Zeilengrößenlimit beträgt 100 MB für das Cloud Storage-Ziel und 20 MB für BigQuery. Einige DDL-Vorgänge (Data Definition Language) während der Replikation werden nicht unterstützt, darunter: Eine Spalte aus der Mitte einer Tabelle löschen Dies kann zu Datenabweichungen führen, da Werte der falschen Spalte zugeordnet werden. Datentyp einer Spalte ändern. Dies kann zu Datenabweichungen führen, da die Daten nicht korrekt dem richtigen einheitlichen Datastream-Typ zugeordnet und somit beschädigt werden können. Kaskadierende Löschvorgänge werden ignoriert. Das Kürzen von Tabellen wird ignoriert. Quellenspezifische Einschränkungen finden Sie auf den folgenden Seiten: MySQL-Einschränkungen Oracle-Einschränkungen PostgreSQL-Einschränkungen (einschließlich AlloyDB for PostgreSQL und AlloyDB Omni) SQL Server-Einschränkungen Salesforce-Einschränkungen MongoDB-Einschränkungen
Welche Daten werden in jedem von Datastream generierten Ereignis einbezogen?	Jedes generierte Ereignis (für Einfügungen, Aktualisierungen und Löschvorgänge) enthält die gesamte Datenzeile aus der Quelle mit dem Datentyp und dem Wert jeder Spalte. Jedes Ereignis enthält außerdem Ereignismetadaten, mit denen die Reihenfolge festgelegt und eine genau einmalige Übermittlung gewährleistet werden kann.
Garantiert Datastream eine Reihenfolge?	Datastream kann zwar keine Reihenfolge garantieren, stellt aber für jedes Ereignis zusätzliche Metadaten bereit. Mit diesen Metadaten kann Eventual Consistency am Ziel sichergestellt werden. Abhängig von der Quelle, der Rate und der Häufigkeit von Änderungen und anderen Parametern kann Eventual Consistency in der Regel innerhalb eines einstündigen Fensters erreicht werden.
Garantiert Datastream eine genau einmalige Übermittlung?	Datastream bietet eine mindestens einmalige Übermittlung. Sie können doppelte Daten vermeiden, indem Sie zusätzliche Metadaten verwenden, die Datastream in jedes Ereignis schreibt.
Wie stellt Datastream Datentypen aus der Quelle zur Verwendung in der nachgelagerten Verarbeitung dar?	Wenn Daten in ein schemaloses Ziel wie Cloud Storage geschrieben werden, vereinfacht Datastream die nachgelagerte Verarbeitung von Daten aus verschiedenen Quellen, indem Datentypen aus allen Quellen normalisiert werden. Datastream normalisiert den ursprünglichen Quelldatentyp (z. B. einen MySQL- oder PostgreSQL-`NUMERIC`-Typ oder einen Oracle-`NUMBER`-Typ) und normalisiert ihn zu einem einheitlichen Datastream-Typ. Einheitliche Typen stellen eine verlustfreie Obermenge aller möglichen Quelltypen dar. Die Normalisierung bedeutet, dass Daten aus verschiedenen Quellen mit minimalem Aufwand verarbeitet und unabhängig von der Quelle nachgelagert abgefragt werden können.
Wie behandelt Datastream Struktur- bzw. Schemaänderungen in der Quelle?	Datastream ruft das Schema regelmäßig aus der Quelle ab. Schemas werden in der internen Schemaregistrierung von Datastream gespeichert. Jedes Ereignis verweist auf das Schema zum Zeitpunkt der Generierung. So kann Datastream Schemaänderungen nachverfolgen und sich an diese Änderungen anpassen. Dadurch wird sichergestellt, dass alle Daten ordnungsgemäß in das Ziel gestreamt und geladen werden. Zwischen den Schemaabrufen werden jedoch möglicherweise einige Schemaänderungen nicht erkannt, was zu Datenabweichungen führen kann.
Ich habe eine Spalte in meiner Quelldatenbank gelöscht, sie wird aber weiterhin im Ziel angezeigt. Warum?	Mit Datastream werden keine Spalten im Ziel gelöscht. Sie müssen Spalten manuell löschen. Dieses Verhalten ist beabsichtigt, da Sie in einigen Fällen die gelöschte Spalte im Ziel beibehalten möchten. Wenn Sie beispielsweise eine Spalte in der Quelle umbenennen, interpretiert Datastream das als Löschen einer Spalte und Hinzufügen einer anderen Spalte. In diesem Fall möchten Sie die ursprüngliche Spalte im Ziel nicht verlieren.
Der Stream kann aufgrund eines Validierungsfehlers nicht gestartet werden. Ich glaube aber, dass es sich um einen Fehler handelt, oder ich möchte den Stream trotzdem starten. Wie kann ich diese Validierung umgehen?	Sie können den Stream über die API starten, indem Sie das Flag `force=true` hinzufügen und die Validierungsprüfungen überspringen. Wenn Sie Validierungen überspringen, wird der Stream nicht automatisch ausgeführt. Er kann weiterhin fehlschlagen, wenn in der Datenbank die erforderliche Konfiguration oder Berechtigungen fehlen.
Kann ich einen fehlgeschlagenen Stream neu starten?	Sie können einen Stream mit dem Status `Failed` korrigieren, indem Sie die von Datastream gemeldeten Fehler beheben. Weitere Informationen finden Sie unter Fehlerbehebung bei Streams. Sie können auch einen Stream mit dem Status `Failed permanently` wiederherstellen. Weitere Informationen finden Sie unter Stream wiederherstellen.
Werden Datenbanktabellen durch Datastream gesperrt?	Nein. Datastream muss die Tabellen nicht sperren.
Auf den Seiten mit Einschränkungen für jede Quelle wird angegeben,dass Streams bis zu 10.000 Tabellen enthalten können. Bedeutet das,dass Datastream CDC-Vorgänge nicht parallel für mehr als 10.000 Tabellen gleichzeitig ausführen kann?	Nein. Das erwähnte Limit gilt pro Stream. Sie können mehrere Streams haben,wobei die Gesamtzahl der Tabellen 10.000 überschreiten kann.

Verhalten und Einschränkungen von MySQL-Quellen

Frage	Antwort
Wie ruft Datastream Daten aus MySQL ab?	Datastream verwendet das binäre Log von MySQL, um die Änderungsereignisse aus MySQL zu extrahieren.
Unterstützt Datastream Cloud SQL for MySQL-Lesereplikatinstanzen?	Ja, Datastream unterstützt Lesereplikatinstanzen für Cloud SQL for MySQL-Versionen 5.7 und 8.0. Sie können das binäre Logging für diese Instanzen aktivieren. Führen Sie dazu den folgenden gcloud CLI-Befehl aus: gcloud sql instances patch `INSTANCE_NAME` -- enable-bin-log Weitere Informationen finden Sie unter Binäres Logging in Lesereplikaten.
Welche Berechtigungen benötigt Datastream mindestens, um Daten aus einer MySQL-Quelldatenbank zu replizieren?	Sie müssen Ihrem Datastream-Nutzer die folgenden Berechtigungen erteilen, um Daten aus einer MySQL-Datenbank zu replizieren: `SELECT` `REPLICATION SLAVE` `REPLICATION CLIENT`
Unterstützt Datastream die Binärlog-Komprimierung?	Nein, Datastream unterstützt die Komprimierung von Transaktionsereignissen mit der Binärlog-Transaktionskomprimierung nicht. Deaktivieren Sie die binäre Log-Transaktionskomprimierung, um die Change Data Capture-Funktion für MySQL in Datastream zu verwenden.
Ihre Organisation lässt nicht zu, dass die Berechtigung `SELECT` für alle Tabellen und Datenbanken erteilt wird. Kann ich Datastream weiterhin verwenden?	Sie können die Berechtigung `SELECT` für die Tabellen gewähren, die Sie replizieren möchten, oder für das gesamte Schema in einer Datenbank. Führen Sie dazu einen der folgenden Befehle aus: GRANT SELECT ON `DATABASE_NAME`.`TABLE_NAME` TO `USER_NAME`@'%'; oder GRANT SELECT ON `DATABASE_NAME`.* TO `USER_NAME`@'%'; Ersetzen Sie Folgendes: `DATABASE_NAME`: Der Name Ihrer MySQL-Datenbank. `TABLE_NAME`: Der Name der Tabelle, für die Sie die Berechtigung `SELECT` gewähren. `USER_NAME`: Der Name des Nutzers, dem Sie die Berechtigung `SELECT` gewähren. Wenn Sie die Berechtigungen auf einen bestimmten Hostnamen beschränken möchten, ersetzen Sie das Zeichen `%` durch die entsprechende IP-Adresse oder den entsprechenden Adressbereich.

Verhalten und Einschränkungen von Oracle-Quellen

Frage	Antwort
Wie ruft Datastream Daten aus Oracle ab?	Datastream verwendet Oracle LogMiner, um die Daten aus den Redo-Logs von Oracle zu extrahieren.
Erfordert Datastream eine GoldenGate-Lizenz von Oracle?	Nein. Datastream erfordert keine GoldenGate-Lizenz, da Oracle LogMiner zum Lesen der Daten aus den Redo-Logs der Datenbank verwendet wird.
Was passiert, wenn Oracle LogMiner nicht mehr unterstützt wird?	Oracle LogMiner wird weiterhin in allen allgemein verfügbaren Oracle-Releases unterstützt und Datastream wird LogMiner auch in allen zukünftigen Releases unterstützen. Oracle hat die Unterstützung für die LogMiner-Option CONTINUOUS_MINE eingestellt. Diese Option wird jedoch nicht von Datastream verwendet, sodass hierdurch keine Auswirkungen auf Datastream entstehen.
Unterstützt Datastream die Verschlüsselung von Daten bei der Übertragung aus Oracle-Datenbanken?	Datastream unterstützt die Verschlüsselung von Daten bei der Übertragung basierend auf Oracle Net Services. Datastream wird im Modus `REQUESTED` ausgeführt.
Unterstützt Datastream die SSL-Verschlüsselung (Secure Sockets Layer) und die TLS-Verschlüsselung (Transport Layer Security)?	Ja, Datastream unterstützt das TCPS-Protokoll für SSL/TLS-verschlüsselte Verbindungen zu Oracle-Quellen.
Unterstützt Datastream die mehrmandantenfähige Architektur von Oracle, insbesondere Containerdatenbanken (CDBs) und Plug-in-Datenbanken (PDBs)?	Ja, Datastream unterstützt die mehrmandantenfähige Architektur von Oracle (CDB/PDB). Sie können jedoch nur eine einzelne Plug-in-Datenbank in einem Stream replizieren.
Ihre Organisation erlaubt nicht, die Berechtigung `GRANT SELECT ANY TABLE` zu erteilen. Kann ich Datastream weiterhin verwenden?	Wenn Sie die Berechtigung `GRANT SELECT ANY TABLE` nicht erteilen können, können Sie die Berechtigungen `SELECT` für die folgende Liste von Tabellen erteilen: ALL_COL_COMMENTS ALL_CONS_COLUMNS ALL_CONSTRAINTS ALL_DB_LINKS ALL_EXTERNAL_TABLES ALL_IND_COLUMNS ALL_INDEXES ALL_LOG_GROUPS ALL_MVIEWS ALL_OBJECTS ALL_PART_TABLES ALL_SEQUENCES ALL_SOURCE ALL_SYNONYMS ALL_TAB_COLS ALL_TAB_COLUMNS ALL_TAB_COMMENTS ALL_TABLES ALL_TRIGGERS ALL_TRIGGER_COLS ALL_TYPES ALL_USERS ALL_VIEWS DATABASE_PROPERTIES DBA_ROLE_PRIVS DUAL PRODUCT_COMPONENT_VERSION ROLE_SYS_PRIVS USER_ROLE_PRIVS USER_TAB_PRIVS Wenn Sie Änderungen mit Datastream streamen möchten, benötigen Sie außerdem Lesezugriff auf alle Tabellen, die im Stream enthalten sind. Um den Stream zu starten, umgehen Sie die Validierung über die API. Weitere Informationen finden Sie unter Stream starten.
Unterstützt Datastream die Replikation aus Oracle-Lesereplikatinstanzen?	Datastream unterstützt die Replikation von Oracle-Lesereplikatinstanzen, sofern die Instanz gemäß den Konfigurationsrichtlinien konfiguriert ist.
Unterstützt Datastream Oracle SCAN RAC-Datenbanken?	Ja. Sie können jedoch mit Datastream keine direkte Verbindung zu Datenbanken mit dem SCAN-Feature (Single Client Access Name) in Oracle RAC-Umgebungen (Real Application Clusters) herstellen. Um diese Einschränkung zu umgehen, stellen Sie eine direkte Verbindung zu einem der Knoten her oder verwenden Sie den Oracle Connection Manager. Sie können auch eine Konfiguration für private Verbindungen mit Reverse-Proxy-Lösungen wie HAProxy erstellen.

Verhalten und Einschränkungen von PostgreSQL-Quellen

Frage	Antwort
Wie ruft Datastream Daten aus PostgreSQL ab?	Datastream verwendet die Funktion zur logischen Decodierung von PostgreSQL, um die Änderungsereignisse aus PostgreSQL zu extrahieren.
Unterstützt Datastream die Replikation von AlloyDB for PostgreSQL- oder AlloyDB Omni-Quellen?	Ja. Datastream unterstützt beide Quellen. Informationen zum Konfigurieren der AlloyDB for PostgreSQL-Quelldatenbank finden Sie unter AlloyDB for PostgreSQL-Datenbank konfigurieren. Informationen zum Konfigurieren der AlloyDB Omni-Quelldatenbank finden Sie unter Selbstverwaltete PostgreSQL-Datenbank konfigurieren.
Unterstützt Datastream die Replikation aus einer PostgreSQL-Lesereplikatinstanz?	Nein, Datastream unterstützt keine Replikation von Lesereplikatinstanzen für PostgreSQL.
Unterstützt Datastream die Sicherheit auf Zeilenebene?	Datastream unterstützt die Replikation von Tabellen mit aktivierter RLS nicht. Sie können diese Einschränkung jedoch mit der Klausel `BYPASSRLS` umgehen: ALTER USER `USER_NAME` BYPASSRLS; Ersetzen Sie `USER_NAME` durch den Namen des Nutzers, den Datastream für die Verbindung zur Datenbank verwendet und für den Sie RLS-Richtlinien umgehen möchten.
Unterstützt Datastream gleichzeitige CDC-Vorgänge bei der Replikation aus einer PostgreSQL-Quelle?	Nein. Die PostgreSQL-Replikation basiert auf dem Konzept der Replikations-Slots und Replikations-Slots unterstützen keine gleichzeitigen Verbindungen. Es kann immer nur eine CDC-Aufgabe aus dem Replikationsslot gelesen werden. Wenn Sie beispielsweise eine große Anzahl von Datensätzen aus der Quelldatenbank löschen, kann der Replikations-Slot mit Löschereignissen überlastet werden. Alle nachfolgenden Änderungen an der Quelle werden verzögert, bis die Löschereignisse in der Warteschlange des Replikationsslots verarbeitet wurden. Informationen zum empfohlenen Ansatz beim Replizieren großer Transaktionsdaten finden Sie unter Probleme diagnostizieren.
Unterstützt Datastream die SSL-Verschlüsselung (Secure Sockets Layer) und die TLS-Verschlüsselung (Transport Layer Security)?	Ja, Datastream unterstützt SSL/TLS-verschlüsselte Verbindungen.

Verhalten und Einschränkungen von SQL Server-Quellen

Frage	Antwort
Welche SQL Server-Versionen werden von Datastream unterstützt?	Datastream unterstützt SQL Server-Datenbankversionen, die Change Data Capture unterstützen. Eine vollständige Liste der unterstützten SQL Server-Versionen und -Editionen finden Sie unter Versionen.
Wie funktioniert die Datastream-CDC-Replikation für SQL Server-Quellen?	Beim Datastream-Prozess zur Datenaufnahme werden je nach Quellkonfiguration Transaktionslogs oder Änderungstabellen verwendet. Weitere Informationen finden Sie unter SQL Server-Quelldatenbank.
Welche Berechtigungen benötigt Datastream mindestens, um Daten aus einer SQL Server-Quelldatenbank zu replizieren?	Sie müssen Ihrem Datastream-Nutzer die folgenden Rollen und Berechtigungen gewähren, um Daten aus einer SQL Server-Datenbank zu replizieren: Für die CDC-Methode für Änderungstabellen: `db_owner` `db_denydatawriter` Zusätzlich für die CDC-Methode für Transaktionslogs: `SELECT`-Berechtigungen für die Datenbank und für die `sys.fn_dblog`-Funktion `SELECT`-Berechtigungen für die Tabelle `dbo.sysjobs` `VIEW SERVER STATE` Ausführliche Informationen zum Konfigurieren der Quelle finden Sie auf den entsprechenden Konfigurationsseiten für Ihren Datenbanktyp.
Warum ist eine Konfiguration wie das Ändern von Abfrageintervallen und das Einrichten einer Kürzungssicherung erforderlich, wenn Transaktionslogs verwendet werden?	Wenn Sie Daten aus einer SQL Server-Quelle mithilfe von Transaktionslogs replizieren und ein Log gekürzt wird, bevor Datastream es liest, kommt es zu Datenverlust. Das Ändern von Abfrageintervallen und das Einrichten einer Kürzungssicherung ist optional, bietet aber eine zusätzliche Schutzebene, damit Datenstreams die Daten auch in Szenarien lesen können, in denen Ausfallzeiten oder Verbindungsprobleme auftreten. Weitere Informationen finden Sie unter SQL Server-Quelldatenbank konfigurieren.
Welche CDC-Methode sollte bei der Replikation aus einer SQL Server-Quelle ausgewählt werden?	Je nach Konfiguration Ihrer SQL Server-Quelldatenbank können Sie eine der beiden verfügbaren CDC-Methoden auswählen: Transaktionslogs: Wählen Sie diese Methode aus, um Änderungen direkt aus den Datenbank-Logs zu verarbeiten. Diese Methode bietet die beste Leistung und ist effizienter, erfordert aber zusätzliche Konfigurationsschritte, die möglicherweise nicht von Ihrer Datenbank unterstützt werden. Änderungstabellen: Wählen Sie diese Methode aus, um Änderungen aus dedizierten Änderungstabellen zu verarbeiten. Diese Methode ist einfacher zu konfigurieren und hat weniger Einschränkungen, unterstützt aber einen geringeren Durchsatz und erhöht die Belastung Ihrer Datenbank. Weitere Informationen finden Sie unter SQL Server als Quelle.

Verhalten und Einschränkungen von Salesforce-Quellen

Frage	Antwort
Was ist eine Salesforce-Organisation?	Eine Salesforce-Organisation, auch Organisation genannt, ist Ihre dedizierte Bereitstellung von Salesforce, ähnlich einer Datenbankinstanz. Eine Organisation hat eine definierte Anzahl von lizenzierten Nutzern und speichert alle Kundendaten und Anwendungen.
Was sind Salesforce-Objekte, ‑Datensätze und ‑Felder?	Ein Objekt ist eine Klassenentität und ähnelt einer Tabelle in der Terminologie relationaler Datenbanken. Sie können Standard- oder benutzerdefiniert sein. Standardobjekte sind standardmäßig in Salesforce enthalten, während benutzerdefinierte Objekte von Nutzern erstellt werden, um Daten zu speichern, die für ihren Anwendungsfall spezifisch sind. Ein Datensatz ist eine bestimmte Instanz eines Objekts, ähnlich einer Zeile in relationalen Datenbanken. Ein Feld ist ein bestimmtes Attribut eines Objekts, ähnlich einer Spalte in relationalen Datenbanken.

Frage

Antwort

Was ist eine Salesforce-Organisation?

Eine Salesforce-Organisation, auch Organisation genannt, ist Ihre dedizierte Bereitstellung von Salesforce, ähnlich einer Datenbankinstanz. Eine Organisation hat eine definierte Anzahl von lizenzierten Nutzern und speichert alle Kundendaten und Anwendungen.

Was sind Salesforce-Objekte, ‑Datensätze und ‑Felder?

Ein Objekt ist eine Klassenentität und ähnelt einer Tabelle in der Terminologie relationaler Datenbanken. Sie können Standard- oder benutzerdefiniert sein. Standardobjekte sind standardmäßig in Salesforce enthalten, während benutzerdefinierte Objekte von Nutzern erstellt werden, um Daten zu speichern, die für ihren Anwendungsfall spezifisch sind.

Ein Datensatz ist eine bestimmte Instanz eines Objekts, ähnlich einer Zeile in relationalen Datenbanken.

Ein Feld ist ein bestimmtes Attribut eines Objekts, ähnlich einer Spalte in relationalen Datenbanken.

Verhalten von BigQuery-Zielen

Frage	Antwort
Wie arbeiten Datastream und BigQuery zusammen, um Änderungen aus der Quelldatenbank zu replizieren?	Datastream liest kontinuierlich den Änderungsstream aus der Quelldatenbank und streamt die UPSERT- und DELETE-Ereignisse mit der Storage Write API in die BigQuery-Zieltabelle. BigQuery wendet die Änderungen dann basierend auf der Konfiguration für die Tabellenveralterung auf die Tabelle an.
Wie werden DML-Vorgänge (Data Manipulation Language) in BigQuery angewendet?	Im Modus Nur anhängen werden Daten in BigQuery als Stream von Änderungen angehängt. Für jedes `INSERT`-, `UPDATE-INSERT`-, `UPDATE-DELETE`- und `DELETE`-Ereignis wird eine separate Zeile erstellt. Im Modus Zusammenführen (Standardeinstellung) werden die Primärschlüssel der Tabelle, die von Datastream in BigQuery erstellt wird, entsprechend den in der Quelle definierten Primärschlüsseln festgelegt. BigQuery verarbeitet die Ereignisse und wendet Änderungen auf die zugrunde liegende BigQuery-Tabelle an, die auf den Primärschlüsseln der Quelltabelle basieren. Wenn die Quelltabelle keinen Primärschlüssel hat, wird sie so behandelt, als ob der Modus Nur anhängen verwendet wurde.
Wie verarbeiten Datastream und BigQuery die Reihenfolge von Ereignissen?	BigQuery verwendet die Ereignismetadaten und eine interne Änderungsfolgenummer (Change Sequence Number, CSN), um die Ereignisse in der richtigen Reihenfolge auf die Tabelle anzuwenden. Weitere Informationen zu Ereignismetadaten finden Sie unter Ereignisse und Streams.
Wie werden BigQuery-Kosten bei Verwendung mit Datastream berechnet?	BigQuery-Kosten werden separat von Datastream berechnet und in Rechnung gestellt. Informationen zur Kostenkontrolle in BigQuery finden Sie unter BigQuery CDC-Preise.
Wie viele Zeilen werden von Datastream maximal unterstützt, wenn Daten in BigQuery gestreamt werden?	Die maximale Zeilengröße, die von Datastream unterstützt wird, beträgt 20 MB.
Wenn Sie Daten in BigQuery streamen, erhalten Tabellen das Präfix `_`. Kann ich dieses Verhalten ändern, sodass die Tabellen in BigQuery dieselbe Struktur wie in der Quelldatenbank haben?	Wenn Sie Datasets für ein BigQuery-Ziel konfigurieren, erstellen Sie ein Dataset für jedes Schema oder ein einzelnes Dataset für alle Schemas. Wenn Sie ein Dataset für jedes Schema erstellen, wird jedes Schema in der Quelle einem Dataset in BigQuery zugeordnet und alle Tabellen im Quellschema werden den Tabellen im Dataset zugeordnet. Wenn Sie die Option „Einzelnes Dataset für alle Schemas“ auswählen, wird den Tabellennamen gemäß der BigQuery-Namenskonvention für Tabellen das Präfix `_` vorangestellt.
Können mit CDC Änderungen am Quellschema erfasst werden, z. B. wenn eine Spalte in der Quelle eingefügt oder gelöscht wird? Werden solche Änderungen automatisch in den bereits gefüllten Tabellen in den BigQuery-Zieldatasets berücksichtigt?	Im Datenstream werden neue Spalten automatisch erkannt und dem Zielschema für die neuen Zeilen hinzugefügt, nicht jedoch für die Zeilen, die bereits ins Ziel repliziert wurden. Gelöschte Spalten werden ignoriert und im Ziel mit `NULL`-Werten gefüllt. Sie können diese Spalten dann manuell in BigQuery löschen.

Verhalten des Cloud Storage-Ziels

Frage	Antwort
Wie werden Dateien in Cloud Storage erstellt?	Datastream erstellt für jede Tabelle einen Ordner. In jedem Ordner rotiert Datastream die Datei (oder erstellt eine neue Datei), wenn der benutzerdefinierte Grenzwert für Größe oder Zeit erreicht wird. Datastream rotiert die Datei auch immer dann, wenn eine Schemaänderung erkannt wird. Der Dateiname besteht aus einem eindeutigen Schemaschlüssel (basierend auf einem Hash des Schemas), gefolgt vom Zeitstempel des ersten Ereignisses in der Datei. Aus Sicherheitsgründen sollten diese Dateinamen nicht von Personen gelesen oder verstanden werden.
Wie können die Ereignisse neu angeordnet werden, bevor Sie in das Ziel geladen werden, wenn die Daten in Cloud Storage nicht geordnet sind?	Jedes Ereignis enthält mehrere Metadatenfelder, die die Zeile in den Logdateien eindeutig identifizieren und mit denen Sie die Ereignisse sortieren können. Zu diesen Feldern gehören: Für Oracle-Quellen: `rs_id` (Datensatz-ID), die tatsächlich aus drei Werten besteht (z. B. `0x0073c9.000a4e4c.01d0`). Die `rs_id` identifiziert den Datensatz innerhalb des Redo-Logs eindeutig. `ssn` (SQL-Sequenznummer), die verwendet wird, wenn der Datensatz im Redo-Log zu lang ist. Aus diesem Grund teilt Oracle LogMiner den Datensatz in mehrere Zeilen auf. Für MySQL-Quellen: `log_file`, aus der Datastream Ereignisse bei der CDC-Replikation abruft. `log_position`, das den Offset des Datensatzes im binären MySQL-Log angibt. Für PostgreSQL-Quellen: `source_timestamp`: Der Zeitstempel, der angibt, wann sich der Datensatz in der Quelle geändert hat. Wenn die `source_timestamp`-Werte für die Ereignisse, die Sie sortieren, identisch sind, vergleichen Sie die `lsn`-Werte. `lsn` (Logsequenznummer), die den Offset des Datensatzes in der WAL-Logdatei angibt. Weitere Informationen zu Metadatenfeldern finden Sie unter Quellspezifische Metadaten.
Wenn mehrere Dateien für denselben Zeitstempel erstellt werden, in welcher Reihenfolge sollten sie verarbeitet werden?	Da die Reihenfolge innerhalb und zwischen Dateien nicht garantiert ist, lässt sich die Reihenfolge der Dateien für die Quelle am besten ermitteln, indem Sie alle Ereignisse aus allen Dateien für den angegebenen Zeitstempel abrufen und dann die Reihenfolge anhand der oben genannten Methode anwenden.
Wie werden Aktualisierungen von Primärschlüsseln verarbeitet? Gibt es Informationen vor und nach dem Ereignis?	Wenn sich der Primärschlüssel einer Zeile ändert, generiert Datastream zwei Ereignisse für die Änderung: ein `UPDATE-DELETE`- und ein `UPDATE-INSERT`-Ereignis. Das `UPDATE-DELETE`-Ereignis stellt die Daten vor der Aktualisierung dar und `UPDATE-INSERT` die Daten nach der Aktualisierung. Weitere Informationen zu quellspezifischen Metadaten finden Sie unter Ereignisse und Streams.
Wie viele Zeilen werden von Datastream maximal unterstützt, wenn Daten in Cloud Storage gestreamt werden?	Die maximale Zeilengröße, die von Datastream unterstützt wird, beträgt 100 MB.

Anwendungsfälle

Frage	Antwort
Was sind häufige Anwendungsfälle für die Verwendung von Datastream?	Datastream ist ein CDC- und Replikationsdienst, der flexibel für verschiedene Anwendungsfälle einsetzbar ist und Zugriff auf kontinuierlich gestreamte Änderungsdaten bietet. Die häufigsten Anwendungsfälle für Datastream sind: Analysen:Durch die direkte Replikation von Daten in BigQuery können Kunden in BigQuery auf aktuelle Betriebsdaten zugreifen. Kunden können diese kontinuierlich aktualisierten Daten in BigQuery verwenden, um aktuelle Dashboards für ihre Daten zu erstellen. Dies kann beispielsweise für die Überwachung von Systemen und für aktuelle Informationen zum Zustand des Unternehmens verwendet werden. Szenarien für die Replikation und Synchronisierung von Datenbanken:Durch die Integration von Datastream in Dataflow-Vorlagen zum Laden von Daten in Cloud SQL oder Spanner erhalten Sie aktuelle Replikationen Ihrer Quelldaten in diesen Datenbanken. Sie können diese kontinuierlich aktualisierten Daten in den Zieldatenbanken für eine Datenbankmigration mit geringer Ausfallzeit von der Quelle zum Ziel oder für Hybrid-Cloud-Konfigurationen verwenden, bei denen sich die Quelle und das Ziel in unterschiedlichen Hostingumgebungen befinden. Ereignisbasierte Architekturen: Moderne, auf Mikrodiensten basierende Architekturen nutzen zentrale Daten-Hubs, die mit Ereignissen aus der gesamten Organisation kontinuierlich aktualisiert werden, um ereignisgesteuert zu sein. Durch das kontinuierliche Schreiben von Ereignisdaten in Ziele wie BigQuery und Cloud Storage können Sie ereignisgesteuerte Architekturen erstellen, die auf dem Verbrauch von Ereignisdaten von diesen Zielen basieren.

Frage

Antwort

Was sind häufige Anwendungsfälle für die Verwendung von Datastream?

Datastream ist ein CDC- und Replikationsdienst, der flexibel für verschiedene Anwendungsfälle einsetzbar ist und Zugriff auf kontinuierlich gestreamte Änderungsdaten bietet. Die häufigsten Anwendungsfälle für Datastream sind:

Analysen:Durch die direkte Replikation von Daten in BigQuery können Kunden in BigQuery auf aktuelle Betriebsdaten zugreifen. Kunden können diese kontinuierlich aktualisierten Daten in BigQuery verwenden, um aktuelle Dashboards für ihre Daten zu erstellen. Dies kann beispielsweise für die Überwachung von Systemen und für aktuelle Informationen zum Zustand des Unternehmens verwendet werden.
Szenarien für die Replikation und Synchronisierung von Datenbanken:Durch die Integration von Datastream in Dataflow-Vorlagen zum Laden von Daten in Cloud SQL oder Spanner erhalten Sie aktuelle Replikationen Ihrer Quelldaten in diesen Datenbanken. Sie können diese kontinuierlich aktualisierten Daten in den Zieldatenbanken für eine Datenbankmigration mit geringer Ausfallzeit von der Quelle zum Ziel oder für Hybrid-Cloud-Konfigurationen verwenden, bei denen sich die Quelle und das Ziel in unterschiedlichen Hostingumgebungen befinden.
Ereignisbasierte Architekturen: Moderne, auf Mikrodiensten basierende Architekturen nutzen zentrale Daten-Hubs, die mit Ereignissen aus der gesamten Organisation kontinuierlich aktualisiert werden, um ereignisgesteuert zu sein. Durch das kontinuierliche Schreiben von Ereignisdaten in Ziele wie BigQuery und Cloud Storage können Sie ereignisgesteuerte Architekturen erstellen, die auf dem Verbrauch von Ereignisdaten von diesen Zielen basieren.

Integrationen

Frage	Antwort
Wie lässt sich Datastream in Google Cloud Datendienste einbinden?	Datastream ergänzt und verbessert die Google Cloud Datensuite durch CDC-Datenreplikation von Quellen zu verschiedenen Google Cloud Diensten. Durch die nahtlose Einbindung in diese Dienste passt Datastream in die größere Google Cloud Umgebung. Datastream kann in die folgenden Datendienste eingebunden werden: BigQuery:Datastream verwendet die BigQuery Write API, um Daten direkt in BigQuery zu schreiben. Datastream schreibt die Änderungsereignisse direkt in das BigQuery-Dataset, in dem die Änderungen kontinuierlich mit den vorhandenen Daten zusammengeführt werden (UPSERT). Dataflow:Datastream kann über Dataflow-Vorlagen in Dataflow eingebunden werden. Mit diesen Vorlagen werden Daten aus Cloud Storage gelesen und in BigQuery, Cloud SQL for PostgreSQL oder Spanner geladen. Der Zweck dieser Vorlagen besteht darin, aktuelle replizierte Quelltabellen an den Zielen zu verwalten. Die Vorlagen sind in der Dataflow-UI verfügbar und werden für von Datastream generierte Dateien erstellt, um eine sofortige Verarbeitung zu ermöglichen. Cloud Storage: Die Einbindung von Datastream in Cloud Storage erfolgt durch das Schreiben von Daten in Cloud-Storage als Ziel für Änderungsstreams. Cloud SQL und Spanner:Mit Datastream und Dataflow-Vorlagen können Sie aktuelle replizierte Tabellen in den Datenbanken verwalten.
Gibt es für die Vorlage „Datastream zu BigQuery“ in Dataflow Einschränkungen hinsichtlich der Anzahl der DML-Vorgänge (Data Manipulation Language, Datenbearbeitungssprache)?	Nein. Die Vorlage verwendet die Streaming-Insert-API, um Daten in BigQuery zu laden. Daher gibt es keine Begrenzung für die Anzahl der DML-Vorgänge. Es gelten jedoch einige Kontingentbeschränkungen.

Frage

Antwort

Wie lässt sich Datastream in Google Cloud Datendienste einbinden?

Datastream ergänzt und verbessert die Google Cloud Datensuite durch CDC-Datenreplikation von Quellen zu verschiedenen Google Cloud Diensten. Durch die nahtlose Einbindung in diese Dienste passt Datastream in die größere Google Cloud Umgebung.

Datastream kann in die folgenden Datendienste eingebunden werden:

BigQuery:Datastream verwendet die BigQuery Write API, um Daten direkt in BigQuery zu schreiben. Datastream schreibt die Änderungsereignisse direkt in das BigQuery-Dataset, in dem die Änderungen kontinuierlich mit den vorhandenen Daten zusammengeführt werden (UPSERT).
Dataflow:Datastream kann über Dataflow-Vorlagen in Dataflow eingebunden werden. Mit diesen Vorlagen werden Daten aus Cloud Storage gelesen und in BigQuery, Cloud SQL for PostgreSQL oder Spanner geladen. Der Zweck dieser Vorlagen besteht darin, aktuelle replizierte Quelltabellen an den Zielen zu verwalten. Die Vorlagen sind in der Dataflow-UI verfügbar und werden für von Datastream generierte Dateien erstellt, um eine sofortige Verarbeitung zu ermöglichen.
Cloud Storage: Die Einbindung von Datastream in Cloud Storage erfolgt durch das Schreiben von Daten in Cloud-Storage als Ziel für Änderungsstreams.
Cloud SQL und Spanner:Mit Datastream und Dataflow-Vorlagen können Sie aktuelle replizierte Tabellen in den Datenbanken verwalten.

Gibt es für die Vorlage „Datastream zu BigQuery“ in Dataflow Einschränkungen hinsichtlich der Anzahl der DML-Vorgänge (Data Manipulation Language, Datenbearbeitungssprache)?

Nein. Die Vorlage verwendet die Streaming-Insert-API, um Daten in BigQuery zu laden. Daher gibt es keine Begrenzung für die Anzahl der DML-Vorgänge. Es gelten jedoch einige Kontingentbeschränkungen.

Sicherheit und Konnektivität

Frage	Antwort
Ist Datastream ein sicherer Dienst für vertrauliche Daten?	Datastream unterstützt mehrere sichere, private Konnektivitätskonfigurationen, um Daten bei der Übertragung zu schützen, während sie von einer Quelle an ein Ziel gestreamt werden. Nachdem die Daten repliziert wurden, werden sie standardmäßig verschlüsselt und nutzen die Sicherheitsfunktionen von BigQuery oder Cloud Storage. Alle von Datastream gepufferte Daten werden im inaktiven Zustand verschlüsselt.
Welche Konnektivitätsoptionen stehen für die Verbindung Ihrer Quellen mit Datastream zur Verfügung?	Es gibt drei Arten von Verbindungsmethoden, die Sie konfigurieren können: IP-Zulassungsliste: Diese Methode ermöglicht öffentliche Verbindungen, indem die regionalen IP-Adressen von Datastream an der Quelle auf die Zulassungsliste gesetzt werden. Beim Erstellen des Streams zeigt Datastream diese IP-Adressen in der Benutzeroberfläche an. Weiterleitungs-SSH-Tunnel: Diese Methode bietet sichere Konnektivität über öffentliche Netzwerke, da nicht nur regionale IP-Adressen auf die Zulassungsliste gesetzt werden, sondern auch ein vom Kunden konfigurierter SSH-Bastion. Private Verbindung über VPC-Peering:Mit dieser Methode können Sie über das interne Netzwerk von Google Cloudeine Verbindung zu Ihren Google Cloud-gehosteten Datenbanken herstellen oder eine vorhandene VPN- oder Interconnect-Verbindung nutzen, indem Sie VPC-Peering zwischen dem privaten Netzwerk von Datastream und der Google Cloud VPC Ihrer Organisation einrichten.
Wie kann ich die Verarbeitung sensibler Daten durch Datastream einschränken?	Mit Datastream können Sie angeben, welche Datenelemente (Schemas, Tabellen und Spalten) Ihrer Quelle an ein Ziel gestreamt werden und welche Elemente vom Streaming ausgeschlossen werden sollen. Datenbanklogs können Änderungsdaten von Elementen enthalten, die in Ihrer Streamdefinition ausgeschlossen wurden. Da Sie diese Elemente nicht an der Quelle filtern können, liest Datastream alle mit den Elementen verknüpften Daten, ignoriert sie aber.
Wie schützt Datastream Datenbankanmeldedaten?	Unabhängig davon, ob Sie Secret Manager zum Speichern Ihres Passworts verwenden oder Ihr Passwort manuell eingeben, wenn Sie Ihr Verbindungsprofil erstellen, werden alle Nutzermetadaten bei der Übertragung und im inaktiven Zustand verschlüsselt und von Google in den eigenen Speichersystemen gespeichert. Der Zugriff auf diese Metadaten wird nachverfolgt und geprüft.
Warum wird auf der Seite Konfiguration für private Verbindungen erstellen angegeben, dass Sie dem Datastream-Dienstkonto die Rolle `roles/compute.networkAdmin` zuweisen müssen, um eine Konfiguration für private Verbindungen in einer freigegebenen VPC zu erstellen?	Die Rolle `networkAdmin` ist nur zum Erstellen des VPC-Peerings erforderlich. Nachdem das Peering eingerichtet wurde, benötigen Sie die Rolle nicht mehr. Wenn Ihre Organisation die Zuweisung der Rolle `networkAdmin` an das Datastream-Dienstkonto nicht zulässt, erstellen Sie eine benutzerdefinierte Rolle mit den folgenden spezifischen Berechtigungen: IP-Bereiche dynamisch auswählen compute.routes.get compute.routes.list compute.subnetworks.get compute.subnetworks.list Peering-Netzwerke erstellen compute.globalOperations.get compute.networks.addPeering compute.networks.removePeering compute.networks.get IP-Adressen reservieren compute.globalAddresses.get compute.globalAddresses.create compute.globalAddresses.createInternal compute.globalAddresses.delete compute.globalAddresses.deleteInternal compute.networks.use compute.networks.listPeeringRoutes
Kann ich Private Service Connect verwenden, um eine Konfiguration für private Verbindungen zu erstellen?	Datastream unterstützt Private Service Connect-Schnittstellen als Konfiguration für private Verbindungen. Eine Private Service Connect-Schnittstelle ist eine Ressource, mit der das VPC-Netzwerk (Virtual Private Cloud) eines Erstellers Verbindungen zu einem Netzwerkanhang in einem Nutzer-VPC-Netzwerk initiieren und Verbindungen von diesem empfangen kann. Weitere Informationen finden Sie unter Private Service Connect-Schnittstellen konfigurieren.

Datastream überwachen

Frage	Antwort
Woher weiß ich, wann alle meine Verlaufsdaten in das Ziel kopiert wurden?	Der Datastream gibt Informationen zu seinem aktuellen Status in den Logdateien an. Es wird ein Logeintrag erstellt, um anzugeben, wann das Backfilling einer Tabelle abgeschlossen ist.
Die Latenz steigt gelegentlich an und nimmt dann im Laufe der Zeit allmählich ab. Ist das zu erwarten?	Der Datastream wird automatisch skaliert, wenn der durch die Quelle generierte Ereignisdurchsatz zunimmt. Zum Schutz der Quelldatenbank und von Datastream gibt es jedoch Beschränkungen für die Anzahl der gleichzeitigen Verbindungen und Prozesse, die Datastream jederzeit öffnen kann. Bei einem deutlichen Anstieg des Ereignisdurchsatzes sind vorübergehende Latenzspitzen zu erwarten. Diese sollten jedoch allmählich abnehmen, wenn der Ereignisrückstand verarbeitet wird.

Frage

Antwort

Woher weiß ich, wann alle meine Verlaufsdaten in das Ziel kopiert wurden?

Der Datastream gibt Informationen zu seinem aktuellen Status in den Logdateien an. Es wird ein Logeintrag erstellt, um anzugeben, wann das Backfilling einer Tabelle abgeschlossen ist.

Die Latenz steigt gelegentlich an und nimmt dann im Laufe der Zeit allmählich ab. Ist das zu erwarten?

Der Datastream wird automatisch skaliert, wenn der durch die Quelle generierte Ereignisdurchsatz zunimmt. Zum Schutz der Quelldatenbank und von Datastream gibt es jedoch Beschränkungen für die Anzahl der gleichzeitigen Verbindungen und Prozesse, die Datastream jederzeit öffnen kann. Bei einem deutlichen Anstieg des Ereignisdurchsatzes sind vorübergehende Latenzspitzen zu erwarten. Diese sollten jedoch allmählich abnehmen, wenn der Ereignisrückstand verarbeitet wird.

Preise

Frage	Antwort
Welche Preise gelten für Datastream?	Die Preise für Datastream basieren auf dem Volumen (GB) der Daten, die von der Quelle an ein Ziel übertragen werden. Weitere Informationen zu den Preisen für Datastream finden Sie unter Preise.
Wie wird die Größe der Daten berechnet?	Die Abrechnung basiert auf der Größe der Daten, die von Datastream verarbeitet werden. Datastream stellt nur Daten in Rechnung, die an das Ziel gestreamt werden.
Bei Verwendung von Datastream mit BigQuery oder Dataflow, wofür wird bezahlt?	Jeder Dienst wird separat berechnet.

Frage

Antwort

Welche Preise gelten für Datastream?

Die Preise für Datastream basieren auf dem Volumen (GB) der Daten, die von der Quelle an ein Ziel übertragen werden.

Weitere Informationen zu den Preisen für Datastream finden Sie unter Preise.

Wie wird die Größe der Daten berechnet?

Die Abrechnung basiert auf der Größe der Daten, die von Datastream verarbeitet werden. Datastream stellt nur Daten in Rechnung, die an das Ziel gestreamt werden.

Bei Verwendung von Datastream mit BigQuery oder Dataflow, wofür wird bezahlt?

Jeder Dienst wird separat berechnet.

Weitere Informationen

Frage	Antwort
Ich habe weitere Fragen oder Probleme mit der Verwendung von Datastream. Was kann ich tun?	Das Supportteam von Google kann Sie unterstützen, wenn Sie Probleme mit der Verwendung von Datastream haben. Außerdem werden in der Anleitung zur Fehlerbehebung gängige Probleme mit der Verwendung von Datastream beschrieben.

Nächste Schritte

Weitere Informationen zu Datastream
Wichtige Konzepte und Funktionen von Datastream
Weitere Informationen zu den von Datastream unterstützten Quellen
Weitere Informationen zu Zielen, die von Datastream unterstützt werden

FAQ Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Allgemeine Fragen zu Datastream und Change Data Capture (CDC)

Allgemeines Quellverhalten und Einschränkungen

Verhalten und Einschränkungen von MySQL-Quellen

Verhalten und Einschränkungen von Oracle-Quellen

Verhalten und Einschränkungen von PostgreSQL-Quellen

Verhalten und Einschränkungen von SQL Server-Quellen

Verhalten und Einschränkungen von Salesforce-Quellen

Verhalten von BigQuery-Zielen

Verhalten des Cloud Storage-Ziels

Anwendungsfälle

Integrationen

Sicherheit und Konnektivität

Datastream überwachen

Preise

Weitere Informationen

Nächste Schritte

FAQ