Einführung in die Migration von Teradata zu BigQuery

In diesem Dokument werden die Gründe für eine Migration von Teradata zu BigQuery erläutert, die Funktionen von Teradata und BigQuery verglichen und die Schritte zur Migration zu BigQuery beschrieben.

Warum von Teradata zu BigQuery migrieren?

Teradata war einer der ersten Innovatoren bei der Verwaltung und Analyse großer Datenmengen. Wenn sich Ihre Cloud-Computing-Anforderungen jedoch weiterentwickeln, benötigen Sie möglicherweise eine modernere Lösung für Ihre Datenanalyse.

Wenn Sie bisher Teradata verwendet haben, sollten Sie aus den folgenden Gründen zu BigQuery migrieren:

  • Einschränkungen älterer Plattformen überwinden
    • Die herkömmliche Architektur von Teradata erfüllt häufig nicht die Anforderungen moderner Analysen, insbesondere die Anforderungen an unbegrenzte Parallelität und konstant hohe Leistung für unterschiedliche Arbeitslasten. Die serverlose Architektur in BigQuery ist so konzipiert, dass diese Anforderungen mit minimalem Aufwand erfüllt werden.
  • Cloudnative Strategie übernehmen
    • Viele Organisationen wechseln strategisch von einer lokalen Infrastruktur zur Cloud. Dieser Wechsel erfordert eine Abkehr von herkömmlichen, hardwaregebundenen Lösungen wie Teradata hin zu einem vollständig verwalteten, skalierbaren und On-Demand-Dienst wie BigQuery, um den Betriebsaufwand zu reduzieren.
  • Integration mit modernen Datenquellen und Analysen
    • Wichtige Unternehmensdaten befinden sich zunehmend in cloudbasierten Quellen. BigQuery ist nativ in das Google Cloud -System eingebunden. So erhalten Sie nahtlosen Zugriff auf diese Quellen und können erweiterte Analysen, maschinelles Lernen und Echtzeitdatenverarbeitung ohne die Infrastruktureinschränkungen von Teradata nutzen.
  • Kosten und Skalierbarkeit optimieren
    • Teradata erfordert oft komplexe und kostspielige Skalierungsschritte. BigQuery bietet eine transparente und automatische Skalierung sowohl von Speicher als auch von Computing unabhängig voneinander. Dadurch ist keine manuelle Neukonfiguration erforderlich und die Gesamtkosten sind besser vorhersehbar und oft niedriger.

Funktionsvergleich

In der folgenden Tabelle werden die Funktionen und Konzepte in Teradata mit den entsprechenden Funktionen in BigQuery verglichen:

Teradata-Konzept BigQuery-Entsprechung Beschreibung
Teradata (On-Premises, Cloud, Hybrid) BigQuery (einheitliche KI-Datenplattform) BigQuery bietet im Vergleich zu einem herkömmlichen Data Warehouse eine Vielzahl zusätzlicher Funktionen. BigQuery ist ein vollständig verwaltetes, cloud-natives Data Warehouse auf Google Cloud. Teradata bietet On-Premises-, Cloud- und Hybrid-Optionen an. BigQuery ist serverlos und in allen Clouds als BQ Omni verfügbar.
Teradata-Tools (Teradata Studio, BTEQ) Google Cloud Console, BigQuery Studio und das bq-Befehlszeilentool Beide bieten Schnittstellen zum Verwalten und Interagieren mit dem Data Warehouse. BigQuery Studio ist webbasiert und in Google Cloud eingebunden. Es bietet die Möglichkeit, SQL-, Python- und Apache Spark-Code zu schreiben.
Datenbanken/Schemas Datasets In Teradata werden Tabellen und Ansichten ähnlich wie in BigQuery-Datasets mithilfe von Datenbanken und Schemas organisiert. Die Verwaltung und Verwendung kann jedoch variieren.
Tabelle Tabelle Auf beiden Plattformen werden Daten in Tabellen in Zeilen und Spalten gespeichert.
Ansehen Ansehen Ansichten funktionieren auf beiden Plattformen ähnlich und bieten eine Möglichkeit, virtuelle Tabellen basierend auf Abfragen zu erstellen.
Primärschlüssel Primärer Schlüssel (in Standard-SQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Primärschlüssel in Standard-SQL. Sie dienen in erster Linie dazu, die BigQuery-Optimierung mithilfe der Abfrageoptimierung zu unterstützen.
Fremdschlüssel Fremdschlüssel (in Standard-SQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Fremdschlüssel in Standard-SQL. Sie dienen in erster Linie dazu, die BigQuery-Optimierung mithilfe der Abfrageoptimierung zu unterstützen.
Index Clustering, Suchindexe, Vektorindexe (automatisch oder verwaltet) Teradata ermöglicht die explizite Indexerstellung.

Wir empfehlen das Clustering in BigQuery. Clustering ist zwar nicht mit Datenbankindexen vergleichbar, trägt aber dazu bei, die Daten auf dem Laufwerk sortiert zu speichern. Dies hilft bei der Optimierung der Datenabfrage, wenn geclusterte Spalten als Prädikate verwendet werden.
BigQuery unterstützt Suchindexe und Vektorindexe.
Partitionierung Partitionierung Beide Plattformen unterstützen die Tabellenpartitionierung, um die Abfrageleistung bei großen Tabellen zu verbessern.

BigQuery unterstützt nur die Partitionierung nach Datumsangaben und Ganzzahlen. Verwenden Sie für Strings stattdessen Clustering.
Ressourcenzuweisung (basierend auf Hardware und Lizenzierung) Reservierungen (kapazitätsbasiert), On-Demand-Preise (Preise für Analysen) BigQuery bietet flexible Preismodelle. Reservierungen bieten vorhersehbare Kosten für konsistente und Ad-hoc-Arbeitslasten mit Autoscaling, während sich die On-Demand-Preise auf die Kosten pro Byte-Scan pro Abfrage konzentrieren.
BTEQ, SQL Assistant und andere Clienttools BigQuery Studio, das bq-Befehlszeilentool und APIs BigQuery bietet verschiedene Schnittstellen zum Ausführen von Abfragen, darunter einen webbasierten Editor, ein Befehlszeilentool und APIs für den programmatischen Zugriff.
Abfrageprotokollierung/-verlauf Abfrageverlauf, INFORMATION_SCHEMA.JOBS In BigQuery wird ein Verlauf der ausgeführten Abfragen gespeichert. So können Sie frühere Abfragen überprüfen, die Leistung analysieren und Probleme beheben. In INFORMATION_SCHEMA.JOBS wird der Verlauf aller Jobs aufbewahrt, die in den letzten sechs Monaten gesendet wurden.
Sicherheitsfunktionen (Zugriffssteuerung, Verschlüsselung) Sicherheitsfunktionen (IAM, ACLs, Verschlüsselung) Beide bieten eine hohe Sicherheit. In BigQuery wird Google Cloud IAM für die detaillierte Zugriffssteuerung verwendet.
Netzwerksteuerung (Firewalls, VPNs) VPC Service Controls, Privater Google-Zugriff BigQuery lässt sich in VPC Service Controls einbinden, um den Zugriff auf Ihre BigQuery-Ressourcen von bestimmten Netzwerken aus einzuschränken. Mit dem privater Google-Zugriff können Sie auf BigQuery zugreifen, ohne öffentliche IP-Adressen zu verwenden.
Nutzer- und Rollenverwaltung Identity and Access Management (IAM) BigQuery verwendet IAM für die detaillierte Zugriffssteuerung. Sie können Nutzern und Dienstkonten bestimmte Berechtigungen auf Projekt-, Dataset- und Tabellenebene gewähren.
Berechtigungen und Rollen für Objekte Access Control Lists (ACLs) für Datasets und Tabellen In BigQuery können Sie ACLs für Datasets und Tabellen definieren, um den Zugriff detailliert zu steuern.
Verschlüsselung von ruhenden Daten und Daten bei der Übertragung Ruhende und übertragene Daten werden verschlüsselt. Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) können in externen EKM-Systemen gehostet werden. BigQuery verschlüsselt Daten standardmäßig. Sie können auch Ihre eigenen Verschlüsselungsschlüssel verwalten, um mehr Kontrolle zu haben.
Funktionen für Datenverwaltung und Compliance Data-Governance-Richtlinien, DLP (Data Loss Prevention) BigQuery unterstützt Richtlinien zur Datenverwaltung und Datenleck-Prävention, damit Sie die Datensicherheit und Compliance-Anforderungen durchsetzen können.
Teradata-Ladeprogramme (z.B. FastLoad, MultiLoad), bteq BigQuery Data Transfer Service, bq-Befehlszeilentool, APIs BigQuery bietet verschiedene Methoden zum Laden von Daten. Teradata bietet spezielle Lade-Dienstprogramme. BigQuery legt den Schwerpunkt auf Skalierbarkeit und Geschwindigkeit bei der Datenaufnahme.
Teradata Export Utilities, bteq bq-Befehlszeilentool, APIs, Exportieren in Cloud Storage BigQuery bietet einen Datenexport in verschiedene Ziele. Teradata bietet eigene Exporttools. Ein wichtiger Vorteil ist die Einbindung von BigQuery in Cloud Storage.

Die BigQuery Storage Read API bietet externe Rechenfunktionen zum Lesen von Daten im Bulk-Verfahren.
Externe Tabellen Externe Tabellen Beide unterstützen das Abfragen von Daten im externen Speicher. BigQuery lässt sich gut in Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage und Google Drive einbinden.
Materialisierte Ansichten Materialisierte Ansichten Beide bieten materialisierte Ansichten für die Abfrageleistung.

BigQuery bietet materialisierte Ansichten mit intelligenter Abstimmung, die immer aktuelle Daten zurückgeben. Außerdem werden Abfragen für materialisierte Ansichten automatisch neu geschrieben, auch wenn sich die Abfrage auf die Basistabelle bezieht.
Benutzerdefinierte Funktionen (User-Defined Functions, UDFs) Benutzerdefinierte Funktionen (UDFs) (SQL, JavaScript) BigQuery unterstützt UDFs in SQL und JavaScript.
Teradata Scheduler, andere Planungstools Geplante Abfragen, Cloud Composer, Cloud Functions, BigQuery-Pipelines BigQuery lässt sich in Google Cloud Planungsdienste und andere externe Planungstools einbinden.
Viewpoint BigQuery-Verwaltung für Monitoring, Prüfung der Betriebsbereitschaft, explorative Datenanalysen und Kapazitätsverwaltung. BigQuery bietet eine umfassende, auf der Benutzeroberfläche basierende Verwaltungs-Toolbox mit mehreren Bereichen zur Überwachung des Betriebszustands und der Ressourcennutzung.
Sicherung und Wiederherstellung Klonen von Datensätzen, Zeitreisen und Failsafe, Snapshots und Klonen von Tabellen, regionaler und multiregionaler Speicher, regionsübergreifende Sicherung und Wiederherstellung BigQuery bietet Snapshots und Zeitreisen zur Wiederherstellung von Daten. Mit Zeitreisen können Sie auf Verlaufsdaten innerhalb eines bestimmten Zeitraums zugreifen. BigQuery bietet außerdem die Möglichkeit, Datasets zu klonen, sowie regionalen und multiregionalen Speicher und regionale Back-up- und Wiederherstellungsoptionen.
Geospatial Functions Geospatial Functions Beide Plattformen unterstützen raumbezogene Daten und Funktionen.

Wo fange ich an?

Weitere Informationen zum Migrationsprozess von Teradata zu BigQuery finden Sie in den folgenden Abschnitten:

Migrationsbewertung ausführen

Bevor Sie mit der Migration von Teradata zu BigQuery beginnen, empfehlen wir Ihnen, zuerst das Tool zur BigQuery-Migrationsbewertung auszuführen, um die Machbarkeit und die potenziellen Vorteile der Migration Ihres Data Warehouses von Teradata zu BigQuery zu bewerten. Dieses Tool bietet einen strukturierten Ansatz, um Ihre aktuelle Teradata-Umgebung zu verstehen und den Aufwand für eine erfolgreiche Migration zu schätzen.

Wenn Sie das BigQuery-Migrationsbewertungstool ausführen, wird ein Bewertungsbericht mit den folgenden Abschnitten erstellt:

  • Bericht zum vorhandenen System: Ein Snapshot des vorhandenen Teradata-Systems und der vorhandenen Nutzung, einschließlich der Anzahl der Datenbanken, Schemas, Tabellen und der Gesamtgröße in TB. Außerdem werden die Schemas nach Größe aufgelistet und es wird auf eine potenzielle suboptimale Ressourcennutzung (Tabellen ohne Schreibvorgänge oder mit wenigen Lesevorgängen) verwiesen.
  • Vorschläge für BigQuery-Transformationen im stabilen Zustand: Hier sehen Sie, wie das System nach der Migration in BigQuery aussieht. Er enthält Vorschläge zur Optimierung von Arbeitslasten in BigQuery und Vermeidung von unnötiger Inanspruchnahme.
  • Migrationsplan: Enthält Informationen zur Migration selbst. Zum Beispiel zur Überführung des vorhandenen Systems in einen stabilen BigQuery-Zustand. In diesem Abschnitt werden die Anzahl der automatisch übersetzten Abfragen und die erwartete Zeit zum Verschieben der einzelnen Tabellen in BigQuery angegeben.

Weitere Informationen zu den Ergebnissen einer Migrationsbewertung finden Sie unter Looker Studio-Bericht aufrufen.

Schema und Daten aus Teradata migrieren

Nachdem Sie die Ergebnisse der Migrationsbewertung überprüft haben, können Sie mit der Teradata-Migration beginnen. Bereiten Sie dazu BigQuery auf die Migration vor und richten Sie einen Job für die Datenübertragung ein.

Weitere Informationen zum Teradata-Migrationsprozess finden Sie unter Schema und Daten aus Teradata migrieren.

Migration prüfen

Nachdem Sie Ihre Teradata-Daten zu BigQuery migriert haben, können Sie mit dem Data Validation Tool (DVT) eine Datenüberprüfung für die neu migrierten BigQuery-Daten durchführen. Das DVT prüft verschiedene Funktionen von der Tabellen- bis zur Zeilenebene, um sicherzustellen, dass die migrierten Daten wie vorgesehen funktionieren. Weitere Informationen zum DVT finden Sie unter Datenvalidierungstool für EDW-Migrationen.

Sie können über das öffentliche GitHub-Repository für DVT auf die DVT zugreifen.

Nächste Schritte