Migration von Teradata zu BigQuery: Einführung

In diesem Dokument werden die Gründe für eine Migration von Teradata zu BigQuery erläutert, die Funktionen von Teradata und BigQuery verglichen und ein Überblick über die Schritte für den Beginn der BigQuery-Migration gegeben.

Warum von Teradata zu BigQuery migrieren?

Teradata war ein früher Innovator bei der Verwaltung und Analyse großer Datenmengen. Wenn sich Ihre Cloud-Computing-Anforderungen jedoch weiterentwickeln, benötigen Sie möglicherweise eine modernere Lösung für Ihre Datenanalysen.

Wenn Sie Teradata bisher verwendet haben, sollten Sie aus den folgenden Gründen eine Migration zu BigQuery in Betracht ziehen:

  • Einschränkungen der Legacy-Plattform überwinden
    • Die herkömmliche Architektur von Teradata kann die Anforderungen moderner Analysen oft nicht erfüllen, insbesondere den Bedarf an unbegrenzter Parallelität und konstant hoher Leistung für verschiedene Arbeitslasten. Die serverlose Architektur in BigQuery ist darauf ausgelegt, diese Anforderungen mit minimalem Aufwand zu bewältigen.
  • Cloudnative Strategie übernehmen
    • Viele Organisationen verlagern ihre Infrastruktur strategisch von lokalen Umgebungen in die Cloud. Diese Umstellung erfordert eine Abkehr von herkömmlichen, hardwaregebundenen Lösungen wie Teradata hin zu einem vollständig verwalteten, skalierbaren On-Demand-Dienst wie BigQuery, um den Betriebsaufwand zu reduzieren.
  • Integration mit modernen Datenquellen und Analysen
    • Wichtige Unternehmensdaten werden zunehmend in cloudbasierten Quellen gespeichert. BigQuery ist nativ in das Google Cloud Ökosystem eingebunden und bietet nahtlosen Zugriff auf diese Quellen. So sind erweiterte Analysen, maschinelles Lernen und Echtzeitdatenverarbeitung ohne die Infrastrukturbeschränkungen von Teradata möglich.
  • Kosten und Skalierbarkeit optimieren
    • Teradata erfordert oft komplexe und kostspielige Skalierungsprozesse. BigQuery bietet eine transparente und automatische Skalierung von Speicher und Computing unabhängig voneinander. Dadurch ist keine manuelle Neukonfiguration erforderlich und die Gesamtbetriebskosten sind vorhersehbarer und oft niedriger.

Funktionsvergleich

In der folgenden Tabelle werden die Funktionen und Konzepte in Teradata mit den entsprechenden Funktionen in BigQuery verglichen:

Teradata-Konzept BigQuery-Entsprechung Beschreibung
Teradata (On-Premise, Cloud, Hybrid) BigQuery (Unified, AI Data Platform) BigQuery bietet im Vergleich zu einem herkömmlichen Data Warehouse eine Vielzahl zusätzlicher Funktionen. BigQuery ist ein vollständig verwaltetes, cloudbasiertes Data Warehouse auf Google Cloud. Teradata bietet lokale, Cloud- und Hybridoptionen. BigQuery ist serverlos und in allen Clouds als BQ Omni verfügbar.
Teradata-Tools (Teradata Studio, BTEQ) Google Cloud Console, BigQuery Studio, das bq-Befehlszeilentool Beide bieten Schnittstellen zum Verwalten und Interagieren mit dem Data Warehouse. BigQuery Studio ist webbasiert und in Google Cloud integriert. Sie können damit SQL, Python und Apache Spark schreiben.
Datenbanken/Schemas Datasets In Teradata werden Datenbanken und Schemas verwendet, um Tabellen und Ansichten zu organisieren, ähnlich wie BigQuery-Datasets. Die Verwaltung und Verwendung kann jedoch unterschiedlich sein.
Tabelle Tabelle Auf beiden Plattformen werden Daten in Tabellen in Zeilen und Spalten gespeichert.
Ansehen Ansehen Ansichten funktionieren auf beiden Plattformen ähnlich. Sie bieten eine Möglichkeit, virtuelle Tabellen auf Grundlage von Abfragen zu erstellen.
Primärschlüssel Primärschlüssel (in GoogleSQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Primärschlüssel in GoogleSQL. Sie dienen in erster Linie der Abfrageoptimierung.
Fremdschlüssel Fremdschlüssel (in GoogleSQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Fremdschlüssel in GoogleSQL. Sie dienen in erster Linie der Abfrageoptimierung.
Index Clustering, Suchindexe, Vektorindexe (automatisch oder verwaltet) In Teradata können Sie Indizes explizit erstellen.

Wir empfehlen Clustering in BigQuery. Das Clustering ist zwar nicht mit Datenbankindexen vergleichbar, trägt aber dazu bei, dass die Daten auf dem Laufwerk sortiert gespeichert werden. Dies optimiert den Datenabruf, wenn geclusterte Spalten als Prädikate verwendet werden.
BigQuery unterstützt Suchindexe und Vektorindexe.
Partitionierung Partitionierung Beide Plattformen unterstützen die Tabellenpartitionierung, um die Abfrageleistung bei großen Tabellen zu verbessern.

BigQuery unterstützt nur die Partitionierung nach Datumsangaben und Ganzzahlen. Verwenden Sie für Strings stattdessen Clustering.
Ressourcenzuweisung (basierend auf Hardware und Lizenzierung) Reservierungen (kapazitätsbasiert), On-Demand-Preise (Analysepreise) BigQuery bietet flexible Preismodelle. Reservierungen bieten vorhersehbare Kosten für konsistente und Ad-hoc-Arbeitslasten mit Autoscaling, während sich die On-Demand-Preise auf Gebühren pro Byte-Scan konzentrieren.
BTEQ, SQL Assistant, andere Client-Tools BigQuery Studio, das bq-Befehlszeilentool, APIs BigQuery bietet verschiedene Schnittstellen zum Ausführen von Abfragen, darunter einen webbasierten Editor, ein Befehlszeilentool und APIs für den programmatischen Zugriff.
Abfrageprotokollierung/-verlauf Abfrageverlauf, INFORMATION_SCHEMA.JOBS In BigQuery wird ein Verlauf der ausgeführten Abfragen geführt. So können Sie frühere Abfragen ansehen, die Leistung analysieren und Probleme beheben. In INFORMATION_SCHEMA.JOBS wird der Verlauf aller Jobs gespeichert, die in den letzten sechs Monaten gesendet wurden.
Sicherheitsfunktionen (Zugriffssteuerung, Verschlüsselung) Sicherheitsfunktionen (IAM, ACLs, Verschlüsselung) Beide bieten eine hohe Sicherheit. BigQuery verwendet Google Cloud IAM für die detaillierte Zugriffssteuerung.
Netzwerksteuerung (Firewalls, VPNs) VPC Service Controls, privater Google-Zugriff BigQuery ist in VPC Service Controls eingebunden, um den Zugriff auf Ihre BigQuery-Ressourcen über bestimmte Netzwerke einzuschränken. Mit dem privater Google-Zugriff können Sie auf BigQuery zugreifen, ohne öffentliche IP-Adressen zu verwenden.
Nutzer- und Rollenverwaltung Identity and Access Management (IAM) BigQuery verwendet IAM für die detaillierte Zugriffssteuerung. Sie können Nutzern und Dienstkonten bestimmte Berechtigungen auf Projekt-, Dataset- und Tabellenebene gewähren.
Gewährungen und Rollen für Objekte Access Control Lists (ACLs) für Datasets und Tabellen In BigQuery können Sie ACLs für Datasets und Tabellen definieren, um den Zugriff auf granularer Ebene zu steuern.
Verschlüsselung von ruhenden Daten und Daten bei der Übertragung Verschlüsselung ruhender und übertragener Daten, vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK), Schlüssel können in externen EKM-Systemen gehostet werden. BigQuery verschlüsselt Daten standardmäßig. Sie können auch Ihre eigenen Verschlüsselungsschlüssel verwalten, um zusätzliche Kontrolle zu haben.
Features für Data Governance und Compliance Data-Governance-Richtlinien, Schutz vor Datenverlust (Data Loss Prevention, DLP) BigQuery unterstützt Data Governance-Richtlinien und DLP, damit Sie die Anforderungen an Datensicherheit und Compliance durchsetzen können.
Teradata-Ladedienstprogramme (z.B. FastLoad, MultiLoad), bteq BigQuery Data Transfer Service, bq-Befehlszeilentool, APIs BigQuery bietet verschiedene Methoden zum Laden von Daten. Teradata bietet spezielle Dienstprogramme zum Laden von Daten. Bei BigQuery wird Wert auf Skalierbarkeit und Geschwindigkeit bei der Datenaufnahme gelegt.
Teradata Export Utilities, bteq bq-Befehlszeilentool, APIs, Export nach Cloud Storage BigQuery bietet den Datenexport an verschiedene Ziele an. Teradata hat eigene Exporttools. Die Integration von BigQuery in Cloud Storage ist ein wichtiger Vorteil.

Die BigQuery Storage Read API ermöglicht es, Daten in großen Mengen zu lesen.
Externe Tabellen Externe Tabellen Beide unterstützen das Abfragen von Daten in externem Speicher. BigQuery lässt sich gut in Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage und Google Drive einbinden.
Materialisierte Ansichten Materialisierte Ansichten Beide bieten materialisierte Ansichten für die Abfrageleistung.

BigQuery bietet materialisierte Ansichten mit Smart Tuning, die immer aktuelle Daten zurückgeben und auch dann eine automatische Abfrageumschreibung in materialisierte Ansichten ermöglichen, wenn sich die Abfrage auf die Basistabelle bezieht.
Benutzerdefinierte Funktionen (User-Defined Functions, UDFs) Benutzerdefinierte Funktionen (UDFs) (SQL, JavaScript) BigQuery unterstützt UDFs in SQL und JavaScript.
Teradata Scheduler, andere Planungstools Geplante Abfragen, Cloud Composer, Cloud Functions, BigQuery-Pipelines BigQuery lässt sich in Google Cloud Planungsdienste und andere externe Planungstools einbinden.
Aussichtspunkt BigQuery-Verwaltung für Monitoring, Health Check, Job-Exploration und Kapazitätsverwaltung. BigQuery bietet eine umfassende Verwaltungs-Toolbox mit mehreren Bereichen, in denen Sie den Betriebszustand und die Ressourcennutzung überwachen können.
Sicherung und Wiederherstellung Dataset-Klonen, Time Travel und Fail Safe, Tabellen-Snapshots und -Klonen, regionaler und multiregionaler Speicher, regionsübergreifende Sicherung und Wiederherstellung. BigQuery bietet Snapshots und Time Travel zum Wiederherstellen von Daten. Mit der Funktion „Zeitreise“ können Sie innerhalb eines bestimmten Zeitraums auf Verlaufsdaten zugreifen. BigQuery bietet außerdem das Klonen von Datasets, regionalen und multiregionalen Speicher sowie regionsübergreifende Optionen für Back-ups und die Wiederherstellung.
Geospatiale Funktionen Geospatiale Funktionen Beide Plattformen unterstützen raumbezogene Daten und Funktionen.

Jetzt starten

In den folgenden Abschnitten wird der Migrationsprozess von Teradata zu BigQuery zusammengefasst:

Migrationsbewertung ausführen

Bei der Migration von Teradata zu BigQuery empfehlen wir, zuerst das BigQuery-Tool zur Migrationsbewertung auszuführen, um die Machbarkeit und die potenziellen Vorteile der Migration Ihres Data Warehouse von Teradata zu BigQuery zu bewerten. Dieses Tool bietet einen strukturierten Ansatz, um Ihre aktuelle Teradata-Umgebung zu analysieren und den Aufwand für eine erfolgreiche Migration zu schätzen.

Wenn Sie das BigQuery-Migrationsbewertungstool ausführen, wird ein Bewertungsbericht mit den folgenden Abschnitten erstellt:

  • Bericht zum vorhandenen System: ein Snapshot des vorhandenen Teradata-Systems und der vorhandenen Nutzung, einschließlich der Anzahl der Datenbanken, Schemas, Tabellen und der Gesamtgröße in TB. Außerdem werden die Schemas nach Größe aufgelistet und es wird auf eine potenzielle suboptimale Ressourcennutzung verwiesen, z. B. Tabellen ohne Schreibvorgänge oder mit wenigen Lesevorgängen.
  • Vorschläge für Transformationen im stabilen Zustand von BigQuery: Hier sehen Sie, wie das System nach der Migration in BigQuery aussieht. Er enthält Vorschläge zur Optimierung von Arbeitslasten in BigQuery und zur Vermeidung von unnötiger Inanspruchnahme.
  • Migrationsplan: enthält Informationen zur Migration selbst. Zum Beispiel zur Überführung des vorhandenen Systems in einen stabilen BigQuery-Zustand. In diesem Abschnitt werden die Anzahl der automatisch übersetzten Abfragen und die erwartete Zeit zum Verschieben der einzelnen Tabellen in BigQuery angegeben.

Weitere Informationen zu den Ergebnissen einer Migrationsbewertung finden Sie unter Looker Studio-Bericht aufrufen.

Schema und Daten aus Teradata migrieren

Nachdem Sie die Ergebnisse der Migrationsbewertung geprüft haben, können Sie die Teradata-Migration starten, indem Sie BigQuery für die Migration vorbereiten und dann einen Datenübertragungsjob einrichten.

Weitere Informationen zum Teradata-Migrationsprozess finden Sie unter Schema und Daten aus Teradata migrieren.

Migration validieren

Nachdem Sie Ihre Teradata-Daten zu BigQuery migriert haben, führen Sie das Data Validation Tool (DVT) aus, um eine Datenvalidierung für Ihre neu migrierten BigQuery-Daten durchzuführen. Das DVT validiert verschiedene Funktionen, von der Tabellen- bis zur Zeilenebene, um zu prüfen, ob Ihre migrierten Daten wie vorgesehen funktionieren. Weitere Informationen zum DVT finden Sie unter Introducing the Data Validation Tool for EDW migrations.

Sie können auf das DVT im öffentlichen GitHub-Repository für DVT zugreifen.

Nächste Schritte