Einführung in die BigQuery-Datenvorbereitung

In diesem Dokument wird die KI-gestützte Datenvorbereitung in BigQuery beschrieben. Datenvorbereitungen sind BigQuery-Ressourcen, mit denen Ihre Daten mithilfe von Gemini in BigQuery analysiert werden und intelligente Vorschläge zur Bereinigung, Transformation und Aufbereitung der Daten gemacht werden. Sie können den Zeit- und Arbeitsaufwand für die manuelle Datenaufbereitung erheblich reduzieren. Die Planung der Datenvorbereitung erfolgt mit Dataform.

Vorteile

  • Mit kontextbezogenen, von Gemini generierten Transformationsvorschlägen können Sie den Zeitaufwand für die Entwicklung der Datenpipeline reduzieren.
  • Sie können die generierten Ergebnisse in einer Vorschau prüfen und mithilfe der automatischen Schemazuordnung Vorschläge zur Datenbereinigung und -anreicherung erhalten.
  • Mit Dataform können Sie einen CI/CD-Prozess (Continuous Integration, Continuous Development) verwenden, der die bereichsübergreifende Zusammenarbeit bei Codeüberprüfungen und Versionskontrolle unterstützt.

Einstiegspunkte für die Datenvorbereitung

Sie können Datenvorbereitungen auf der Seite BigQuery Studio erstellen und verwalten. Weitere Informationen finden Sie unter Datenvorbereitungseditor in BigQuery öffnen.

Wenn Sie eine Tabelle in der BigQuery-Datenvorbereitung öffnen, wird ein BigQuery-Job mit Ihren Anmeldedaten ausgeführt. Dabei werden Beispielzeilen aus der ausgewählten Tabelle erstellt und die Ergebnisse in eine temporäre Tabelle im selben Projekt geschrieben. Gemini verwendet die Beispieldaten und das Beispielschema, um Vorschläge zur Datenvorbereitung zu generieren, die im Editor für die Datenvorbereitung angezeigt werden.

Ansichten im Editor für die Datenvorbereitung

Datenvorbereitungen werden auf der Seite BigQuery als Tabs angezeigt. Jeder Tab enthält mehrere Untertabs oder Ansichten für die Datenvorbereitung, in denen Sie Ihre Datenvorbereitungen entwerfen und verwalten.

Datenansicht

Wenn Sie eine neue Datenvorbereitung erstellen, wird ein Tab mit dem Editor für die Datenvorbereitung geöffnet. Dort sehen Sie die Datenansicht mit einer repräsentativen Stichprobe der Tabelle. Bei vorhandenen Datenvorbereitungen können Sie die Datenansicht aufrufen, indem Sie in der Grafikansicht der Datenvorbereitungspipeline auf einen Knoten klicken.

In der Datenansicht haben Sie folgende Möglichkeiten:

  • Interagieren Sie mit Ihren Daten, um Schritte zur Datenvorbereitung zu erstellen.
  • Vorschläge von Gemini anwenden
  • Sie können die Qualität der Gemini-Vorschläge verbessern, indem Sie Beispielwerte in die Zellen eingeben.

Über jeder Spalte in der Tabelle wird in einem statistischen Profil (Histogramm) die Anzahl der höchsten Werte jeder Spalte in den Vorschauzeilen angezeigt.

Datenansicht im Editor für die Datenvorbereitung

Diagrammansicht

Die Grafikansicht bietet eine visuelle Übersicht über die Datenvorbereitung. Er wird als Tab auf der Seite BigQuery in der Console angezeigt, wenn Sie eine Datenvorbereitung öffnen. Das Diagramm enthält Knoten für alle Schritte in der Datenvorbereitungspipeline. Sie können einen Knoten im Diagramm auswählen, um die Schritte zur Datenvorbereitung zu konfigurieren, die er darstellt.

Diagrammansicht im Editor für die Datenvorbereitung

Schemaansicht

In der Schemaansicht für die Datenvorbereitung wird das aktuelle Schema des aktiven Schritts der Datenvorbereitung angezeigt. Das angezeigte Schema entspricht den Spalten in der Datenansicht.

In der Schemaansicht können Sie spezielle Schemavorgänge ausführen, z. B. Spalten entfernen. Dadurch werden auch Schritte in der Liste Angewandte Schritte erstellt.

Schemaansicht im Editor für die Datenvorbereitung

Vorschläge von Gemini

Gemini bietet kontextbezogene Vorschläge für die folgenden Aufgaben zur Datenvorbereitung:

  • Transformationen und Regeln für die Datenqualität anwenden
  • Daten standardisieren und ergänzen
  • Schemazuordnung automatisieren

Jeder Vorschlag wird in der Vorschlagsliste des Editors für die Datenvorbereitung auf einer Karte angezeigt. Die Karte enthält die folgenden Informationen:

  • Die übergeordnete Kategorie des Schritts, z. B. Zeilen beibehalten oder Transformation
  • Eine Beschreibung des Schritts, z. B. Zeilen beibehalten, wenn COLUMN_NAME nicht NULL ist
  • Der entsprechende SQL-Ausdruck, der zum Ausführen des Schritts verwendet wird

Sie können sich eine Vorschau der Vorschlagskarte ansehen, sie bearbeiten oder anwenden oder den Vorschlag optimieren. Sie können Schritte auch manuell hinzufügen. Weitere Informationen finden Sie unter Daten mit Gemini vorbereiten.

Wenn Sie die Vorschläge von Gemini optimieren möchten, geben Sie ein Beispiel dafür an, was in einer Spalte geändert werden soll.

Stichprobenerhebung

In BigQuery wird Stichprobenerhebung verwendet, um Ihnen eine Vorschau Ihrer Datenvorbereitung zu geben. Sie können sich die Stichprobe für jeden Knoten in der Datenansicht ansehen. Die Daten in der Stichprobe werden nicht automatisch aktualisiert. Weitere Informationen finden Sie unter Beispiele für die Datenvorbereitung aktualisieren.

Schreibmodus

Um Kosten und Verarbeitungszeit zu optimieren, können Sie die Einstellungen für den Schreibmodus ändern, um neue Daten aus der Quelle inkrementell zu verarbeiten. Wenn Sie beispielsweise eine Tabelle in BigQuery haben, in die täglich Einträge eingefügt werden, und ein Looker-Dashboard, das die geänderten Daten widerspiegeln muss, können Sie die BigQuery-Datenvorbereitung so planen, dass die neuen Einträge schrittweise aus der Quelltabelle gelesen und in die Zieltabelle übertragen werden.

Wie Sie die Datenvorbereitung so konfigurieren, dass sie in eine Zieltabelle geschrieben wird, erfahren Sie unter Datenvorbereitung durch inkrementelle Datenverarbeitung optimieren.

Die folgenden Schreibmodi werden unterstützt:

Option für den Schreibmodus Beschreibung
Vollständige Aktualisierung Führt die Schritte zur Datenvorbereitung auf allen Quelldaten aus und erstellt dann die Zieltabelle vollständig neu. Die Tabelle wird neu erstellt und nicht gekürzt. Die vollständige Aktualisierung ist der Standardmodus beim Schreiben in eine Zieltabelle.
Anhängen Alle Daten aus der Datenvorbereitung werden als zusätzliche Zeilen in die Zieltabelle eingefügt.
Inkrementell Es werden nur die neuen oder, je nach Auswahl der inkrementellen Spalte, geänderten Daten in die Zieltabelle eingefügt. Basierend auf der ausgewählten inkrementellen Spalte wird bei der Datenvorbereitung der optimale Mechanismus zur Erkennung von Änderungseinträgen ausgewählt. Für numerische und Datum/Uhrzeit-Datentypen werden Maximalwerte und für kategorische Daten werden eindeutige Werte ausgewählt. Mit „Maximum“ werden nur Datensätze eingefügt, bei denen der angegebene Spaltenwert größer als der Höchstwert für dieselbe Spalte in der Zieltabelle ist. Bei der eindeutigen Einfügung werden nur Einträge eingefügt, bei denen die angegebenen Spaltenwerte nicht in den vorhandenen Werten für dieselbe Spalte in der Zieltabelle enthalten sind.

Unterstützte Schritte zur Datenvorbereitung

BigQuery unterstützt die folgenden Arten von Schritten zur Datenvorbereitung:

Schritttyp Beschreibung
Quelle Eine Quelle wird hinzugefügt, wenn Sie eine BigQuery-Tabelle auswählen, aus der gelesen werden soll, oder wenn Sie einen Join-Schritt hinzufügen.
Transformation Bereinigt und transformiert Daten mithilfe eines SQL-Ausdrucks. Sie erhalten Vorschlagskarten für die folgenden Ausdrücke:
  • Typumwandlungsfunktionen wie CAST
  • Stringfunktionen wie SUBSTR, CONCAT, REPLACE, UPPER, LOWER und TRIM
  • Datums-/Zeitfunktionen wie PARSE_DATE, TIMESTAMP, EXTRACT und DATE_ADD
  • JSON-Funktionen wie JSON_EXTRACT

Sie können auch beliebige gültige BigQuery-SQL-Ausdrücke in manuellen Transformationsschritten verwenden. Beispiel:
  • Mathematische Berechnungen mit Zahlen, z. B. Umwandlung von Wattstunden in Kilowattstunden
  • Arrayfunktionen wie ARRAY_AGG, ARRAY_CONCAT und UNNEST
  • Fensterfunktionen wie ROW_NUMBER, LAG, LEAD, RANK und NTILE


Weitere Informationen finden Sie unter Transformation hinzufügen.
Filter Entfernt Zeilen mithilfe der Syntax der WHERE-Klausel. Wenn Sie einen Filterschritt hinzufügen, können Sie ihn in einen Validierungsschritt umwandeln.

Weitere Informationen finden Sie unter Zeilen filtern.
Validierung Zeilen, die die Kriterien der Validierungsregel nicht erfüllen, werden an eine Fehlertabelle gesendet. Wenn Daten die Validierungsregel nicht erfüllen und keine Fehlertabelle konfiguriert ist, schlägt die Datenvorbereitung bei der Ausführung fehl.

Weitere Informationen finden Sie unter Fehlertabelle konfigurieren und Validierungsregel hinzufügen.
Beitreten Werte aus zwei Quellen werden zusammengeführt. Die Tabellen müssen sich am selben Speicherort befinden. Join-Schlüsselspalten müssen denselben Datentyp haben. Bei der Datenvorbereitung werden die folgenden Join-Vorgänge unterstützt:
  • Inner Joins
  • Left Joins
  • Right Joins
  • Full Outer Joins
  • Kreuz-Joins (wenn keine Join-Schlüsselspalten ausgewählt sind, wird ein Kreuz-Join verwendet)


Weitere Informationen finden Sie unter Join-Vorgang hinzufügen.
Ziel Hier wird ein Ziel für die Ausgabe der Schritte zur Datenvorbereitung definiert. Wenn Sie eine Zieltabelle eingeben, die nicht vorhanden ist, wird in der Datenvorbereitung eine neue Tabelle mit den aktuellen Schemainformationen erstellt.

Weitere Informationen finden Sie unter Zieltabelle hinzufügen oder ändern.
Spalten löschen Löscht Spalten aus dem Schema. Sie führen diesen Schritt über die Schemaansicht aus.

Weitere Informationen finden Sie unter Spalte löschen.

Ausführungen der Datenvorbereitung planen

Erstellen Sie einen Zeitplan, um die Schritte zur Datenvorbereitung auszuführen und die vorbereiteten Daten in die Zieltabelle zu laden. Sie können Datenvorbereitungen im Editor für die Datenvorbereitung planen und auf der BigQuery-Seite Planung verwalten. Weitere Informationen finden Sie unter Datenvorbereitungen planen.

Pipelines mit Datenvorbereitungsaufgaben erstellen

Sie können BigQuery-Pipelines erstellen, die aus Datenvorbereitung, SQL-Abfrage und Notebook-Aufgaben bestehen. Anschließend können Sie diese Pipelines nach einem Zeitplan ausführen. Weitere Informationen finden Sie unter Einführung in BigQuery-Pipelines.

Zugriff steuern

Steuern Sie den Zugriff auf die Datenvorbereitung mithilfe von IAM-Rollen (Identity and Access Management), Verschlüsselung mit BigQuery- und Dataform-Cloud KMS-Schlüsseln und VPC Service Controls.

IAM-Rollen und -Berechtigungen

Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, über die die Jobs ausgeführt werden, benötigen IAM-Berechtigungen. Weitere Informationen finden Sie unter Erforderliche Rollen und Gemini für BigQuery einrichten.

Verschlüsselung mit Cloud KMS-Schlüsseln

Sie können Daten auf Dataset- oder Projektebene mit den standardmäßigen kundenverwalteten Cloud KMS-Schlüsseln in BigQuery verschlüsseln. Weitere Informationen finden Sie unter Standardschlüssel für Datensatz festlegen und Standardschlüssel für Projekt festlegen.

Sie können Pipelinecode standardmäßig mit einem Dataform Cloud KMS-Schlüssel auf Projektebene verschlüsseln.

VPC Service Controls-Perimeter

Wenn Sie VPC Service Controls verwenden, müssen Sie den Perimeter so konfigurieren, dass Dataform und BigQuery geschützt sind. Weitere Informationen finden Sie in den Einschränkungen von VPC Service Controls für BigQuery und Dataform.

Beschränkungen

Die Datenvorbereitung ist mit folgenden Einschränkungen verfügbar:

  • Alle Quell- und Ziel-Datasets der BigQuery-Datenvorbereitung einer bestimmten Datenvorbereitung müssen sich am selben Speicherort befinden. Weitere Informationen finden Sie unter Standorte.
  • Während der Bearbeitung der Pipeline werden Daten und Interaktionen zur Verarbeitung an ein Gemini-Rechenzentrum gesendet. Weitere Informationen finden Sie unter Standorte.
  • Gemini in BigQuery wird von Assured Workloads nicht unterstützt.
  • Bei BigQuery-Datenvorbereitungen können Versionen der Datenvorbereitung nicht angezeigt, verglichen oder wiederhergestellt werden.
  • Die Antworten von Gemini basieren auf einer Stichprobe des Datasets, das Sie beim Entwerfen der Datenvorbereitungspipeline angeben. Weitere Informationen finden Sie unter So verwendet Gemini Ihre Daten und in den Nutzungsbedingungen des Gemini for Google Cloud Trusted Tester-Programms. Google Cloud
  • Die BigQuery-Datenvorbereitung hat keine eigene API. Informationen zu den erforderlichen APIs finden Sie unter Gemini in BigQuery einrichten.

Standorte

Sie können die Datenvorbereitung an jedem unterstützten BigQuery-Speicherort verwenden. Ihre Jobs zur Datenverarbeitung werden am Speicherort Ihrer Quelldatensätze ausgeführt und dort gespeichert. Wenn ein Repository-Speicherort angegeben ist, muss er mit dem Speicherort des Quell-Datasets übereinstimmen. Die Speicherregion des Codes zur Datenvorbereitung kann von der Region der Jobausführung abweichen. Weitere Informationen finden Sie unter Standardregion für Code-Assets festlegen.

Gemini in BigQuery ist global verfügbar. Sie können die Datenverarbeitung von Gemini also nicht auf eine bestimmte Region beschränken, wenn Sie Ihre Datenvorbereitung entwerfen. Die BigQuery-Datenverarbeitung erfolgt jedoch immer am Speicherort Ihrer Quelldatensätze. Weitere Informationen zu den Standorten, an denen Gemini in BigQuery Daten verarbeitet, finden Sie unter Gemini-Auslieferungsstandorte.

Preise

Für die Datenvorbereitung und das Erstellen von Datenvorschauproben werden BigQuery-Ressourcen verwendet, die gemäß den in der Preisübersicht für BigQuery angegebenen Preisen in Rechnung gestellt werden.

Die Datenvorbereitung ist in den Gemini in BigQuery-Preisen enthalten. Während der Vorabversion können Sie die BigQuery-Datenvorbereitung kostenlos nutzen. Weitere Informationen finden Sie unter Gemini in BigQuery einrichten.

Kontingente

Weitere Informationen finden Sie unter Kontingente für Gemini in BigQuery.

Nächste Schritte