Daten mit Gemini vorbereiten
In diesem Dokument wird beschrieben, wie Sie SQL-Codevorschläge für die Datenaufbereitung in BigQuery generieren und verwalten.
Weitere Informationen finden Sie unter Einführung in die BigQuery-Datenaufbereitung.
Hinweise
Editor für die Datenvorbereitung in BigQuery öffnen
Sie können den Editor für die Datenvorbereitung in BigQuery öffnen, indem Sie eine neue Datenvorbereitung erstellen, eine aus einer vorhandenen Tabelle erstellen oder eine vorhandene Datenvorbereitung öffnen. Weitere Informationen dazu, was beim Erstellen einer Datenaufbereitung passiert, finden Sie unter Einstiegspunkte für die Datenaufbereitung.
Auf der Seite BigQuery haben Sie folgende Möglichkeiten, den Editor für die Datenvorbereitung aufzurufen:
Neu erstellen
So erstellen Sie eine neue Datenaufbereitung in BigQuery:
- Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
BigQuery aufrufen - Rufen Sie die Liste Neu erstellen auf und klicken Sie auf Datenaufbereitung. Der Editor für die Datenvorbereitung wird auf einem neuen Tab für die unbenannte Datenvorbereitung angezeigt.
- Geben Sie in der Suchleiste des Editors den Namen der Tabelle oder Suchbegriffe ein und wählen Sie eine Tabelle aus. Der Editor zur Datenvorbereitung für die Tabelle wird geöffnet. Auf dem Tab Daten sehen Sie eine Vorschau Ihrer Daten und eine erste Reihe von Vorschlägen zur Datenvorbereitung von Gemini.
Im Bereich Explorer wird eine Datenaufbereitung-Ressource angezeigt, über die Sie in Zukunft auf diese Aufbereitung zugreifen können. - Optional: Wenn Sie die Ansicht vereinfachen möchten, aktivieren Sie den Vollbildmodus, indem Sie auf Vollbild Vollbild klicken.
Neu aus Tabelle erstellen
So erstellen Sie eine neue Datenaufbereitung aus einer vorhandenen Tabelle:
- Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
BigQuery aufrufen - Bewegen Sie den Mauszeiger im Bereich Explorer auf eine Tabelle.
- Klicken Sie auf das Dreipunkt-Menü more_vert > Menü > Abfrage in > Datenaufbereitung. Der Editor zur Datenvorbereitung für die Tabelle wird geöffnet. Auf dem Tab Daten sehen Sie eine Vorschau Ihrer Daten und eine erste Reihe von Vorschlägen zur Datenvorbereitung von Gemini.
Im Bereich Explorer wird eine Datenaufbereitung-Ressource angezeigt, über die Sie in Zukunft auf diese Aufbereitung zugreifen können. - Optional: Wenn Sie die Ansicht vereinfachen möchten, aktivieren Sie den Vollbildmodus, indem Sie auf Vollbild Vollbild klicken.
Vorhandenes Dokument öffnen
So öffnen Sie den Editor für eine vorhandene Datenaufbereitung:
- Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
BigQuery aufrufen - Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts und dann auf Datenaufbereitung.
- Wählen Sie die vorhandene Datenaufbereitung aus. Die Diagrammansicht der Datenvorbereitungspipeline wird angezeigt.
- Wählen Sie einen der Knoten im Diagramm aus. Der Editor zur Datenvorbereitung für die Tabelle wird geöffnet. Auf dem Tab Daten sehen Sie eine Vorschau Ihrer Daten und eine erste Reihe von Vorschlägen zur Datenvorbereitung von Gemini.
- Optional: Wenn Sie die Ansicht vereinfachen möchten, aktivieren Sie den Vollbildmodus, indem Sie auf Vollbild Vollbild klicken.
Datenvorbereitungsschritte hinzufügen
Sie bereiten Daten in Schritten vor. Sie können sich von Gemini vorgeschlagene Schritte in der Vorschau ansehen oder übernehmen. Sie können die Vorschläge auch verbessern oder eigene Schritte anwenden.
Vorschläge von Gemini anwenden und verbessern
Wenn Sie den Editor für die Datenvorbereitung für Ihre Tabelle öffnen, untersucht Gemini die Daten und das Schema der geladenen Tabelle und generiert Vorschläge für Filter und Transformationen. Die Vorschläge werden auf Karten in der Liste Schritte angezeigt.
Das folgende Bild zeigt, wo Sie von Gemini vorgeschlagene Schritte anwenden und verbessern können:
So wenden Sie einen Vorschlag von Gemini als Schritt zur Datenaufbereitung an:
- Klicken Sie in der Datenansicht auf einen Spaltennamen oder eine bestimmte Zelle. Gemini generiert Vorschläge zum Filtern und Transformieren der Daten.
Optional: Sie können die Vorschläge verbessern, indem Sie die Werte von ein bis drei Zellen in der Tabelle bearbeiten, um zu zeigen, wie die Werte in einer Spalte aussehen sollen. Geben Sie beispielsweise ein Datum so ein, wie Sie alle Datumsangaben formatieren möchten. Gemini generiert auf Grundlage Ihrer Änderungen neue Vorschläge.
Das folgende Bild zeigt, wie Sie Werte bearbeiten können, um die von Gemini vorgeschlagenen Schritte zu verbessern:
Wählen Sie eine Vorschlagskarte aus.
- Optional: Wenn Sie sich eine Vorschau des Ergebnisses der Vorschlagskarte ansehen möchten, klicken Sie auf Vorschau.
- Optional: Wenn Sie die Vorschlagskarte in natürlicher Sprache bearbeiten möchten, klicken Sie auf Bearbeiten.
Klicken Sie auf Übernehmen.
Schritte mit natürlicher Sprache oder SQL-Ausdrücken hinzufügen
Wenn die vorhandenen Vorschläge nicht Ihren Anforderungen entsprechen, fügen Sie einen Schritt hinzu. Wählen Sie Spalten oder einen Schritttyp aus und beschreiben Sie dann in natürlicher Sprache, was Sie möchten.
Transformation hinzufügen
- Wählen Sie in der Daten- oder Schemaansicht die Option Transformieren aus. Sie können auch Spalten auswählen oder Beispiele hinzufügen, damit Gemini die Datentransformation besser nachvollziehen kann.
- Geben Sie im Feld Beschreibung einen Prompt ein, z. B.
Convert the state column to uppercase
. Klicken Sie auf Senden Senden.
Gemini generiert einen SQL-Ausdruck und eine neue Beschreibung basierend auf Ihrem Prompt.
Wählen Sie in der Liste Zielspalte einen Spaltennamen aus oder geben Sie einen ein.
Optional: Wenn Sie den SQL-Ausdruck aktualisieren möchten, überarbeiten Sie den Prompt und klicken Sie auf send Senden oder geben Sie manuell einen SQL-Ausdruck ein.
Optional: Klicken Sie auf Vorschau, um den Schritt zu überprüfen.
Klicken Sie auf Übernehmen.
JSON-Spalten vereinfachen
Sie können JSON-Daten aus einer Quelle während der Datenaufbereitung vereinfachen. Bei diesem Vorgang, der als „Vereinfachen“ bezeichnet wird, werden alle Schlüssel/Wert-Paare aus JSON-Spalten gleichzeitig extrahiert und in eigene Spalten in der Tabelle umgewandelt. Das ist hilfreich, wenn Sie komplexe JSON-Strukturen leichter analysieren oder mit anderen Daten kombinieren möchten.
Gemini for BigQuery schlägt Vorgänge vor, mit denen Felder nur aus der obersten Ebene des JSON extrahiert werden. Wenn diese extrahierten Felder weitere JSON-Objekte enthalten, können Sie sie in zusätzlichen Schritten reduzieren, um auf ihren Inhalt zuzugreifen.
- Wählen Sie in der Datenansicht für eine JSON-Quelltabelle eine Spalte oder Zellen aus.
- Klicken Sie auf Flatten, um Vorschläge zu generieren.
- Optional: Wenn Sie den SQL-Ausdruck aktualisieren möchten, können Sie manuell einen SQL-Ausdruck eingeben.
- Optional: Klicken Sie auf Vorschau, um den Schritt zu überprüfen.
- Klicken Sie auf Übernehmen.
Das Zusammenführen von Daten hat folgende Auswirkungen:
- Die Option Flatten wird in der Datenansicht angezeigt, nachdem Sie Zellen oder Spalten mit JSON-Daten ausgewählt haben. Sie wird nicht standardmäßig angezeigt, wenn Sie auf Schritt hinzufügen klicken.
- Wenn ein JSON-Schlüssel in den ausgewählten Zeilen nicht vorhanden ist, enthält der generierte Vorschlag diesen Schlüssel nicht. Dieses Problem kann dazu führen, dass beim Reduzieren der Daten einige Spalten ausgelassen werden.
- Wenn Spaltennamen beim Reduzieren in Konflikt geraten, enden die wiederholten Spaltennamen in diesem Format:
_<i>
. Wenn es beispielsweise bereits eine Spalte mit dem Namenaddress
gibt, lautet der Name der neuen zusammengeführten Spalteaddress_1
. - Für die Namen der zusammengeführten Spalten gelten die BigQuery-Namenskonventionen für Spalten.
- Wenn Sie das Feld für den JSON-Schlüssel leer lassen, ist das Standardformat für Spaltennamen
f<i>_
.
Zeilen filtern
So fügen Sie einen Filter hinzu, mit dem Zeilen entfernt werden:
- Wählen Sie in der Daten- oder Schemaansicht die Option Filter aus. Sie können auch Spalten auswählen, damit Gemini Ihren Datenfilter besser versteht.
- Geben Sie im Feld Beschreibung einen Prompt ein, z. B.
Column ID should not be NULL
. - Klicken Sie auf Erstellen. Gemini generiert einen SQL-Ausdruck und eine neue Beschreibung basierend auf Ihrem Prompt.
- Optional: Wenn Sie den SQL-Ausdruck aktualisieren möchten, überarbeiten Sie den Prompt und klicken Sie auf send Senden oder geben Sie einen SQL-Ausdruck manuell ein.
- Optional: Klicken Sie auf Vorschau, um den Schritt zu überprüfen.
- Klicken Sie auf Übernehmen.
Format des Filterausdrucks
Mit SQL-Ausdrücken für Filter werden Zeilen beibehalten, die der angegebenen Bedingung entsprechen. Dies entspricht einer SELECT … WHERE SQL_EXPRESSION
-Anweisung.
Wenn Sie beispielsweise Datensätze beibehalten möchten, in denen der Wert in der Spalte year
größer oder gleich 2000
ist, lautet die Bedingung year >= 2000
.
Ausdrücke müssen der BigQuery-SQL-Syntax für die WHERE
-Klausel entsprechen.
Fehlertabelle konfigurieren und Validierungsregel hinzufügen
Sie können einen Filter hinzufügen, mit dem eine Validierungsregel erstellt wird, die Fehler an eine Fehlertabelle sendet oder die Ausführung der Datenvorbereitung fehlschlagen lässt.
Fehlertabelle konfigurieren
So konfigurieren Sie Ihre Fehlertabelle:
- Klicken Sie im Editor für die Datenaufbereitung in der Symbolleiste auf Mehr> Fehlertabelle.
- Klicken Sie auf Fehlertabelle aktivieren.
- Definieren Sie den Speicherort der Tabelle.
- Optional: Legen Sie eine maximale Dauer für das Beibehalten von Fehlern fest.
- Klicken Sie auf Speichern.
Validierungsregel hinzufügen
So fügen Sie eine Validierungsregel hinzu:
- Klicken Sie in der Daten- oder Schemaansicht auf die Option Filter. Sie können auch Spalten auswählen, damit Gemini Ihren Datenfilter besser versteht.
- Geben Sie eine Beschreibung für den Schritt ein.
- Geben Sie einen SQL-Ausdruck in Form einer
WHERE
-Klausel ein. - Optional: Wenn der SQL-Ausdruck als Validierungsregel dienen soll, klicken Sie das Kästchen Zeilen mit fehlgeschlagener Validierung werden an die Fehlertabelle gesendet an. Sie können einen Filter auch in der Symbolleiste für die Datenaufbereitung in eine Validierung ändern, indem Sie auf das Dreipunkt-Menü> Fehlertabelle klicken.
- Optional: Klicken Sie auf Vorschau, um den Schritt zu überprüfen.
- Klicken Sie auf Übernehmen.
Spalte löschen
So löschen Sie eine oder mehrere Spalten aus einer Datenaufbereitung:
- Wählen Sie in der Daten- oder Schemadarstellung die Spalten aus, die Sie entfernen möchten.
- Klicken Sie auf Ablegen. Für die gelöschten Spalten wird ein neuer angewendeter Schritt hinzugefügt.
Join-Vorgang mit Gemini hinzufügen
So fügen Sie einen Join-Vorgang zwischen zwei Quellen in der Datenaufbereitung hinzu:
- Rufen Sie in der Datenansicht für einen Knoten in der Datenaufbereitung die Liste Vorschläge auf und klicken Sie auf die Option Zusammenführen.
- Klicken Sie im Dialogfeld Join hinzufügen auf Durchsuchen und wählen Sie dann die andere Tabelle aus, die am Join-Vorgang beteiligt ist (als rechte Seite des Joins bezeichnet).
- Optional: Wählen Sie den Typ des Join-Vorgangs aus, den Sie ausführen möchten, z. B. Inner Join.
Sehen Sie sich die von Gemini generierten Informationen zum Join-Schlüssel in den folgenden Feldern an:
- Join description (Join-Beschreibung): Die Beschreibung des SQL-Ausdrucks für den Join-Vorgang in natürlicher Sprache. Wenn Sie diese Beschreibung bearbeiten und auf Senden Senden klicken, schlägt Gemini neue SQL-Join-Bedingungen vor.
Join-Bedingungen: Die SQL-Ausdrücke in der
ON
-Klausel für den Join-Vorgang. Mit den QualifizierernL
undR
können Sie auf die linke bzw. rechte Quelltabelle verweisen. Wenn Sie beispielsweise die Spaltecustomer_id
aus der linken Tabelle mit der Spaltecustomer_id
aus der rechten Tabelle zusammenführen möchten, geben SieL.customerId = R.customerId
ein. Bei diesen Qualifizierern wird nicht zwischen Groß- und Kleinschreibung unterschieden.
Optional: Wenn Sie die Vorschläge von Gemini optimieren möchten, bearbeiten Sie das Feld Beschreibung für die Teilnahme und klicken Sie dann auf Senden Senden.
Optional: Wenn Sie sich eine Vorschau der Einstellungen für den Join-Vorgang Ihrer Datenaufbereitung ansehen möchten, klicken Sie auf Vorschau.
Klicken Sie auf Übernehmen.
Der Schritt für die Join-Operation wird erstellt. Die von Ihnen ausgewählte Quelltabelle (die rechte Seite des Joins) und der Join-Vorgang werden in der Liste der angewendeten Schritte und in den Knoten in der Grafiksicht der Datenaufbereitung angezeigt.
Zieltabellen hinzufügen oder ändern
So fügen Sie eine Zieltabellen für die Ausgabe der Datenaufbereitung hinzu oder ändern sie:
- Wählen Sie in der Daten- oder Schemaansicht die Option Ziel aus.
- Wählen Sie das Projekt aus, in dem die Zieltabelle gespeichert ist.
- Wählen Sie eines der Datasets aus oder laden Sie ein neues Dataset.
- Geben Sie eine Zieltabelle ein. Wenn die Tabelle nicht vorhanden ist, wird bei der ersten Ausführung der Datenvorbereitung eine neue Tabelle erstellt. Weitere Informationen finden Sie unter Schreibmodus.
- Wählen Sie Ihr Dataset als Zieldataset aus.
- Klicken Sie auf Speichern.
Datenbeispiel und Schema für einen angewendeten Schritt ansehen
So rufen Sie Beispiel- und Schemadetails in einem bestimmten Schritt der Datenaufbereitung auf:
- Rufen Sie im Editor für die Datenaufbereitung die Liste Schritte auf und klicken Sie auf Angewendete Schritte.
- Wählen Sie einen Schritt aus. Die Tabs Daten und Schema werden angezeigt. Sie enthalten die Datenstichprobe und das Schema für diesen Schritt.
Angewendeten Schritt bearbeiten
So bearbeiten Sie einen angewendeten Schritt:
- Rufen Sie im Editor für die Datenaufbereitung die Liste Schritte auf und klicken Sie auf Angewendete Schritte.
- Wählen Sie einen Schritt aus.
- Klicken Sie neben dem Schritt auf das more_vert > „Bearbeiten“.
- Im Dialogfeld Angewendeten Schritt bearbeiten haben Sie folgende Möglichkeiten:
- Bearbeiten Sie die Beschreibung des Schritts.
- Sie können sich Vorschläge von Gemini anzeigen lassen, indem Sie die Beschreibung bearbeiten und auf Senden Senden klicken.
- Bearbeiten Sie den SQL-Ausdruck.
- Wählen Sie im Feld Zielspalte eine Spalte aus.
- Optional: Klicken Sie auf Vorschau, um den Schritt zu überprüfen.
- Klicken Sie auf Übernehmen.
Angewendeten Schritt löschen
So löschen Sie einen angewendeten Schritt:
- Rufen Sie im Editor für die Datenaufbereitung die Liste Schritte auf und klicken Sie auf Angewendete Schritte.
- Wählen Sie einen Schritt aus.
- Klicken Sie auf das more_vert > Löschen.
Datenvorbereitung ausführen
Nachdem Sie die Datenvorbereitungsschritte hinzugefügt, das Ziel konfiguriert und alle Validierungsfehler behoben haben, können Sie Testläufe für eine Stichprobe der Daten ausführen oder die Schritte bereitstellen und Datenvorbereitungsläufe planen. Weitere Informationen finden Sie unter Datenvorbereitung planen.
Beispiele für die Datenvorbereitung aktualisieren
Die Daten in der Stichprobe werden nicht automatisch aktualisiert. Wenn sich die Daten in den Quelltabellen für die Datenaufbereitung geändert haben, die Änderungen aber nicht in der Datenstichprobe der Aufbereitung widergespiegelt werden, klicken Sie auf Mehr > Stichprobe aktualisieren.
Nächste Schritte
- Datenvorbereitung planen
- Weitere Informationen zum Verwalten von Datenaufbereitungen
- Kontingente und Limits für Gemini in BigQuery
- Preise für Gemini in BigQuery