Workflow in Dataform erstellen und ausführen
In dieser Kurzanleitung wird beschrieben, wie Sie in Dataform einen Workflow erstellen und in BigQuery ausführen:
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Repositories, Arbeitsbereiche und Workflow-Aufrufe erstellen und verwalten:
Dataform Admin (
roles/dataform.admin
) -
Workflows in BigQuery ausführen:
-
BigQuery Data Editor (
roles/bigquery.dataEditor
) -
BigQuery-Jobnutzer (
roles/bigquery.jobUser
)
-
BigQuery Data Editor (
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, in dem sich Ihr Dataform-Repository befindet, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Ausführen eines Workflows in Dataform benötigen:
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Dataform-Repository erstellen
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
Repository erstellen.Führen Sie auf der Seite Repository erstellen die folgenden Schritte aus:
Geben Sie im Feld Repository-ID den Wert
quickstart-repository
ein.Wählen Sie in der Liste Region
europe-west4
aus.Klicken Sie auf Erstellen.
Entwicklungsarbeitsbereich für Dataform erstellen und initialisieren
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
quickstart-repository
.Klicken Sie auf
Entwicklungsarbeitsbereich erstellen.Führen Sie im Fenster Entwicklungsarbeitsbereich erstellen die folgenden Schritte aus:
Geben Sie im Feld Workspace-ID den Wert
quickstart-workspace
ein.Klicken Sie auf Erstellen.
Die Seite „Entwicklerarbeitsbereich“ wird angezeigt.
Klicken Sie auf Arbeitsbereich initialisieren.
Ansicht erstellen
In den folgenden Abschnitten definieren Sie eine Ansicht, die Sie später als Datenquelle für eine Tabelle verwenden.
SQLX-Datei zur Definition einer Ansicht erstellen
Klicken Sie im Bereich Dateien neben
definitions/
auf das Menü Mehr.Klicken Sie auf Datei erstellen.
Führen Sie im Bereich Neue Datei erstellen die folgenden Schritte aus:
Geben Sie im Feld Dateipfad hinzufügen
definitions/quickstart-source.sqlx
ein.Klicken Sie auf Datei erstellen.
Ansicht definieren
Maximieren Sie im Bereich Dateien den Ordner „Definitionen“.
Klicken Sie auf
definitions/quickstart-source.sqlx
.Geben Sie in die Datei das folgende Code-Snippet ein:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Klicken Sie auf Format.
Tabelle erstellen
In den folgenden Abschnitten definieren Sie den Tabellentyp in einer SQLX-Datei und schreiben dann eine SELECT
-Anweisung, um die Tabellenstruktur in dieser Datei zu definieren.
SQLX-Datei für Tabellendefinition erstellen
Klicken Sie im Bereich Dateien neben
definitions/
auf das Menü Mehr und wählen Sie dann Datei erstellen aus.Geben Sie im Feld Dateipfad hinzufügen
definitions/quickstart-table.sqlx
ein.Klicken Sie auf Datei erstellen.
Tabellentyp, ‑struktur und ‑abhängigkeiten definieren
Maximieren Sie im Bereich Dateien das Verzeichnis
definitions/
.Wählen Sie
quickstart-table.sqlx
aus und geben Sie dann den folgenden Tabellentyp und dieSELECT
-Anweisung ein:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Klicken Sie auf Format.
Nach der Definition des Tabellentyps löst Dataform einen Abfragevalidierungsfehler aus, da quickstart-source
noch nicht in BigQuery vorhanden ist. Dieser Fehler wird behoben, wenn Sie den Workflow später in dieser Anleitung ausführen.
Workflow in BigQuery ausführen
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf der Seite
quickstart-workspace
auf Ausführung starten.Klicken Sie auf Alle Aktionen.
Klicken Sie auf Ausführung starten.
Klicken Sie im geöffneten Dialogfeld auf Zulassen, um BigQuery Pipelines Zugriff auf Ihr Google-Konto zu gewähren.
Dataform verwendet die Standard-Repository-Einstellungen, um den Inhalt Ihres Workflows in einem BigQuery-Dataset mit dem Namen
dataform
zu erstellen.
Ausführungslogs in Dataform aufrufen
Klicken Sie auf der Seite
quickstart-repository
auf Workflow-Ausführungslogs.Klicken Sie auf die letzte Ausführung, um deren Details aufzurufen.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:
In BigQuery erstelltes Dataset löschen
Löschen Sie das Dataset dataform
, um zu vermeiden, dass für BigQuery-Assets Gebühren in Rechnung gestellt werden.
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und wählen Sie
dataform
aus.Klicken Sie auf das Menü
Aktionen und wählen Sie Löschen aus.Geben Sie im Dialogfeld Dataset löschen den Wert
delete
in das Feld ein und klicken Sie auf Löschen.
Entwicklungsarbeitsbereich für Dataform löschen
Für das Erstellen von Entwicklungsarbeitsbereichen für Dataform fallen keine Kosten an. So löschen Sie einen Entwicklungsarbeitsbereich:
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
quickstart-repository
.Klicken Sie auf dem Tab Entwicklungsarbeitsbereiche auf das Menü
Mehrquickstart-workspace
und wählen Sie dann Löschen aus.Klicken Sie zur Bestätigung auf Löschen.
Dataform-Repository löschen
Für das Erstellen von Dataform-Repositories fallen keine Kosten an. So löschen Sie ein Repository:
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie neben
quickstart-repository
auf das Menü Mehr und wählen Sie Löschen aus.Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.
Klicken Sie zur Bestätigung auf Löschen.
Nächste Schritte
Weitere Informationen zu Dataform finden Sie in der Dataform-Übersicht.
Weitere Informationen zu Dataform-Funktionen finden Sie unter Dataform-Funktionen.
Weitere Informationen zu Dataform Core finden Sie unter Übersicht über Dataform Core.
Informationen zum Überschreiben der Standardeinstellungen für Dataform in Ihrem Repository finden Sie unter Dataform-Workflow-Einstellungen konfigurieren.
Weitere Informationen zum Verwalten von Datasets in BigQuery finden Sie unter Datasets verwalten.
Weitere Informationen zum Verwalten von Tabellen in BigQuery finden Sie unter Tabellen verwalten.