Dieses Dokument enthält Anleitungen für folgende Aufgaben:
- SQL-Anweisung definieren, die vor dem Erstellen der Tabelle ausgeführt werden soll:
- SQL-Anweisung definieren, die nach der Tabellenerstellung ausgeführt werden soll
- Tabellenerstellung deaktivieren
- Ausführungstags hinzufügen
Hinweise
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Wählen Sie ein Repository aus oder erstellen Sie eines.
Wählen Sie einen Entwicklungsarbeitsbereich aus oder erstellen Sie einen.
Definieren Sie eine SQLX-Datei eines der folgenden Typen:
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Editor (roles/dataform.editor
) für Arbeitsbereiche zuzuweisen, damit Sie die Berechtigungen erhalten, die Sie zum Ausführen der Aufgaben in diesem Dokument benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
SQL-Anweisung definieren, die vor dem Erstellen der Tabelle ausgeführt werden soll
Sie können Dataform so konfigurieren, dass ein oder mehrere SQL-Anweisungen ausgeführt werden, bevor eine ausgewählte Tabelle in BigQuery erstellt wird. Wenn Sie eine SQL-Anweisung ausführen möchten, bevor Dataform eine ausgewählte Tabelle erstellt, fügen Sie die Anweisung dem pre_operations
-Block in der SQLX-Datei für die Tabellendefinition hinzu.
So erstellen Sie eine benutzerdefinierte SQL-Anweisung, die ausgeführt wird, bevor Dataform eine bestimmte Tabelle erstellt:
- Rufen Sie Ihren Entwicklungsarbeitsbereich auf.
- Maximieren Sie im Bereich Dateien die Option
definitions/
. - Öffnen Sie eine SQLX-Tabellendefinitionsdatei.
- Geben Sie außerhalb des Blocks
config
den Wertpre_operations { ... }
ein. - Fügen Sie Ihre SQL-Anweisung in
pre_operations { ... }
ein. - Optional: Wenn Sie mehrere Anweisungen hinzufügen möchten, trennen Sie sie mit
---
. - Optional: Klicken Sie auf Formatieren.
Das folgende Codebeispiel zeigt eine pre_operations
-Anweisung, mit der eine temporäre Funktion erstellt wird, die in der SELECT-Anweisung verwendet werden kann:
pre_operations {
CREATE TEMP FUNCTION AddFourAndDivide(x INT64, y INT64)
RETURNS FLOAT64
AS ((x + 4) / y);
}
SQL-Anweisung definieren, die nach der Tabellenerstellung ausgeführt werden soll
Sie können Dataform so konfigurieren, dass nach dem Erstellen einer ausgewählten Tabelle in BigQuery ein oder mehrere SQL-Anweisungen ausgeführt werden. Wenn Sie eine SQL-Anweisung ausführen möchten, nachdem Dataform eine ausgewählte Tabelle erstellt hat, fügen Sie die Anweisung dem post_operations
-Block in der SQLX-Datei für die Tabellendefinition hinzu. Sie können dem post_operations
-Block mehrere SQL-Anweisungen hinzufügen.
So erstellen Sie eine benutzerdefinierte SQL-Anweisung, die ausgeführt wird, nachdem Dataform eine bestimmte Tabelle erstellt hat:
- Rufen Sie Ihren Entwicklungsarbeitsbereich auf.
- Maximieren Sie im Bereich Dateien die Option
definitions/
. - Öffnen Sie eine SQLX-Tabellendefinitionsdatei.
- Geben Sie außerhalb des Blocks
config
den Wertpost_operations { ... }
ein. - Fügen Sie Ihre SQL-Anweisung in
post_operations { ... }
ein. - Optional: Klicken Sie auf Formatieren.
Das folgende Codebeispiel zeigt post_operations
-Anweisungen, mit denen Gruppen Zugriff auf die erstellte Tabelle gewährt wird:
post_operations {
GRANT `roles/bigquery.dataViewer`
ON
TABLE ${self()}
TO "group:allusers@example.com", "user:otheruser@example.com"
}
Tabellenerstellung deaktivieren
Wenn Sie verhindern möchten, dass Dataform eine ausgewählte Tabelle in BigQuery erstellt, können Sie die Tabelle in der entsprechenden SQLX-Datei für die Tabellendefinition deaktivieren. In Dataform wird eine deaktivierte Tabelle im Abhängigkeitsdiagramm beibehalten, sie wird jedoch nicht kompiliert und erstellt. Das kann beispielsweise nützlich sein, wenn eine Tabelle fehlschlägt und Sie nicht möchten, dass Ihr gesamter Workflow fehlschlägt, während Sie das Problem beheben.
So deaktivieren Sie eine Tabelle:
- Rufen Sie Ihren Entwicklungsarbeitsbereich auf.
- Maximieren Sie im Bereich Dateien die Option
definitions/
. - Wählen Sie eine SQLX-Tabellendefinitionsdatei aus.
- Geben Sie im
config
-Block der Dateidisabled: true
ein. - Optional: Klicken Sie auf Formatieren.
Das folgende Codebeispiel zeigt eine deaktivierte Tabelle:
config {
type: "table",
disabled: true
}
select * from ${ref("source_data")}
Ausführungs-Tags hinzufügen
In diesem Abschnitt wird gezeigt, wie Sie Dataform Core-SQLX-Dateien Tags hinzufügen, um Ihren Workflow zu kategorisieren.
Wenn Sie die Komponenten Ihres Workflows in Sammlungen organisieren möchten, können Sie den SQLX-Dateien der folgenden Typen benutzerdefinierte Tags hinzufügen:
table
view
incremental
assertion
operations
Während der Ausführung eines Workflows können Sie nur Dateien mit einem ausgewählten Tag ausführen.
Mit Cloud Composer oder Workflows in Kombination mit Cloud Scheduler können Sie einen Zeitplan erstellen, mit dem ein Dataform-Workflow mit einem ausgewählten Tag in einem bestimmten Intervall ausgeführt wird.
Tag hinzufügen
Sie können einer SQLX-Datei mehrere Tags hinzufügen.
So fügen Sie einer SQLX-Datei ein Tag hinzu:
- Rufen Sie Ihren Entwicklungsarbeitsbereich auf.
- Maximieren Sie im Bereich Dateien die Option
definitions/
. - Wählen Sie eine SQLX-Datei aus.
Fügen Sie im Block
config
ein Tag im folgenden Format hinzu:tags: ["CUSTOM_TAG"]
Ersetzen Sie
CUSTOM_TAG
durch Ihr Tag.Optional: Wenn Sie mehrere Tags hinzufügen möchten, trennen Sie sie durch ein Komma (
,
).Optional: Klicken Sie auf Formatieren.
Das folgende Codebeispiel zeigt die Ansicht user_counts
mit den Tags daily
und hourly
:
config {
type: "view",
name: "user_counts",
tags: ["daily", "hourly"]
}
Nächste Schritte
- Informationen zum Konfigurieren von Dataform-Einstellungen in
workflow_settings.yaml
finden Sie unter Dataform-Workflow-Einstellungen konfigurieren. - Informationen zum Testen von Tabellendaten mit Zusicherungen finden Sie unter Datenqualität testen.
- Informationen zum Wiederverwenden von Code mit Includes finden Sie unter Code in einem einzelnen Repository mit Includes wiederverwenden.
- Informationen zum manuellen Auslösen von Ausführungen finden Sie unter Ausführungen manuell auslösen.
- Informationen zum Hinzufügen von BigQuery-Richtlinien-Tags in Dataform finden Sie unter Spaltenzugriff steuern.