In diesem Dokument wird das Konzept von Dataform-Repositories erläutert und beschrieben, wie Sie ein neues Repository erstellen.
Dataform-Repositories
Jedes Dataform-Repository enthält eine Sammlung von SQLX- und JavaScript-Dateien, aus denen Ihr Workflow besteht, sowie Dataform-Konfigurationsdateien und -Pakete. Sie interagieren mit den Inhalten Ihres Repositorys in einem Entwicklungsarbeitsbereich.
In Dataform werden Ihre Repositories auf der Dataform-Seite in alphabetischer Reihenfolge der Repository-IDs angezeigt. Sie können sie sortieren und filtern.
Rufen Sie in der Google Cloud Console die Seite Dataform auf, um Ihre Repositories anzusehen.
Jedes Dataform-Repository ist mit einem Dienstkonto verbunden. Sie können ein Dienstkonto auswählen, wenn Sie ein Repository erstellen oder das Dienstkonto später bearbeiten.
Standardmäßig verwendet Dataform ein Dienstkonto, das von Ihrer Projektnummer abgeleitet ist und das folgende Format hat:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform verwendet Git, um Änderungen aufzuzeichnen und Dateiversionen zu verwalten. Jedes Dataform-Repository entspricht einem Git-Repository. Nachdem Sie ein Dataform-Repository erstellt haben, können Sie es mit einem Remote-Repository auf GitHub, GitLab oder Bitbucket verbinden.
In einem Dataform-Repository wird der Repository-Code gespeichert. In einem verbundenen Repository wird der Repository-Code im Drittanbieter-Repository gespeichert. Dataform interagiert mit dem Drittanbieter-Repository, damit Sie dessen Inhalt in einem Dataform-Entwicklungsarbeitsbereich bearbeiten und ausführen können.
Eine Dataform-Repository-Seite besteht aus den folgenden Komponenten:
- Tab „Entwicklungsarbeitsbereiche“
- Zeigt die im Repository erstellten Entwicklungsarbeitsbereiche an.
- Tab „Releasekonfigurationen“
- Ermöglicht das Prüfen, Erstellen, Bearbeiten und Löschen von Releases.
- Tab „Workflow-Ausführungsprotokolle“
- Zeigt Ausführungslogs für Dataform-Workflows an.
- Tab „Workflowkonfigurationen“
- Hier können Sie Workflowkonfigurationen ansehen, erstellen, bearbeiten und löschen.
- Tab „Einstellungen“
- Zeigt den Namen und den Speicherort des Repositorys an. Für ein Repository, das mit einem Drittanbieter-Git-Repository verbunden ist, werden die Drittanbieter-Repository-Quelle, der Name des Standardzweigs und das geheime Token angezeigt. Hier werden die Schaltflächen zum Verbinden des Repositorys mit einem Git-Repository eines Drittanbieters und zum Bearbeiten der Git-Verbindung angezeigt.
- Schaltfläche „Entwicklungsarbeitsbereich erstellen“
- Ermöglicht das Erstellen eines Entwicklungsarbeitsbereichs.
Nachdem Sie einen Entwicklungsarbeitsbereich erstellt und initialisiert haben, können Sie die Datei mit den Workflow-Einstellungen bearbeiten, um die folgenden Dataform-Einstellungen Ihres Repositorys zu konfigurieren:
- Die Standarddatenbank (Google Cloud Projekt-ID).
- Das Standardschema (BigQuery-Dataset-ID).
- Der Standard-BigQuery-Standort.
- Das Standardschema (BigQuery-Dataset-ID) für Behauptungen.
- Das Lager, das auf
bigquery
gesetzt sein muss. - Benutzerdefinierte Variablen, die dem Projektcode während der Kompilierung zur Verfügung gestellt werden.
Weitere Informationen zu Dataform-Repository-Einstellungen finden Sie unter IProjectConfig in der Dataform Core-Referenz.
Repository-Einstellungen
Wenn Sie ein Dataform-Repository erstellen, müssen Sie die folgenden Repository-Einstellungen festlegen:
- Repository-ID
- Eine eindeutige ID des Repositorys. IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
- Region
Dataform-Region zum Speichern des Repositorys und seiner Inhalte.
Diese Speicherregion kann sich von der Verarbeitungsregion unterscheiden, in der Dataform Ihren Code verarbeitet und die Ausgabe von Ausführungen speichert. Standardmäßig ist die Verarbeitungsregion auf Ihre Standardregion für BigQuery-Datasets festgelegt. Sie können die Verarbeitungsregion in der Datei mit den Workflow-Einstellungen bearbeiten, nachdem Sie das Repository erstellt haben. Weitere Informationen finden Sie unter Dataform-Workflow-Einstellungen konfigurieren.
- Dienstkonto
Das mit dem Repository verknüpfte Dienstkonto. Sie können das standardmäßige Dataform-Dienstkonto, ein mit IhremGoogle Cloud -Projekt verknüpftes Dienstkonto oder ein anderes Dienstkonto auswählen. Standardmäßig verwendet Dataform ein Dienstkonto, das von Ihrer Projektnummer abgeleitet ist und das folgende Format hat:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform verwendet das Standarddienstkonto für alle Repository-Vorgänge. Sie können ein anderes Dienstkonto verwenden, um Workflows in Ihrem Repository auszuführen. Das Standarddienstkonto wird jedoch weiterhin für alle anderen Repository-Vorgänge verwendet.
- Strenger Modus „Agieren als“ (Vorschau)
Ermöglicht eine zusätzliche Sicherheitsprüfung, für die die Berechtigung
iam.serviceAccounts.actAs
für das Dienstkonto erforderlich ist. Weitere Informationen finden Sie unter Strengen „Act-as“-Modus verwenden.- Verschlüsselung
Verschlüsselungsmethode für das Repository. Sie können die Standardverschlüsselung, einen eindeutigen vom Kunden verwalteten Cloud KMS-Verschlüsselungsschlüssel oder einen standardmäßigen Dataform-CMEK-Schlüssel verwenden. Weitere Informationen zur Verwendung von vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEK) in Dataform finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.
Nachdem Sie ein Repository erstellt haben, können Sie es mit GitHub oder GitLab verbinden.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- Wenn Sie die CMEK-Verschlüsselung für das Repository verwenden möchten, aktivieren Sie die CMEK-Verschlüsselung von Dataform-Repositories. .
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf Repository erstellen.
Geben Sie auf der Seite Repository erstellen im Feld Repository-ID eine eindeutige ID ein.
IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
Wählen Sie in der Drop-down-Liste Region eine Dataform-Region zum Speichern des Repositorys und seiner Inhalte aus. Wählen Sie die Dataform-Region aus, die Ihrem Standort am nächsten ist.
Eine Liste der verfügbaren Dataform-Regionen finden Sie unter Standorte. Die Repository-Region muss nicht mit dem Standort Ihrer BigQuery-Datasets übereinstimmen.
In der Datei
workflow_settings.yaml
können Sie die Verarbeitungsregion festlegen, in der Dataform Ihren Code verarbeitet und die Ausgabe von Ausführungen speichert. Die Verarbeitungsregion muss mit dem Standort Ihrer BigQuery-Datasets übereinstimmen, aber nicht mit der Repository-Region. Weitere Informationen finden Sie unter Dataform-Workflow-Einstellungen konfigurieren.Wählen Sie im Menü Dienstkonto ein Dienstkonto für das Repository aus.
Im Menü können Sie das Standarddienstkonto für Dataform oder ein beliebiges Dienstkonto auswählen, das mit Ihrem Google Cloud -Projekt verknüpft ist und auf das Sie Zugriff haben. Benutzerdefinierte Dienstkonten werden nur für die Workflowausführung verwendet. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.
- Optional: Wenn Sie ein Dienstkonto auswählen möchten, das nicht im Menü angezeigt wird, klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
Optional: Wählen Sie Berechtigungsprüfung für „actAs“ erzwingen aus, um zusätzliche Sicherheitsprüfungen für bestimmte Nutzeraktionen im Repository zu aktivieren. Weitere Informationen zu diesen Prüfungen finden Sie unter Strengen „Act-as“-Modus verwenden.
Konfigurieren Sie den ausgewählten Verschlüsselungsmechanismus für das Repository:
.CMEK-Standardschlüssel
In Dataform wird das Kästchen KMS-Standardschlüssel verwenden angezeigt und standardmäßig ausgewählt.
- Wenn Sie das Repository mit dem Dataform-CMEK-Standardschlüssel verschlüsseln möchten, lassen Sie das Kästchen KMS-Standardschlüssel verwenden aktiviert.
Eindeutiger CMEK-Schlüssel
So verschlüsseln Sie das Repository mit einem eindeutigen CMEK-Schlüssel:
- Wenn das Kästchen KMS-Standardschlüssel verwenden standardmäßig aktiviert ist, deaktivieren Sie es.
- Wählen Sie im Abschnitt Verschlüsselung die Option Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) aus.
- Wählen Sie im Drop-down-Menü Vom Kunden verwalteten Schlüssel auswählen einen eindeutigen CMEK-Schlüssel aus.
Verschlüsselung inaktiver Daten
- Wenn Sie die Standardverschlüsselung verwenden möchten, wählen Sie im Abschnitt Verschlüsselung die Option Google-managed encryption key aus.
Klicken Sie auf Erstellen und dann auf Fertig.
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Wählen Sie ein Repository aus und klicken Sie auf Einstellungen.
Klicken Sie neben dem Feld Dienstkonto auf
Dienstkonto bearbeiten.Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.
Im Drop-down-Menü können Sie das Standarddienstkonto für Dataform oder ein beliebiges Dienstkonto auswählen, das mit Ihrem Google Cloud Projekt verknüpft ist und auf das Sie Zugriff haben.
- Optional: Wenn Sie ein Dienstkonto auswählen möchten, das nicht in der Drop-down-Liste angezeigt wird, klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
Klicken Sie auf Speichern.
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie neben dem Repository, das Sie löschen möchten, auf das Menü
Mehr und wählen Sie Löschen aus.Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.
Klicken Sie auf Löschen.
- Informationen zum Verbinden eines Dataform-Repositorys mit einem Git-Repository eines Drittanbieters finden Sie unter Verbindung zu einem Git-Repository eines Drittanbieters herstellen.
- Weitere Informationen dazu, wie sich die Repository-Größe auf die Entwicklung in Dataform auswirkt, finden Sie unter Übersicht über die Repository-Größe.
- Weitere Informationen zum Aufteilen eines Repositorys in Dataform finden Sie unter Einführung in das Aufteilen von Repositorys.
- Informationen zum Konfigurieren der Dataform-Verarbeitungseinstellungen finden Sie unter Dataform-Workflow-Einstellungen konfigurieren.
- Informationen zum Erstellen und Initialisieren eines Arbeitsbereichs finden Sie unter Arbeitsbereich erstellen.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Admin (roles/dataform.admin
) für Repositories zuzuweisen, damit Sie die Berechtigungen erhalten, die Sie zum Erstellen und Löschen eines Repositorys benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie ein anderes Dienstkonto als das Dataform-Standarddienstkonto verwenden möchten, gewähren Sie Zugriff auf das benutzerdefinierte Dienstkonto.
Weitere Informationen zu den Rollen, die zum Ausführen von Workflows in BigQuery erforderlich sind, finden Sie unter Erforderliche Rollen für Dataform-Dienstkonten.
Nachdem Sie ein Dataform-Repository erstellt haben, wird Ihnen automatisch die Rolle „Dataform-Administrator“ für dieses Repository zugewiesen.
Repository erstellen
So erstellen Sie ein Dataform-Repository:
Dienstkonto bearbeiten
Sie können einem Dataform-Repository ein benutzerdefiniertes Dienstkonto für die Workflowausführung zuweisen. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.
So bearbeiten Sie das Dienstkonto für ein Dataform-Repository:
Ein Repository löschen
So löschen Sie ein Repository und seinen Inhalt: