Datenvorbereitungen planen
In diesem Dokument wird beschrieben, wie Sie Pipelines zur Datenvorbereitung planen und manuelle Ausführungen durchführen.
Datenvorbereitungen basieren auf Dataform. Jeder Zeitplan für die Datenvorbereitung wird mit den Anmeldedaten Ihres Google-Kontos oder einem Dataform-Dienstkonto ausgeführt, das Sie beim Konfigurieren des Zeitplans oder Testlaufs auswählen.
Änderungen, die Sie an den Schritten zur Datenaufbereitung vornehmen, werden nicht automatisch gespeichert. Sie müssen die Änderungen speichern und bereitstellen, bevor sie mit einem Zeitplan ausgeführt werden können. Zeitpläne führen immer die zuletzt bereitgestellte Version der Datenvorbereitung aus. Nicht bereitgestellte Änderungen, die Sie möglicherweise entwickeln, werden nicht berücksichtigt.
Hinweise
Erstellen Sie zuerst eine Datenaufbereitung.
Erforderliche Rollen
Wenn Sie eine Datenvorbereitung mit einem Dienstkonto autorisieren möchten, wenn Sie die Datenvorbereitung manuell in der Entwicklung ausführen oder die Datenvorbereitung planen, müssen Sie dem Dienstkonto, das Sie für die Ausführung der Datenvorbereitungsläufe verwenden möchten, die Rollen zuweisen. Weitere Informationen finden Sie unter Zugriff auf das Dataform-Dienstkonto gewähren.
Datenvorbereitung entwickeln
Während Sie eine Datenaufbereitung entwickeln, können Sie die Schritte manuell ausführen und die Ausgabe prüfen, bevor Sie die Änderungen in der Produktionsumgebung bereitstellen. Sie können die aktuelle Version, die Sie entwickeln, mit Ihren Daten testen, während in BigQuery weiterhin die zuletzt bereitgestellte Version gemäß einem Zeitplan ausgeführt wird. Bevor Sie den Lauf ausführen können, müssen Sie das Ziel konfigurieren und alle Validierungsfehler beheben.
Datenvorbereitung in der Entwicklung manuell ausführen
Wenn Sie Ihre Datenvorbereitungsschritte testen und die Ergebnisse in der Zieltabelle validieren möchten, führen Sie die Datenvorbereitung manuell über den Datenvorbereitungseditor aus:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Data preparations (Datenaufbereitungen). Klicken Sie auf den Namen der Datenaufbereitung, die Sie ausführen möchten.
Klicken Sie in der Symbolleiste des Datenvorbereitungseditors auf Mehr > Ablauf von „Jetzt ausführen“ konfigurieren.
Autorisieren Sie im Abschnitt Authentifizierung die Datenaufbereitung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.
- Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus. Dies ist die Standardoption.
- Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus. Wenn das Dienstkonto zusätzliche Berechtigungen benötigt, weisen Sie ihm die erforderlichen Rollen zu, indem Sie auf Alle gewähren klicken.
Klicken Sie auf Speichern.
Beheben Sie alle Validierungsfehler, die angezeigt werden.
Klicken Sie in der Symbolleiste des Editors für die Datenaufbereitung auf Ausführen.
Klicken Sie im Dialogfeld Jetzt ausführen auf Bestätigen, um zu bestätigen, dass bei dieser manuellen Ausführung Daten in eine Zieltabelle geschrieben werden, die Sie möglicherweise auch für geplante Ausführungen verwenden.
Wenn Sie Mit meinen Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).
Bei der Ausführung werden die Schritte ausgeführt und die Ausgabe wird in das Ziel geladen.
Optional: Nach Abschluss des Laufs können Sie sich die Details zur Ausführung im Bereich Ausführungen ansehen.
Datenvorbereitung bereitstellen
Wenn Sie Ausführungen für eine Version Ihrer Datenvorbereitung planen möchten, müssen Sie sie zuerst bereitstellen. Zeitpläne führen die zuletzt bereitgestellte Version aus.
So stellen Sie eine Datenaufbereitung bereit:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Data preparations (Datenaufbereitungen). Klicken Sie auf den Namen der ausgewählten Datenaufbereitung.
Der Editor für die Datenvorbereitung wird geöffnet.
Klicken Sie in der Symbolleiste des Editors für die Datenaufbereitung auf Bereitstellen.
Zeitplan erstellen
Wenn Sie einen Zeitplan erstellen möchten, mit dem die bereitgestellten Datenvorbereitungsschritte ausgeführt und die vorbereiteten Daten in die Zieltabelle geladen werden, müssen Sie zuerst einen Datenvorbereitungslauf planen. Damit Sie den Lauf planen können, müssen Sie das Ziel konfigurieren und alle Validierungsfehler beheben.
So erstellen Sie einen Zeitplan für die Datenaufbereitung:
Bereich Explorer
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Data preparations (Datenaufbereitungen). Klicken Sie auf den Namen der Datenaufbereitung, die Sie planen möchten.
Klicken Sie in der Symbolleiste des Editors für die Datenaufbereitung auf Zeitplan.
Geben Sie einen Namen für den Zeitplan ein.
Autorisieren Sie im Bereich Authentifizierung die Datenaufbereitung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.
- Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus.
- Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus.
Legen Sie eine Häufigkeit fest.
Klicken Sie auf Zeitplan erstellen. Wenn Sie Mit meinen Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Scheduling auf.
Klicken Sie auf Erstellen und wählen Sie dann im Menü Zeitplan für die Datenaufbereitung aus.
Wählen Sie im Bereich Datenvorbereitung planen im Feld Datenvorbereitung die Datenvorbereitung aus, die Sie planen möchten.
Geben Sie im Feld Name des Zeitplans einen Namen für den Zeitplan ein.
Autorisieren Sie im Bereich Authentifizierung die Datenaufbereitung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.
- Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus.
- Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus.
Führen Sie im Abschnitt Planungshäufigkeit folgende Schritte aus:
- Wählen Sie im Menü Wiederholungen die Häufigkeit der Datenaufbereitungsläufe aus.
- Geben Sie im Feld Um die Uhrzeit für die geplanten Datenaufbereitungsläufe ein.
- Wählen Sie im Menü Zeitzone die Zeitzone für den Zeitplan aus.
Klicken Sie auf Zeitplan erstellen. Wenn Sie Mit meinen Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).
Google-Konto autorisieren
Wenn Sie die Ressource mit den Nutzeranmeldedaten Ihres Google-Kontos authentifizieren möchten, müssen Sie BigQuery-Pipelines manuell die Berechtigung erteilen, das Zugriffstoken für Ihr Google-Konto abzurufen und in Ihrem Namen auf die Quelldaten zuzugreifen. Sie können die manuelle Genehmigung über die OAuth-Dialogoberfläche erteilen.
Sie müssen BigQuery-Pipelines nur einmal eine Berechtigung erteilen.
So heben Sie die erteilte Berechtigung auf:
- Rufen Sie Ihre Google-Kontoseite auf.
- Klicken Sie auf BigQuery-Pipelines.
- Klicken Sie auf Zugriff entfernen.
Wenn Sie den Inhaber des Zeitplans für die Datenaufbereitung durch Aktualisieren der Anmeldedaten ändern, ist auch eine manuelle Genehmigung erforderlich, falls der neue Google-Kontoinhaber noch nie einen Zeitplan erstellt hat.
Geplante Datenvorbereitung manuell ausführen
Wenn Sie eine Datenvorbereitung in einem ausgewählten Zeitplan manuell ausführen, führt BigQuery die Datenvorbereitung einmal aus, unabhängig vom Zeitplan.
So führen Sie eine geplante Datenaufbereitung manuell aus:
Rufen Sie in der Google Cloud Console die Seite Scheduling auf.
Klicken Sie auf den Namen des ausgewählten Zeitplans für die Datenvorbereitung.
Klicken Sie auf der Seite mit den Details zum Zeitplan auf Ausführen.
Terminübersichten ansehen
Sie können Zeitpläne für die Datenvorbereitung im Editor für die Datenvorbereitung oder auf der Seite Zeitplanung aufrufen.
Editor für die Datenvorbereitung
So rufen Sie den Zeitplan für die Datenaufbereitung auf:
- Klicken Sie in der Symbolleiste des Editors für die Datenaufbereitung auf Zeitplan Zeitplan ansehen.
- Optional: Wenn Sie den Zeitplanverlauf aufrufen möchten, klicken Sie auf Bisherige Ausführungen ansehen.
Seite Planung
So rufen Sie alle Zeitpläne für die Datenaufbereitung in Ihrem Projekt auf:
Rufen Sie in der Google Cloud Console die Seite Scheduling auf.
Optional: Wenn Sie den Ausführungsverlauf und die Details eines ausgewählten Zeitplans aufrufen möchten, klicken Sie auf den Namen des Zeitplans. Der Verlauf manueller Läufe wird nicht angezeigt.
Zeitplan bearbeiten
Sie können einen Zeitplan im Editor für die Datenaufbereitung oder auf der Seite Zeitplanung bearbeiten.
Editor für die Datenvorbereitung
So bearbeiten Sie einen Zeitplan:
- Klicken Sie in der Symbolleiste des Editors für die Datenaufbereitung auf Zeitplan Zeitplan ansehen.
- Klicken Sie im Dialogfeld Datenaufbereitung planen auf Bearbeiten und aktualisieren Sie dann den Zeitplan.
- Klicken Sie auf Zeitplan aktualisieren.
Seite Planung
So bearbeiten Sie einen Zeitplan:
Rufen Sie in der Google Cloud Console die Seite Scheduling auf.
Klicken Sie auf den Namen des ausgewählten Zeitplans für die Datenvorbereitung.
Klicken Sie auf der Seite Details zum Zeitplan auf Bearbeiten.
Klicken Sie auf Zeitplan ansehen.
Klicken Sie im Dialogfeld Datenaufbereitung planen auf Bearbeiten und aktualisieren Sie dann den Zeitplan.
Klicken Sie auf Zeitplan aktualisieren.
Zeitplan löschen
So löschen Sie einen Zeitplan für eine ausgewählte Datenaufbereitung endgültig:
Rufen Sie in der Google Cloud Console die Seite Scheduling auf.
Klicken Sie in der Zeile mit dem Zeitplan auf more_vert Aktionen > Löschen.