Pipelines planen
In diesem Dokument wird beschrieben, wie Sie BigQuery-Pipelines planen, einschließlich der Planung von Pipelines und der Prüfung geplanter Pipelineausführungen.
Pipelines basieren auf Dataform.
Jeder Pipeline-Zeitplan wird von einem Dienstkonto ausgeführt, das Sie beim Erstellen des Zeitplans auswählen. Weitere Informationen zu den Arten von Dienstkonten in Dataform finden Sie unter Dienstkonten in Dataform.
Änderungen, die Sie an einer Pipeline vornehmen, werden automatisch gespeichert, sind aber nur für Sie und für Nutzer verfügbar, denen die Rolle „Dataform Admin“ für das Projekt zugewiesen wurde. Wenn Sie den Zeitplan mit einer neuen Version der Pipeline aktualisieren möchten, müssen Sie die Pipeline bereitstellen. Durch die Bereitstellung wird der Zeitplan so aktualisiert, dass die aktuelle Version der Pipeline verwendet wird. Zeitpläne führen immer die zuletzt bereitgestellte Version aus.
Für Zeitpläne von Pipelines, die Notebooks enthalten, wird eine Standardlaufzeitspezifikation verwendet. Bei einer geplanten Ausführung einer Pipeline mit Notebooks schreibt BigQuery die Notebookausgabe in den Cloud Storage-Bucket, der beim Erstellen des Zeitplans ausgewählt wurde.
Hinweise
Erstellen Sie zuerst eine Pipeline.
Pipeline-Zeitplan aktivieren
Wenn Sie Pipelines planen möchten, müssen Sie dem Dienstkonto, das Sie für Pipelinepläne verwenden möchten, die folgenden Rollen zuweisen:
- Service Account User (
roles/iam.serviceAccountUser
) - Folgen Sie der Anleitung unter Einer einzelnen Rolle ein Dienstkonto zuweisen, um Ihrem Dienstkonto ein Hauptkonto hinzuzufügen. Das bedeutet, dass Sie dem Dienstkonto dasselbe Dienstkonto als Hauptkonto hinzufügen. Weisen Sie diesem Hauptkonto dann die Rolle „Dienstkontonutzer“ zu.
Wenn Ihre Pipeline SQL-Abfragen enthält, müssen Sie dem Dienstkonto, das Sie für Pipelinepläne verwenden möchten, die folgenden Rollen zuweisen:
- BigQuery-Jobnutzer(
roles/bigquery.jobUser
) - Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Jobnutzer“ für Projekte zuzuweisen, aus denen Ihre Pipelines Daten lesen.
- BigQuery Data Viewer (
roles/bigquery.dataViewer
) - Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Datenbetrachter“ für Projekte zuzuweisen, aus denen Ihre Pipelines Daten lesen.
- BigQuery Data Editor (
roles/bigquery.dataEditor
) - Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Datenbearbeiter“ für Projekte zuzuweisen, in die Ihre Pipelines Daten schreiben.
Wenn Ihre Pipeline Notebooks enthält, müssen Sie dem Dienstkonto, das Sie für Pipelinepläne verwenden möchten, die folgenden Rollen zuweisen:
- Notebook Executor User (
roles/aiplatform.notebookExecutorUser
) - Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto für das ausgewählte Projekt die Rolle „Notebook-Ausführer“ zuzuweisen.
- Storage-Administrator (
roles/storage.admin
) - Folgen Sie der Anleitung unter Richtlinie auf Bucket-Ebene ein Hauptkonto hinzufügen, um Ihrem Dienstkonto ein Hauptkonto für den Cloud Storage-Bucket hinzuzufügen, den Sie zum Speichern der Ausgabe von Notebooks verwenden möchten, die in geplanten Pipelineausführungen ausgeführt werden, und diesem Hauptkonto die Rolle „Storage-Administrator“ zuzuweisen.
Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die folgende Rolle zuweisen:
- Ersteller von Dienstkonto-Token (
roles/iam.serviceAccountTokenCreator
) - Folgen Sie Zugriff auf die Tokenerstellung für ein Dienstkonto gewähren, um dem standardmäßigen Dataform-Dienstkonto ein Hauptkonto für Ihr Dienstkonto hinzuzufügen und diesem Hauptkonto die Rolle „Ersteller von Dienstkonto-Tokens“ zuzuweisen.
Weitere Informationen zu Dienstkonten in Dataform finden Sie unter Dienstkonten in Dataform.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Pipelines benötigen:
-
Pipelines löschen:
Dataform Admin (
roles/dataform.Admin
) für die Pipeline -
So erstellen, bearbeiten, führen und löschen Sie Pipeline-Zeitpläne:
Dataform Admin (
roles/dataform.Admin
) für die Pipeline -
Pipelines aufrufen und ausführen:
Dataform-Betrachter (
roles/dataform.Viewer
) für das Projekt -
Pipeline-Zeitpläne aufrufen:
Dataform-Bearbeiter (
roles/dataform.Editor
) für das Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen zu Dataform IAM finden Sie unter Zugriff mit IAM steuern.
Wenn Sie beim Planen von Pipelines Colab-Notebook-Laufzeitvorlagen verwenden möchten, benötigen Sie die Rolle Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
).
Pipelinezeitplan erstellen
So erstellen Sie einen Pipeline-Zeitplan:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Planen.
Geben Sie im Bereich Pipeline planen im Feld Name des Zeitplans einen Namen für den Zeitplan ein.
Wählen Sie im Feld Dienstkonto ein Dienstkonto aus.
Wenn Ihre Pipeline ein Notebook enthält, wählen Sie im Bereich Notebookoptionen im Feld Laufzeitvorlage eine Colab-Notebook-Laufzeitvorlage oder die Standardlaufzeitspezifikationen aus. Weitere Informationen zum Erstellen einer Colab-Notebook-Laufzeitvorlage finden Sie unter Laufzeitvorlage erstellen.
Wenn Ihre Pipeline ein Notebook enthält, klicken Sie im Bereich Notebook-Optionen im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.
Dem ausgewählten Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein. Weitere Informationen finden Sie unter Pipeline-Planung aktivieren.
Führen Sie im Abschnitt Planungshäufigkeit folgende Schritte aus:
- Wählen Sie im Menü Wiederholungen die Häufigkeit der geplanten Pipelineausführungen aus.
- Geben Sie im Feld Um die Uhrzeit für die geplanten Pipelineausführungen ein.
- Wählen Sie im Menü Zeitzone die Zeitzone für den Zeitplan aus.
Klicken Sie auf Zeitplan erstellen.
Wenn Sie den Zeitplan erstellen, wird die aktuelle Version der Pipeline automatisch bereitgestellt. Wenn Sie den Zeitplan mit einer neuen Version der Pipeline aktualisieren möchten, stellen Sie die Pipeline bereit.
Die zuletzt bereitgestellte Version der Pipeline wird zur ausgewählten Zeit und mit der ausgewählten Häufigkeit ausgeführt.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf Erstellen und wählen Sie dann im Menü Pipeline-Zeitplan aus.
Wählen Sie im Bereich Pipeline planen eine Pipeline aus, die Sie planen möchten.
Geben Sie im Feld Name des Zeitplans einen Namen für den Zeitplan ein.
Wählen Sie im Feld Dienstkonto ein Dataform-Dienstkonto aus.
Wenn Ihre Pipeline ein Notebook enthält, wählen Sie im Bereich Notebookoptionen im Feld Laufzeitvorlage eine Colab-Notebook-Laufzeitvorlage oder die Standardlaufzeitspezifikationen aus. Weitere Informationen zum Erstellen einer Colab-Notebook-Laufzeitvorlage finden Sie unter Laufzeitvorlage erstellen.
Wenn Ihre Pipeline ein Notebook enthält, klicken Sie im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.
Dem ausgewählten Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein. Weitere Informationen finden Sie unter Pipeline-Planung aktivieren.
Führen Sie im Abschnitt Planungshäufigkeit folgende Schritte aus:
- Wählen Sie im Menü Wiederholungen die Häufigkeit der geplanten Pipelineausführungen aus.
- Geben Sie im Feld Um die Uhrzeit für die geplanten Pipelineausführungen ein.
- Wählen Sie im Menü Zeitzone die Zeitzone für den Zeitplan aus.
Klicken Sie auf Zeitplan erstellen.
Pipeline bereitstellen
Durch die Bereitstellung einer Pipeline wird ihr Zeitplan mit der aktuellen Version der Pipeline aktualisiert. Zeitpläne führen die zuletzt bereitgestellte Version der Pipeline aus.
So stellen Sie eine Pipeline bereit:
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Bereitstellen.
Der entsprechende Zeitplan wird mit der aktuellen Version der Pipeline aktualisiert. Die zuletzt bereitgestellte Version der Pipeline wird zum geplanten Zeitpunkt ausgeführt.
Zeitplan deaktivieren
Wenn Sie geplante Ausführungen einer ausgewählten Pipeline pausieren möchten, ohne den Zeitplan zu löschen, können Sie ihn deaktivieren.
So deaktivieren Sie einen Zeitplan für eine ausgewählte Pipeline:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Zeitplan ansehen.
Klicken Sie in der Tabelle Zeitplandetails in der Zeile Zeitplanstatus auf die Ein/Aus-Schaltfläche Zeitplan ist aktiviert.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen der ausgewählten Pipeline.
Klicken Sie auf der Seite Zeitplandetails auf Deaktivieren.
Zeitplan aktivieren
So nehmen Sie geplante Ausführungen eines deaktivierten Pipeline-Zeitplans wieder auf:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Zeitplan ansehen.
Klicken Sie in der Tabelle Zeitplandetails in der Zeile Zeitplanstatus auf die Ein/Aus-Schaltfläche Zeitplan deaktiviert.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen der ausgewählten Pipeline.
Klicken Sie auf der Seite Zeitplandetails auf Aktivieren.
Bereitstellen Pipeline manuell ausführen
Wenn Sie eine Pipeline, die mit einem ausgewählten Zeitplan bereitgestellt wurde, manuell ausführen, führt BigQuery die bereitgestellte Pipeline einmal aus, unabhängig vom Zeitplan.
So führen Sie eine bereitgestellte Pipeline manuell aus:
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans.
Klicken Sie auf der Seite mit den Details zum Zeitplan auf Ausführen.
Alle Pipelinezeitpläne ansehen
So rufen Sie alle Pipelinezeitpläne in Ihrem Google Cloud-Projekt auf:
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Optional: Wenn Sie zusätzliche Spalten mit Details zum Pipeline-Zeitplan anzeigen möchten, klicken Sie auf
Spaltenanzeigeoptionen, wählen Sie die gewünschten Spalten aus und klicken Sie auf OK.
Details zum Pipelinezeitplan ansehen
So rufen Sie Details zu einem ausgewählten Pipeline-Zeitplan auf:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Zeitplan ansehen.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans.
Bisherige geplante Ausführungen ansehen
So rufen Sie bisherige Ausführungen eines ausgewählten Pipeline-Zeitplans auf:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Ausführungen.
Optional: Klicken Sie auf Aktualisieren, um die Liste der letzten Ausführungen zu aktualisieren.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen der ausgewählten Pipeline.
Prüfen Sie auf der Seite Zeitplandetails im Abschnitt Frühere Ausführungen frühere Ausführungen.
Optional: Klicken Sie auf Aktualisieren, um die Liste der letzten Ausführungen zu aktualisieren.
Pipelinezeitplan bearbeiten
So bearbeiten Sie einen Pipeline-Zeitplan:
Bereich Explorer
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.
Klicken Sie auf Zeitplan ansehen und dann auf Bearbeiten.
Bearbeiten Sie im Dialogfeld Pipeline planen den Zeitplan und klicken Sie dann auf Zeitplan aktualisieren.
Seite Planung
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Klicken Sie auf den Namen der ausgewählten Pipeline.
Klicken Sie auf der Seite Zeitplandetails auf Bearbeiten.
Klicken Sie auf Zeitplan ansehen und dann auf Bearbeiten.
Bearbeiten Sie im Dialogfeld Pipeline planen den Zeitplan und klicken Sie dann auf Zeitplan aktualisieren.
Pipelinezeitplan löschen
So löschen Sie einen Pipeline-Zeitplan endgültig:
Rufen Sie in der Google Cloud Console die Seite Planung auf.
Führen Sie eine der folgenden Aktionen aus:
Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans und dann auf der Seite Zeitplandetails auf Löschen.
Klicken Sie in der Zeile mit dem ausgewählten Pipeline-Zeitplan in der Spalte Aktionen auf
Aktionen ansehen und dann auf Löschen.
Klicken Sie im angezeigten Dialogfeld auf Löschen.