Pipelines planen

In diesem Dokument wird beschrieben, wie Sie BigQuery-Pipelines planen, einschließlich der Planung von Pipelines und der Überprüfung geplanter Pipelineausführungen.

Pipelines basieren auf Dataform. Jeder Pipeline-Zeitplan wird mit den Anmeldedaten Ihres Google-Kontos oder einem Dataform-Dienstkonto ausgeführt, das Sie beim Konfigurieren des Zeitplans auswählen.

Änderungen, die Sie an einer Pipeline vornehmen, werden automatisch gespeichert, sind aber nur für Sie und für Nutzer verfügbar, denen die Rolle „Dataform Admin“ für das Projekt zugewiesen wurde. Wenn Sie den Zeitplan mit einer neuen Version der Pipeline aktualisieren möchten, müssen Sie die Pipeline bereitstellen. Durch die Bereitstellung wird der Zeitplan so aktualisiert, dass die aktuelle Version der Pipeline verwendet wird. Zeitpläne führen immer die zuletzt bereitgestellte Version aus.

Für Zeitpläne von Pipelines, die Notebooks enthalten, wird eine Standardlaufzeitspezifikation verwendet. Bei einer geplanten Ausführung einer Pipeline mit Notebooks schreibt BigQuery die Notebookausgabe in den Cloud Storage-Bucket, der beim Erstellen des Zeitplans ausgewählt wurde.

Hinweise

Erstellen Sie zuerst eine Pipeline.

Pipeline-Planung aktivieren

Wenn Sie Pipelines planen möchten, müssen Sie dem Dienstkonto, das Sie für Pipelinepläne verwenden möchten, die folgenden Rollen zuweisen:

Service Account User (roles/iam.serviceAccountUser)
Folgen Sie der Anleitung unter Einer einzelnen Rolle ein Dienstkonto zuweisen, um Ihrem Dienstkonto ein Hauptkonto hinzuzufügen. Das bedeutet, dass Sie dem Dienstkonto dasselbe Dienstkonto als Hauptkonto hinzufügen. Weisen Sie diesem Hauptkonto dann die Rolle „Dienstkontonutzer“ zu.

Wenn Ihre Pipeline SQL-Abfragen enthält, müssen Sie dem Dienstkonto, das Sie für Pipeline-Zeitpläne verwenden möchten, die folgenden Rollen zuweisen:

BigQuery-Jobnutzer(roles/bigquery.jobUser)
Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Jobnutzer“ für Projekte zuzuweisen, aus denen Ihre Pipelines Daten lesen.
BigQuery Data Viewer (roles/bigquery.dataViewer)
Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Datenbetrachter“ für Projekte zuzuweisen, aus denen Ihre Pipelines Daten lesen.
BigQuery Data Editor (roles/bigquery.dataEditor)
Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto die Rolle „BigQuery-Datenbearbeiter“ für Projekte zuzuweisen, in die Ihre Pipelines Daten schreiben.

Wenn Ihre Pipeline Notebooks enthält, müssen Sie dem Dienstkonto, das Sie für Pipeline-Zeitpläne verwenden möchten, die folgenden Rollen zuweisen:

Notebook Executor User (roles/aiplatform.notebookExecutorUser)
Folgen Sie der Anleitung unter Einzelne Rolle für ein Projekt gewähren, um Ihrem Dienstkonto für das ausgewählte Projekt die Rolle „Notebook-Ausführer“ zuzuweisen.
Storage-Administrator (roles/storage.admin)
Folgen Sie der Anleitung unter Richtlinie auf Bucket-Ebene ein Hauptkonto hinzufügen, um Ihrem Dienstkonto ein Hauptkonto für den Cloud Storage-Bucket hinzuzufügen, den Sie zum Speichern der Ausgabe von Notebooks verwenden möchten, die in geplanten Pipeline-Ausführungen ausgeführt werden, und diesem Hauptkonto die Rolle „Storage-Administrator“ zuzuweisen.

Außerdem müssen Sie dem Standard-Dataform-Dienstkonto die folgende Rolle zuweisen:

Ersteller von Dienstkonto-Token (roles/iam.serviceAccountTokenCreator)
Folgen Sie Zugriff auf die Tokenerstellung für ein Dienstkonto gewähren, um dem standardmäßigen Dataform-Dienstkonto ein Hauptkonto für Ihr Dienstkonto hinzuzufügen und diesem Hauptkonto die Rolle „Ersteller von Dienstkonto-Tokens“ zuzuweisen.

Weitere Informationen zu Dienstkonten in Dataform finden Sie unter Dienstkonten in Dataform.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwaltung von Pipelines benötigen:

  • Pipelines löschen: Dataform Admin (roles/dataform.Admin) für die Pipeline
  • So erstellen, bearbeiten, ausführen und löschen Sie Pipeline-Zeitpläne: Dataform Admin (roles/dataform.Admin) für die Pipeline
  • Pipelines ansehen und ausführen: Dataform-Betrachter (roles/dataform.Viewer) für das Projekt
  • Pipeline-Zeitpläne ansehen: Dataform-Bearbeiter (roles/dataform.Editor) für das Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen zu Dataform IAM finden Sie unter Zugriff mit IAM steuern.

Wenn Sie Colab-Notebook-Laufzeitvorlagen beim Planen von Pipelines verwenden möchten, benötigen Sie die Rolle Notebook Runtime User (roles/aiplatform.notebookRuntimeUser).

Pipeline-Zeitplan erstellen

So erstellen Sie einen Pipeline-Zeitplan:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Planen.

  4. Geben Sie im Bereich Pipeline planen im Feld Name des Zeitplans einen Namen für den Zeitplan ein.

  5. Autorisieren Sie die Pipeline im Bereich Authentifizierung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.

    • Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus.
    • Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus.
  6. Wenn Ihre Pipeline ein Notebook enthält, wählen Sie im Abschnitt Notebook-Optionen im Feld Laufzeitvorlage eine Colab-Notebook-Laufzeitvorlage oder die Standardlaufzeitspezifikationen aus. Weitere Informationen zum Erstellen einer Laufzeitvorlage für ein Colab-Notebook finden Sie unter Laufzeitvorlage erstellen.

  7. Wenn Ihre Pipeline ein Notebook enthält, klicken Sie im Abschnitt Notebook-Optionen im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.

    Dem ausgewählten Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein. Weitere Informationen finden Sie unter Pipeline-Planung aktivieren.

  8. Führen Sie im Abschnitt Planungshäufigkeit folgende Schritte aus:

    1. Wählen Sie im Menü Wiederholungen die Häufigkeit der geplanten Pipelineausführungen aus.
    2. Geben Sie im Feld Um die Uhrzeit für die geplanten Pipelineausführungen ein.
    3. Wählen Sie im Menü Zeitzone die Zeitzone für den Zeitplan aus.
  9. Klicken Sie auf Zeitplan erstellen. Wenn Sie Mit meinen Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).

Wenn Sie den Zeitplan erstellen, wird die aktuelle Version der Pipeline automatisch bereitgestellt. Wenn Sie den Zeitplan mit einer neuen Version der Pipeline aktualisieren möchten, müssen Sie die Pipeline bereitstellen.

Die zuletzt bereitgestellte Version der Pipeline wird zur ausgewählten Zeit und mit der ausgewählten Häufigkeit ausgeführt.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf Erstellen und wählen Sie dann im Menü Pipeline-Zeitplan aus.

  3. Wählen Sie im Bereich Pipeline planen eine Pipeline aus, die geplant werden soll.

  4. Geben Sie im Feld Name des Zeitplans einen Namen für den Zeitplan ein.

  5. Autorisieren Sie die Pipeline im Bereich Authentifizierung mit den Anmeldedaten Ihres Google-Kontos oder eines Dienstkontos.

    • Wenn Sie die Nutzeranmeldedaten Ihres Google-Kontos verwenden möchten (Vorschau), wählen Sie Mit meinen Nutzeranmeldedaten ausführen aus.
    • Wenn Sie ein Dienstkonto verwenden möchten, wählen Sie Mit ausgewähltem Dienstkonto ausführen aus und wählen Sie dann ein Dienstkonto aus.
  6. Wenn Ihre Pipeline ein Notebook enthält, wählen Sie im Abschnitt Notebook-Optionen im Feld Laufzeitvorlage eine Colab-Notebook-Laufzeitvorlage oder die Standardlaufzeitspezifikationen aus. Weitere Informationen zum Erstellen einer Laufzeitvorlage für ein Colab-Notebook finden Sie unter Laufzeitvorlage erstellen.

  7. Wenn Ihre Pipeline ein Notebook enthält, klicken Sie im Feld Cloud Storage-Bucket auf Durchsuchen und wählen Sie einen Cloud Storage-Bucket zum Speichern der Ausgabe von Notebooks in Ihrer Pipeline aus oder erstellen Sie einen.

    Dem ausgewählten Dienstkonto muss die IAM-Rolle „Storage Admin“ für den ausgewählten Bucket zugewiesen sein. Weitere Informationen finden Sie unter Pipeline-Planung aktivieren.

  8. Führen Sie im Abschnitt Planungshäufigkeit folgende Schritte aus:

    1. Wählen Sie im Menü Wiederholungen die Häufigkeit der geplanten Pipelineausführungen aus.
    2. Geben Sie im Feld Um die Uhrzeit für die geplanten Pipelineausführungen ein.
    3. Wählen Sie im Menü Zeitzone die Zeitzone für den Zeitplan aus.
  9. Klicken Sie auf Zeitplan erstellen. Wenn Sie Mit meinen Nutzeranmeldedaten ausführen als Authentifizierungsmethode ausgewählt haben, müssen Sie Ihr Google-Konto autorisieren (Vorschau).

Google-Konto autorisieren

Wenn Sie die Ressource mit den Nutzeranmeldedaten Ihres Google-Kontos authentifizieren möchten, müssen Sie BigQuery-Pipelines manuell die Berechtigung erteilen, das Zugriffstoken für Ihr Google-Konto abzurufen und in Ihrem Namen auf die Quelldaten zuzugreifen. Sie können die manuelle Genehmigung über die OAuth-Dialogoberfläche erteilen.

Sie müssen BigQuery-Pipelines nur einmal eine Berechtigung erteilen.

So heben Sie die erteilte Berechtigung auf:

  1. Rufen Sie Ihre Google-Kontoseite auf.
  2. Klicken Sie auf BigQuery-Pipelines.
  3. Klicken Sie auf Zugriff entfernen.

Wenn Sie den Inhaber des Pipeline-Zeitplans durch Aktualisieren der Anmeldedaten ändern, ist auch eine manuelle Genehmigung erforderlich, falls der neue Google-Kontoinhaber noch nie einen Zeitplan erstellt hat.

Wenn Ihre Pipeline ein Notebook enthält, müssen Sie Colab Enterprise auch manuell die Berechtigung erteilen, das Zugriffstoken für Ihr Google-Konto abzurufen und in Ihrem Namen auf die Quelldaten zuzugreifen. Sie müssen die Berechtigung nur einmal erteilen. Sie können diese Berechtigung auf der Google-Kontoseite widerrufen.

Pipeline bereitstellen

Durch die Bereitstellung einer Pipeline wird ihr Zeitplan mit der aktuellen Version der Pipeline aktualisiert. Zeitpläne führen die zuletzt bereitgestellte Version der Pipeline aus.

So stellen Sie eine Pipeline bereit:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Bereitstellen.

Der entsprechende Zeitplan wird mit der aktuellen Version der Pipeline aktualisiert. Die zuletzt bereitgestellte Version der Pipeline wird zum geplanten Zeitpunkt ausgeführt.

Zeitplan deaktivieren

Wenn Sie geplante Ausführungen einer ausgewählten Pipeline pausieren möchten, ohne den Zeitplan zu löschen, können Sie ihn deaktivieren.

So deaktivieren Sie einen Zeitplan für eine ausgewählte Pipeline:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Zeitplan ansehen.

  4. Klicken Sie in der Tabelle Zeitplandetails in der Zeile Zeitplanstatus auf die Ein/Aus-Schaltfläche Zeitplan ist aktiviert.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen der ausgewählten Pipeline.

  3. Klicken Sie auf der Seite Details zum Zeitplan auf Deaktivieren.

Zeitplan aktivieren

So nehmen Sie geplante Ausführungen eines deaktivierten Pipeline-Zeitplans wieder auf:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Zeitplan ansehen.

  4. Klicken Sie in der Tabelle Zeitplandetails in der Zeile Zeitplanstatus auf die Ein/Aus-Schaltfläche Zeitplan deaktiviert.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen der ausgewählten Pipeline.

  3. Klicken Sie auf der Seite Details zum Zeitplan auf Aktivieren.

Bereitgestellte Pipeline manuell ausführen

Wenn Sie eine Pipeline, die mit einem ausgewählten Zeitplan bereitgestellt wurde, manuell ausführen, führt BigQuery die bereitgestellte Pipeline einmal aus, unabhängig vom Zeitplan.

So führen Sie eine bereitgestellte Pipeline manuell aus:

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans.

  3. Klicken Sie auf der Seite mit den Details zum Zeitplan auf Ausführen.

Alle Pipeline-Zeitpläne ansehen

So rufen Sie alle Pipeline-Zeitpläne in Ihrem Google Cloud Projekt auf:

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Optional: Wenn Sie zusätzliche Spalten mit Details zum Pipeline-Zeitplan anzeigen möchten, klicken Sie auf  Spaltenanzeigeoptionen, wählen Sie die gewünschten Spalten aus und klicken Sie auf OK.

Details zum Pipeline-Zeitplan ansehen

So rufen Sie Details zu einem ausgewählten Pipeline-Zeitplan auf:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Zeitplan ansehen.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans.

Bisherige geplante Ausführungen ansehen

So rufen Sie bisherige Ausführungen eines ausgewählten Pipeline-Zeitplans auf:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Ausführungen.

  4. Optional: Klicken Sie auf Aktualisieren, um die Liste der letzten Ausführungen zu aktualisieren.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen der ausgewählten Pipeline.

  3. Prüfen Sie auf der Seite Zeitplandetails im Abschnitt Frühere Ausführungen frühere Ausführungen.

  4. Optional: Klicken Sie auf Aktualisieren, um die Liste der letzten Ausführungen zu aktualisieren.

Pipelinezeitplan bearbeiten

So bearbeiten Sie einen Pipeline-Zeitplan:

Bereich Explorer

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und den Ordner Pipelines und wählen Sie dann eine Pipeline aus.

  3. Klicken Sie auf Zeitplan ansehen und dann auf Bearbeiten.

  4. Bearbeiten Sie im Dialogfeld Pipeline planen den Zeitplan und klicken Sie dann auf Zeitplan aktualisieren.

Seite Planung

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Klicken Sie auf den Namen der ausgewählten Pipeline.

  3. Klicken Sie auf der Seite Details zum Zeitplan auf Bearbeiten.

  4. Klicken Sie auf Zeitplan ansehen und dann auf Bearbeiten.

  5. Bearbeiten Sie im Dialogfeld Pipeline planen den Zeitplan und klicken Sie dann auf Zeitplan aktualisieren.

Pipeline-Zeitplan löschen

So löschen Sie einen Pipeline-Zeitplan endgültig:

  1. Rufen Sie in der Google Cloud Console die Seite Scheduling auf.

    Zur Planung

  2. Führen Sie eine der folgenden Aktionen aus:

    • Klicken Sie auf den Namen des ausgewählten Pipeline-Zeitplans und dann auf der Seite Zeitplandetails auf Löschen.

    • Klicken Sie in der Zeile mit dem ausgewählten Pipeline-Zeitplan in der Spalte Aktionen auf Aktionen ansehen und dann auf Löschen.

  3. Klicken Sie im angezeigten Dialogfeld auf Löschen.

Nächste Schritte