Informationen zum Exportjob

Auf dieser Seite wird beschrieben, wie Sie die Informationen für Ihre Jobs, die in Batch gespeichert sind, mit Workflows in eine BigQuery-Tabelle exportieren. Sie erfahren insbesondere, wie Sie den Beispielworkflow export-jobs ausführen und die resultierenden Jobinformationen in BigQuery ansehen.

Das Exportieren von Jobinformationen ist nützlich, wenn Sie die Informationen behalten möchten, nachdem ein Job automatisch oder manuell gelöscht wurde, oder wenn Sie die Informationen außerhalb von Batch analysieren möchten. Wenn Sie stattdessen nur Informationen zu Statusänderungen von Aufgaben und Jobs nach BigQuery exportieren möchten, lesen Sie Jobs mithilfe von Benachrichtigungen überwachen.

Informationen zum Exportieren von Jobinformationen, die in anderenGoogle Cloud -Diensten gespeichert sind, finden Sie in der Exportdokumentation für den jeweiligen Dienst. Beispiele finden Sie auf den folgenden Seiten:

Hinweise

  1. Wenn Sie Batch noch nicht verwendet haben, lesen Sie den Abschnitt Erste Schritte mit Batch und aktivieren Sie Batch, indem Sie die Voraussetzungen für Projekte und Nutzer erfüllen.
  2. Enable the BigQuery and Workflows APIs.

    Enable the APIs

  3. Optional: Suchen Sie in Ihrem Projekt nach einem vorhandenen BigQuery-Dataset oder einer vorhandenen BigQuery-Tabelle, in dem bzw. der Sie die Jobinformationen speichern möchten. Eine vorhandene Tabelle muss ein passendes Schema haben.

    Andernfalls können Sie mit dem Workflow „export-jobs“ ein neues Dataset oder eine neue Tabelle erstellen.

  4. So bereiten Sie ein Dienstkonto für den Workflow „Export-Jobs“ vor:

    1. Erstellen Sie ein neues Dienstkonto oder identifizieren Sie ein vorhandenes Dienstkonto.
    2. Damit das Dienstkonto die erforderlichen Berechtigungen zum Ausführen des Workflows für Exportjobs hat, bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen für das Projekt zuzuweisen:

      Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

      Ihr Administrator kann dem Dienstkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.

  5. Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen, Bereitstellen und Ausführen des Exportjobs-Workflows benötigen:

  6. Achten Sie darauf, dass Nutzer in Ihrem Projekt die exportierten Jobinformationen aufrufen können.

    Damit ein Nutzer die erforderlichen Berechtigungen zum Exportieren von Jobinformationen hat, bitten Sie Ihren Administrator, ihm die IAM-Rolle BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für die Tabelle, das Dataset oder das Projekt zu gewähren.

Informationen zu Exportjobs

In diesem Abschnitt wird beschrieben, wie Sie Jobinformationen mit dem export-jobs-Workflow aus dem export-to-bigquery-Codebeispiel exportieren. Mit dem Workflow „Exportjobs“ werden die Informationen für die Jobs Ihres Projekts exportiert, die sich in der angegebenen Region befinden und die angegebenen Filterkriterien erfüllen.

Im Workflow „Exportjobs“ werden Jobinformationen in eine angegebene Tabelle in einem angegebenen Dataset exportiert. Diese werden automatisch vom Workflow erstellt, wenn sie noch nicht in Ihrem Projekt vorhanden sind. Standardmäßig werden die exportierten Jobs durch den Workflow „export-jobs“ auch aus Batch gelöscht. Sie können den Workflow „export-jobs“ aber optional so bearbeiten, dass die Jobs nicht gelöscht werden.

Gehen Sie für jeden Workflow für Exportjobs, den Sie verwenden möchten, so vor:

  1. Workflowdefinition konfigurieren
  2. Workflow erstellen und bereitstellen
  3. Führen Sie den Workflow aus. Wiederholen Sie diesen Schritt jedes Mal, wenn Sie die angegebenen Jobs exportieren möchten.

Workflowdefinition konfigurieren

  1. Laden Sie die Datei export-to-bigquery-delete-batch-jobs.yaml von GitHub herunter.

  2. Öffnen Sie die Datei export-to-bigquery-delete-batch-jobs.yaml in einem Texteditor. Nehmen Sie dann die folgenden Änderungen vor:

    1. Ersetzen Sie sys.get_env("GOOGLE_CLOUD_PROJECT_ID") durch Ihre Projekt-ID, die als String formatiert ist, z. B. "my-project-id".

    2. Ersetzen Sie sys.get_env("GOOGLE_CLOUD_LOCATION") durch die Region, die die Jobs enthält, die Sie exportieren möchten, formatiert als String, z. B. "us-central1".

    3. Optional: Bearbeiten Sie die Filterkriterien, mit denen angegeben wird, welche Jobs exportiert werden sollen.

      Standardmäßig werden im Workflow für Exportjobs die Filterkriterien "(status.state:SUCCEEDED OR status.state:FAILED OR status.state:CANCELLED) AND create_time<=\"2023-05-01T00:00:00Z\"" angegeben. Mit diesen Standardfilterkriterien werden nur Informationen für Jobs exportiert, die sich im Status SUCCEEDED, FAILED oder CANCELLED befinden und vor oder bis zum 2023-05-01T00:00:00Z-Zeitstempel im RFC 3339-Format erstellt wurden.

    4. Optional: Ersetzen Sie default_dataset_id durch einen anderen Namen für das Dataset, das vom Workflow für Exportjobs verwendet oder erstellt werden soll.

    5. Optional: Ersetzen Sie default_table_id durch einen anderen Namen der Tabelle, die vom Workflow für Exportjobs verwendet oder erstellt werden soll.

    6. Wenn Sie nicht möchten, dass die exportierten Jobs durch den Workflow gelöscht werden, gehen Sie so vor:

      1. Entfernen Sie die folgenden Zeilen:

                - log_delete_step:
                    call: sys.log
                    args:
                      text: ${"Deleting Batch job " + j.name}
                      severity: NOTICE
                - delete_job:
                    call: googleapis.batch.v1.projects.locations.jobs.delete
                    args:
                      name: ${j.name}
        
      2. Entfernen Sie + " and deleted".

    7. Speichern Sie die Datei. Lassen Sie die Datei geöffnet.

Workflow erstellen und bereitstellen

  1. Rufen Sie in der Google Cloud Console die Seite Workflows auf:

    Zur Seite "Workflows"

  2. Klicken Sie auf der Seite Workflows auf Erstellen.

  3. Geben Sie im Feld Workflowname einen Namen für den Workflow ein, z. B. export-batch-jobs-us-central1.

  4. Wählen Sie in der Liste Dienstkonto das vorbereitete Dienstkonto aus.

  5. Klicken Sie auf Weiter.

  6. Ersetzen Sie im Workflow-Editor den Beispielworkflow durch den Inhalt der Datei export-to-bigquery-delete-batch-jobs.yaml. Anschließend können Sie die Datei schließen.

  7. Klicken Sie auf Bereitstellen. Die Seite Workflow-Details wird geöffnet.

Workflow ausführen

  1. Klicken Sie auf der Seite Workflow-Details auf Ausführen. Die Seite Workflow ausführen wird geöffnet.

  2. Klicken Sie auf der Seite Workflow ausführen, die sich öffnet, auf Ausführen.

  3. Warten Sie auf der Seite Ausführungsdetails, die sich öffnet, bis der Workflow ausgeführt wurde. Die Ausführungszeit für den Export und das Löschen einiger Jobs beträgt in der Regel einige Sekunden. Wenn Sie jedoch viele Jobs exportieren und löschen, kann die Ausführung länger dauern.

    Wenn der Workflow abgeschlossen ist, werden die Ergebnisse im Bereich Output (Ausgabe) angezeigt.

Exportierte Jobinformationen ansehen

In diesem Abschnitt wird beschrieben, wie Sie die Tabellendaten ansehen, die vom Workflow für Exportjobs erstellt wurden. Mit den folgenden Schritten können Sie beispielsweise prüfen, ob der Workflow erfolgreich ausgeführt wurde, und die Tabellendaten durchsuchen. Weitere Informationen zum Aufrufen und Verwenden der exportierten Jobinformationen, z. B. zum Schreiben von Abfragen, finden Sie in der BigQuery-Dokumentation unter Tabellendaten verwalten.

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Öffnen Sie im Bereich Explorer die Tabelle mit den exportierten Jobinformationen:

    1. Geben Sie im Feld BigQuery-Ressourcen durchsuchen den Namen der Tabelle aus Ihrem Exportjob-Workflow ein. Der Standardtabellenname ist beispielsweise default_table_id.
    2. Klicken Sie auf den Namen der Tabelle. Die Seite mit den Tabellendetails wird geöffnet.
    3. Klicken Sie auf der Seite mit den Tabellendetails auf den Tab Details.

      Notieren Sie sich auf dem Tab Details den Zeitstempel Zuletzt geändert und die Zeilenanzahl.

    4. Klicken Sie auf der Seite mit den Tabellendetails auf den Tab Vorschau.

Nächste Schritte