Der Job-Builder ist eine visuelle Benutzeroberfläche zum Erstellen und Ausführen von Dataflow-Pipelines in der Google Cloud Console, ohne Code schreiben zu müssen.
Das folgende Bild zeigt ein Detail der Benutzeroberfläche des Job-Builders. Auf diesem Bild erstellt der Nutzer eine Pipeline, um Daten aus Pub/Sub in BigQuery zu lesen:
Übersicht
Der Job-Builder unterstützt das Lesen und Schreiben der folgenden Datentypen:
- Pub/Sub-Nachrichten
- BigQuery-Tabellendaten
- CSV-Dateien, JSON-Dateien und Textdateien in Cloud Storage
- Tabellendaten aus PostgreSQL, MySQL, Oracle und SQL Server
Es unterstützt Pipelinetransformationen wie Filter, Map, SQL, Gruppieren nach, Zusammenführen und Explodieren (Array flach).
Mit dem Job-Builder können Sie:
- Von Pub/Sub zu BigQuery mit Transformationen und Fensteraggregation streamen
- Daten aus Cloud Storage in BigQuery schreiben
- Fehlerbehandlung verwenden, um fehlerhafte Daten zu filtern (Dead-Letter-Warteschlange)
- Daten mit der SQL-Transformation mit SQL bearbeiten oder aggregieren
- Felder mit Zuordnungstransformationen zu Daten hinzufügen, ändern oder entfernen
- Wiederkehrende Batchjobs planen
Der Job-Builder kann auch Pipelines als Apache Beam-YAML-Dateien speichern und Pipelinedefinitionen aus Beam-YAML-Dateien laden. Mit dieser Funktion können Sie Ihre Pipeline im Job-Builder entwerfen und die YAML-Datei dann zur Wiederverwendung in Cloud Storage oder einem Repository für die Versionskontrolle speichern. Mit YAML-Jobdefinitionen können Sie Jobs auch über die gcloud CLI starten.
Betrachten Sie den Job-Builder für folgende Anwendungsfälle:
- Sie möchten schnell eine Pipeline erstellen, ohne Code schreiben zu müssen.
- Sie möchten eine Pipeline zur Wiederverwendung als YAML-Datei speichern.
- Ihre Pipeline kann mit den unterstützten Quellen, Senken und Transformationen ausgedrückt werden.
- Es gibt keine von Google bereitgestellte Vorlage, die zu Ihrem Anwendungsfall passt.
Beispieljob ausführen
Das Beispiel „Word Count“ ist eine Batch-Pipeline, die Text aus Cloud Storage liest, die Textzeilen durch Tokenisierung in ihre einzelnen Wörter zerlegt und für jedes Wort eine Häufigkeitszählung durchführt.
Wenn sich der Cloud Storage-Bucket außerhalb des Dienstperimeters befindet, erstellen Sie eine Regel für ausgehenden Traffic, die Zugriff auf den Bucket ermöglicht.
So führen Sie die Pipeline „Wortzählung“ aus:
Rufen Sie die Seite Jobs in der Google Cloud Console auf.
Klicken Sie auf
Job aus Vorlage erstellen.Klicken Sie in der Seitenleiste auf
Job-Builder.Klicken Sie auf Blueprints laden
.Klicken Sie auf Wörter zählen. Der Job-Builder enthält eine grafische Darstellung der Pipeline.
Für jeden Pipelineschritt wird im Job-Builder eine Karte mit den Konfigurationsparametern für diesen Schritt angezeigt. Im ersten Schritt werden beispielsweise Textdateien aus Cloud Storage gelesen. Der Speicherort der Quelldaten ist im Feld Textspeicherort bereits ausgefüllt.
Suchen Sie die Karte mit dem Titel Neuer Senke. Möglicherweise müssen Sie scrollen.
Geben Sie im Feld Textspeicherort das Cloud Storage-Pfadpräfix für die Ausgabetextdateien ein.
Klicken Sie auf Job ausführen. Der Job-Builder erstellt einen Dataflow-Job und wechselt dann zum Job-Diagramm. Wenn der Job gestartet wird, zeigt die Jobgrafik eine grafische Darstellung der Pipeline. Diese grafische Darstellung ähnelt der im Job-Builder angezeigten. Während jeder Schritt der Pipeline ausgeführt wird, wird der Status im Job-Diagramm aktualisiert.
Im Bereich Jobinfo wird der Gesamtstatus des Jobs angezeigt. Wenn der Job erfolgreich abgeschlossen wurde, wird das Feld Jobstatus auf Succeeded
aktualisiert.
Nächste Schritte
- Dataflow-Job-Monitoring-Oberfläche verwenden
- Erstellen Sie einen benutzerdefinierten Job im Job-Builder.
- YAML-Jobdefinitionen im Job-Builder speichern und laden
- Weitere Informationen zu Beam YAML