Auf dieser Seite wird beschrieben, wie Sie den Tab Ausführungsdetails in der Dataflow-Monitoring-Benutzeroberfläche verwenden.
Übersicht
Wenn in Dataflow ein Job ausgeführt wird, werden die Schritte der Pipeline in Phasen umgewandelt. Während jeder Schritt eine einzelne Transformation darstellt, steht eine Phase für eine einzelne Arbeitseinheit, die von Dataflow ausgeführt wird. Zur Optimierung der Pipeline werden in Dataflow möglicherweise mehrere Schritte zusammengeführt.
Auf dem Tab Ausführungsdetails der Dataflow-Monitoring-Oberfläche werden Informationen zu den Phasen eines Jobs angezeigt. Auf dem Tab Ausführungsdetails können Sie Leistungsprobleme beheben, z. B.:
- Langsame Phasen, die zu Leistungsengpässen führen
- Festgefahrene Phasen, die nicht fortgesetzt werden
- Worker-VMs, die hinter anderen Workern zurückbleiben
Ausführungsdetails ansehen
So rufen Sie die Ausführungsdetails für einen Job auf:
Rufen Sie in der Google Cloud Console die Seite Dataflow > Jobs auf.
Wählen Sie einen Job aus.
Klicken Sie auf den Tab Ausführungsdetails.
Wählen Sie eine der folgenden Ansichten aus:
- Phasenfortschritt
- Phasen-Workflow
- Worker-Fortschritt (nur Batchjobs)
In den folgenden Abschnitten werden die einzelnen Ansichten beschrieben.
Ansicht mit Phasenfortschritt
In der Ansicht Phasenfortschritt können Sie den Gesamtfortschritt des Jobs beobachten und den relativen Fortschritt zwischen den Phasen vergleichen. Das Layout der Ansicht Phasenfortschritt unterscheidet sich zwischen Batch- und Streamingjobs.
Phasenfortschritt für Batchjobs
Bei Batchjobs werden in der Ansicht Phasenfortschritt die Jobphasen in der Reihenfolge ihrer Startzeiten angezeigt. Für jede Phase werden die folgenden Elemente angezeigt:
- Eine Leiste mit Start- und Endzeit.
- Ein Liniendiagramm, das den Fortschritt der Phase im Zeitverlauf als Prozentsatz der gesamten Arbeit der Phase anzeigt.
- Die Gesamtzeit in der Phase.
Klicken Sie auf Phasen filtern, um die angezeigten Phasen zu filtern. Wenn Sie den kritischen Pfad sehen möchten, aktivieren Sie die Option Kritischer Pfad. Der kritische Pfad ist die Abfolge von Phasen, die zur Gesamtlaufzeit des Jobs beitragen. Ausgeschlossen werden beispielsweise Zweige, die früher als der Gesamtjob abgeschlossen wurden, und Eingaben, die die nachgelagerte Verarbeitung nicht verzögert haben.
Im Bereich Phaseninformationen finden Sie detailliertere Informationen zu einer Phase. Klicken Sie auf die Fortschrittsanzeige einer Phase, um die Details aufzurufen. Im Bereich Phaseninformationen werden die folgenden Informationen zu einer Phase angezeigt:
- Status
- Fortschritt als Prozentsatz
- Start- und Endzeiten
- Die Pipelineschritte, die diese Phase umfassen
- Langsamste Schritte nach Echtzeit
- Details zu Nachzüglern
Wenn das Steuerfeld nicht sichtbar ist, klicken Sie auf
und dann auf Steuerfeld „Bühneninfo“ ein-/ausblenden.Phasenfortschritt für Streamingjobs
Bei Streamingjobs enthält die Ansicht Phasenfortschritt zwei Visualisierungen der Datenaktualität. Die Datenaktualität ist die Differenz zwischen dem Zeitstempel eines Datenelements und dem Zeitpunkt, zu dem das Element verarbeitet wird. Je höher der Wert, desto länger dauert es, die Eingabedaten in der Pipeline zu verarbeiten.
Die erste Visualisierung zeigt die Datenaktualität pro Phase als Liniendiagramm. Wenn Sie die Datenaktualität zu einem bestimmten Zeitpunkt sehen möchten, bewegen Sie den Mauszeiger auf die Grafik. Verwenden Sie die Zeitauswahl, um den Zeitraum auszuwählen, oder klicken Sie auf das Diagramm und ziehen Sie den Mauszeiger, um den Zeitraum auszuwählen. Klicken Sie auf Phasen filtern, um die angezeigten Phasen zu filtern.
Das Diagramm hebt auch Anomalien in den Daten hervor:
- Potenzielle Verlangsamung: Die Datenaktualität überschreitet für das ausgewählte Zeitfenster das 95. Perzentil.
- Potenzielles Hängenbleiben: Die Datenaktualität überschreitet für das ausgewählte Zeitfenster das 99. Perzentil.
Die zweite Visualisierung zeigt die Phasen als eine Reihe von Balken. Die Phasen sind in topologischer Reihenfolge angeordnet. Phasen ohne untergeordnete Phasen werden zuerst angezeigt, gefolgt von ihren untergeordneten Phasen. Die Länge der Balken steht für die Datenaktualität. Wenn Sie die Werte für die Datenaktualität an einem bestimmten Punkt sehen möchten, klicken Sie auf die Grafik. Die Balken werden aktualisiert, um die Datenaktualität zum ausgewählten Zeitpunkt anzuzeigen.
Die folgende Abbildung zeigt einen Job mit vier Phasen. Zum ausgewählten Zeitstempel liegt die Datenaktualität zwischen 9 und 13 Sekunden.
Das nächste Bild zeigt denselben Job mit einem anderen Zeitstempel. Die Datenaktualität für alle Phasen beträgt jetzt mehr als 4 Minuten, was darauf hinweist, dass die Pipeline möglicherweise ins Stocken geraten ist.
Im Bereich Phaseninformationen finden Sie detailliertere Informationen zu einer Phase. Klicken Sie auf die Fortschrittsanzeige einer Phase, um die Details aufzurufen. Im Bereich Phaseninformationen werden die folgenden Informationen zu einer Phase angezeigt:
- Status
- Systemlatenz: Die maximale Dauer, die ein Datenelement auf Verarbeitung gewartet hat
- Wasserzeichen für Daten: Die geschätzte Dauer der Dateneingabe für diese Phase.
- Details zu Nachzüglern
- Die Pipelineschritte, die diese Phase umfassen
Wenn das Steuerfeld nicht sichtbar ist, klicken Sie auf
und dann auf Steuerfeld „Bühneninformationen“ ein-/ausblenden.Phasen-Workflow
In der Ansicht Phasen-Workflow werden die Jobphasen als Workflow-Diagramm dargestellt. Klicken Sie auf das Kästchen für eine Phase, um die Details aufzurufen.
Klicken Sie bei Batchjobs auf Kritischer Pfad, um nur die Phasen zu sehen, die direkt zur Gesamtlaufzeit des Jobs beitragen.
Worker-Fortschritt
Bei Batchjobs werden in der Ansicht Worker-Fortschritt die Worker für eine bestimmte Phase angezeigt. Diese Ansicht ist für Streamingjobs nicht verfügbar. Wählen Sie dazu Worker-Fortschritt und dann die Phase unter Worker nach Phase filtern aus. Alternativ können Sie diese Ansicht auch über die Ansicht Phasenfortschritt aktivieren:
- Wählen Sie in der Ansicht Phasenfortschritt die Phase aus, die Sie sich ansehen möchten.
- Bewegen Sie den Mauszeiger auf den Balken für diese Phase.
- Klicken Sie auf der Karte Phase auf Worker ansehen. Die Ansicht Worker-Fortschritt wird mit der vorab ausgewählten Phase angezeigt.
Jeder Balken ist einem Arbeitselement zugeordnet, der für einen Worker geplant ist. Bei jedem Worker finden Sie eine Sparkline, die die CPU-Auslastung auf dem Worker erfasst. Auslastungsprobleme können somit besser erkannt werden.
Nächste Schritte
- Weitere Informationen zur Fehlerbehebung bei langsamen oder hängenden Jobs
- Informationen zu den verschiedenen Komponenten der webbasierten Monitoring-Benutzeroberfläche von Dataflow.