Auf dieser Seite wird beschrieben, wie Sie den Tab Ausführungsdetails in der Dataflow-Monitoring-Oberfläche verwenden.
Übersicht
Wenn Dataflow einen Job ausführt, werden die Schritte der Pipeline in Phasen umgewandelt. Während jeder Schritt eine einzelne Transformation darstellt, ist eine Phase eine einzelne Arbeitseinheit, die von Dataflow ausgeführt wird. Zur Optimierung der Pipeline kann Dataflow mehrere Schritte zusammenfassen.
Auf dem Tab Ausführungsdetails in der Dataflow-Monitoring-Oberfläche werden Informationen zu den Phasen eines Jobs angezeigt. Auf dem Tab Ausführungsdetails können Sie Leistungsprobleme beheben, z. B.:
- Langsame Phasen, die Leistungsengpässe verursachen
- Phasen, die nicht voranschreiten
- Worker-VMs, die hinter anderen Workern zurückbleiben
Ausführungsdetails ansehen
So rufen Sie die Ausführungsdetails für einen Job auf:
Rufen Sie in der Google Cloud Console die Seite Dataflow > Jobs auf.
Wählen Sie einen Job aus.
Klicken Sie auf den Tab Ausführungsdetails.
Wählen Sie eine der folgenden Ansichten aus:
- Phasenfortschritt
- Workflow für die Bereitstellung
- Worker-Fortschritt (nur Batchjobs)
In den folgenden Abschnitten werden die einzelnen Ansichten beschrieben.
Ansicht mit Phasenfortschritt
In der Ansicht Phasenfortschritt können Sie den Gesamtfortschritt des Jobs beobachten und den relativen Fortschritt zwischen den Phasen vergleichen. Das Layout der Ansicht Phasenfortschritt unterscheidet sich zwischen Batch- und Streamingjobs.
Phasenfortschritt für Batchjobs
Für Batchjobs werden in der Ansicht Phasenfortschritt die Jobphasen in der Reihenfolge ihrer Startzeiten angezeigt. Für jede Phase werden die folgenden Elemente angezeigt:
- Eine Leiste mit den Stopp- und Endzeiten.
- Ein Liniendiagramm, das den Fortschritt der Phase im Zeitverlauf als Prozentsatz der Gesamtarbeit der Phase darstellt.
- Die insgesamt in der Phase verbrachte Zeit.
Wenn Sie filtern möchten, welche Phasen angezeigt werden, klicken Sie auf Phasen filtern. Wenn Sie den kritischen Pfad sehen möchten, aktivieren Sie die Ein/Aus-Schaltfläche Kritischer Pfad. Der kritische Pfad ist die Abfolge von Phasen, die zur Gesamtlaufzeit des Jobs beitragen. So werden beispielsweise Zweige ausgeschlossen, die früher als der Gesamtjob abgeschlossen wurden, und Eingaben, die die nachgelagerte Verarbeitung nicht verzögert haben.
Im Bereich Phaseninformationen werden detailliertere Informationen zu einer Phase angezeigt. Wenn Sie die Details für eine Phase aufrufen möchten, klicken Sie auf den Fortschrittsbalken für diese Phase. Im Bereich Phaseninformationen werden die folgenden Informationen zu einer Phase angezeigt:
- Status
- Fortschritt als Prozentsatz
- Start- und Endzeiten
- Die Pipeline-Schritte, die diese Phase umfasst
- Die langsamsten Schritte nach Echtzeit
- Details zu Nachzüglern
Wenn das Feld nicht sichtbar ist, klicken Sie auf
Feld „Bühneninfo“ ein-/ausblenden.Phasenfortschritt für Streamingjobs
Für Streamingjobs enthält die Ansicht Phasenfortschritt zwei Visualisierungen der Datenaktualität. Die Datenaktualität ist die Differenz zwischen dem Zeitstempel eines Datenelements und dem Zeitpunkt, zu dem das Element verarbeitet wird. Größere Werte bedeuten, dass die Verarbeitung der Eingabedaten in der Pipeline länger dauert.
Die erste Visualisierung zeigt die Datenaktualität pro Phase als Liniendiagramm. Wenn Sie die Datenaktualität zu einem bestimmten Zeitpunkt sehen möchten, bewegen Sie den Mauszeiger über das Diagramm. Verwenden Sie die Zeitauswahl, um den Zeitraum auszuwählen. Alternativ können Sie auch auf das Diagramm klicken und den gewünschten Zeitraum auswählen, indem Sie den Mauszeiger ziehen. Wenn Sie filtern möchten, welche Phasen angezeigt werden, klicken Sie auf Phasen filtern.
Das Diagramm hebt auch Anomalien in den Daten hervor:
- Potenzielle Verlangsamung: Die Datenaktualität überschreitet das 95. Perzentil für den ausgewählten Zeitraum.
- Potenzielles Hängenbleiben: Die Datenaktualität überschreitet für das ausgewählte Zeitfenster das 99. Perzentil.
In der zweiten Visualisierung werden die Phasen als eine Reihe von Balken dargestellt. Die Phasen sind in topologischer Reihenfolge angeordnet. Phasen ohne untergeordnete Phasen werden zuerst angezeigt, gefolgt von ihren untergeordneten Phasen. Die Länge der Balken steht für die Datenaktualität. Wenn Sie die Werte für die Datenaktualität zu einem bestimmten Zeitpunkt sehen möchten, klicken Sie auf das Diagramm. Die Balken werden aktualisiert und zeigen die Datenaktualität zum ausgewählten Zeitpunkt an.
Das folgende Bild zeigt einen Job mit vier Phasen. Zum ausgewählten Zeitstempel beträgt die Datenaktualität zwischen 9 und 13 Sekunden.
Das nächste Bild zeigt denselben Job mit einem anderen ausgewählten Zeitstempel. An diesem Punkt überschreitet die Datenaktualität für alle Phasen 4 Minuten. Das deutet darauf hin, dass die Pipeline möglicherweise nicht mehr reagiert.
Im Bereich Phaseninformationen werden detailliertere Informationen zu einer Phase angezeigt. Wenn Sie die Details für eine Phase aufrufen möchten, klicken Sie auf den Fortschrittsbalken für diese Phase. Im Bereich Phaseninformationen werden die folgenden Informationen zu einer Phase angezeigt:
- Status
- Systemverzögerung: Die maximale Dauer, die ein Datenelement auf die Verarbeitung gewartet hat
- Daten-Wasserzeichen: Die geschätzte Dauer der Dateneingabe für diese Phase
- Details zu Nachzüglern
- Die Pipeline-Schritte, die diese Phase umfasst
Wenn das Feld nicht sichtbar ist, klicken Sie auf
Feld „Bühneninfo“ ein-/ausblenden.Phasen-Workflow
In der Ansicht Phasenworkflow werden die Jobphasen als Workflowgrafik dargestellt. Wenn Sie die Details für eine Phase aufrufen möchten, klicken Sie auf das Kästchen für diese Phase.
Klicken Sie bei Batchjobs auf Kritischer Pfad, um nur die Phasen aufzurufen, die direkt zur Gesamtlaufzeit des Jobs beitragen.
Worker-Fortschritt
Für Batchjobs werden in der Ansicht Worker-Fortschritt die Worker für eine bestimmte Phase angezeigt. Diese Ansicht ist für Streaming-Jobs nicht verfügbar. Um auf diese Ansicht zuzugreifen, wählen Sie Worker-Fortschritt und dann die Phase unter Worker nach Phase filtern aus. Alternativ können Sie diese Ansicht auch über die Ansicht Phasenfortschritt aktivieren:
- Suchen Sie in der Ansicht Phasenfortschritt die Phase, die Sie sich ansehen möchten.
- Bewegen Sie den Mauszeiger über den Balken für diese Phase.
- Klicken Sie auf der Karte Phase auf Worker ansehen. Die Ansicht Worker-Fortschritt wird mit der vorausgewählten Phase angezeigt.
Jeder Balken ist einem Arbeitselement zugeordnet, der für einen Worker geplant ist. Unter jedem Worker finden Sie eine Sparkline, die die CPU-Auslastung auf dem Worker erfasst. Auslastungsprobleme können somit besser erkannt werden.
Nächste Schritte
- Weitere Informationen zur Fehlerbehebung bei langsamen oder hängenden Jobs
- Informationen zu den verschiedenen Komponenten der webbasierten Monitoring-Benutzeroberfläche von Dataflow.