Tools zur Überwachung und Fehlerbehebung von Dataproc

Auf dieser Seite werden die Tools vorgestellt, mit denen Sie Dataproc-Cluster und -Jobs überwachen und Fehler beheben können.

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Open-Source-Plattformen für die verteilte Verarbeitung wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den in den folgenden Abschnitten beschriebenen Dateien und Tools können Sie Probleme mit Ihren Dataproc-Clustern und -Jobs beheben und sie überwachen.

Open-Source-Webschnittstellen

Viele Open-Source-Komponenten von Dataproc-Clustern, z. B. Apache Hadoop und Apache Spark, bieten Weboberflächen. Diese Schnittstellen können verwendet werden, um Clusterressourcen und die Leistung von Jobs zu überwachen. Sie können beispielsweise die YARN Resource Manager-UI verwenden, um die Ressourcenzuweisung für YARN-Anwendungen in einem Dataproc-Cluster anzusehen.

Persistent History Server

Open-Source-Weboberflächen, die auf einem Cluster ausgeführt werden, sind verfügbar, solange der Cluster ausgeführt wird. Sie werden jedoch beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster- und Jobdaten nach dem Löschen eines Clusters ansehen möchten, können Sie einen Persistent History Server (PHS) erstellen.

Beispiel: Sie stellen einen Jobfehler oder eine Verlangsamung fest, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und rufen dann Jobverlaufsdaten über Ihren PHS auf und analysieren sie.

Nachdem Sie einen PHS erstellt haben, aktivieren Sie ihn in einem Dataproc-Cluster oder einer serverlosen Dataproc-Batcharbeitslast, wenn Sie den Cluster erstellen oder die Batcharbeitslast senden. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs in einem Projekt überwachen, anstatt separate Benutzeroberflächen zu überwachen, die in verschiedenen Clustern ausgeführt werden.

Dataproc-Logs

Dataproc erfasst die von Apache Hadoop, Spark, Hive, ZooKeeper und anderen Open-Source-Systemen, die in Ihren Clustern ausgeführt werden, generierten Logs und sendet sie an Cloud Logging. Diese Logs werden nach der Quelle der Logs gruppiert. So können Sie die für Sie interessanten Logs auswählen und ansehen, z. B. YARN NodeManager- und Spark Executor-Logs, die in einem Cluster generiert werden. Weitere Informationen zu Dataproc-Log-Inhalten und -Optionen finden Sie unter Dataproc-Logs.

Cloud Logging

Logging ist ein vollständig verwaltetes System zur Logverwaltung in Echtzeit. Es bietet Speicher für Logs, die von Google Cloud Diensten aufgenommen werden, sowie Tools zum Suchen, Filtern und Analysieren von Logs im großen Maßstab. Dataproc-Cluster generieren mehrere Logs, darunter Dataproc-Dienst-Agent-Logs, Cluster-Start-Logs und OSS-Komponenten-Logs wie YARN NodeManager-Logs.

Logging ist standardmäßig für Dataproc-Cluster und Dataproc Serverless-Batcharbeitslasten aktiviert. Logs werden regelmäßig nach Logging exportiert, wo sie auch nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast erhalten bleiben.

Dataproc-Messwerte

Dataproc-Cluster- und Jobmesswerte mit dem Präfix dataproc.googleapis.com/ bestehen aus Zeitreihendaten, die Aufschluss über die Leistung eines Clusters geben, z. B. CPU-Auslastung oder Jobstatus. Dataproc-benutzerdefinierte Messwerte mit dem Präfix custom.googleapis.com/ enthalten Messwerte, die von Open-Source-Systemen ausgegeben werden, die im Cluster ausgeführt werden, z. B. der YARN-Messwert running applications. Wenn Sie sich einen Überblick über die Dataproc-Messwerte verschaffen, können Sie Ihre Cluster effizient konfigurieren. Wenn Sie metrikbasierte Benachrichtigungen einrichten, können Sie Probleme schnell erkennen und darauf reagieren.

: Verwenden Sie dazu den Metrics Explorer in Monitoring oder den Tab Monitoring auf der Seite Clusterdetails von Dataproc.

Messwerte für Dataproc-Cluster und -Jobs werden standardmäßig kostenlos erfasst. Die Erfassung von benutzerdefinierten Messwerten wird Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte aktivieren, wenn Sie einen Cluster erstellen. Die Erfassung von Spark-Messwerten für Dataproc Serverless ist standardmäßig für Spark-Batcharbeitslasten aktiviert.

Cloud Monitoring

Monitoring verwendet Clustermetadaten und -messwerte, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerten, um Einblick in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und -Jobs zu geben. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen einrichten.

Metrics Explorer

Mit dem Metrics Explorer können Sie Dataproc-Messwerte aufrufen. Dataproc-Cluster-, Job- und serverlose Batchmesswerte werden unter den Ressourcen Cloud Dataproc Cluster, Cloud Dataproc Job und Cloud Dataproc Batch aufgeführt. Benutzerdefinierte Dataproc-Messwerte werden unter der Ressource VM Instances, Kategorie Custom aufgeführt.

Diagramme

Mit Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc-Messwerte visualisiert werden.

Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die auf Ihren Clustern ausgeführt werden, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Clusternamen oder Region auszuwählen.

Dashboards

Sie können Dashboards erstellen, um Dataproc-Cluster und -Jobs anhand von Messwerten aus mehreren Projekten und verschiedenen Google Cloud Produkten zu beobachten. Sie können Dashboards in der Google Cloud Console erstellen. Klicken Sie dazu auf der Seite Dashboards-Übersicht auf der Seite Metrics Explorer auf „Diagramm erstellen“ und speichern Sie das Diagramm.

Benachrichtigungen

Sie können Dataproc-Messwertbenachrichtigungen erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.

Nächste Schritte