Auf dieser Seite erfahren Sie, wie Sie die mit Ihren Ray-Clustern verknüpften Tracking-Logs aufrufen und die Ray in Vertex AI-Messwerte überwachen. Außerdem erhalten Sie eine Anleitung zum Debuggen von Ray-Clustern.
Logs ansehen
Wenn Sie mit Ihrem Ray in Vertex AI Aufgaben ausführen, werden Tracking-Logs automatisch generiert und sowohl in Cloud Logging als auch im Open-Source-Ray-Dashboard gespeichert. In diesem Abschnitt wird beschrieben, wie Sie über die Google Cloud Console auf die generierten Logs zugreifen.
Lesen Sie zuerst die Ray in Vertex AI-Übersicht und richten Sie alle erforderlichen Tools ein.Ray OSS-Dashboard
Sie können die Open-Source-Ray-Logdateien über das Ray-OSS-Dashboard aufrufen:
Rufen Sie in der Google Cloud Console die Seite „Ray in Vertex AI“ auf.
Wählen Sie in der Zeile für den von Ihnen erstellten Cluster das Dreipunkt-Menü
Weitere Aktionen aus.Wählen Sie den Link zum Ray OSS-Dashboard aus. Das Dashboard wird in einem anderen Tab geöffnet.
Gehen Sie oben rechts im Menü zur Ansicht Logs:
Klicken Sie auf die einzelnen Knoten, um die zugehörigen Protokolldateien aufzurufen.
Cloud Logging Console
-
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Logging ist.
Wählen Sie ein vorhandenes Google Cloud-Projekt, einen Ordner oder eine Organisation aus.
Um alle Ray-Logs anzuzeigen, geben Sie die folgende Abfrage in das Feld des Abfrageeditors ein und klicken Sie dann auf Abfrage ausführen:
resource.labels.task_name="ray-cluster-logs"
Wenn Sie die Logs auf einen bestimmten Ray-Cluster beschränken möchten, fügen Sie der Abfrage die folgende Zeile hinzu und klicken Sie dann auf Abfrage ausführen:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
Ersetzen Sie CLUSTER_NAME durch den Namen Ihres Ray-Clusters. Rufen Sie in der Google Cloud Console Vertex AI > Ray in Vertex AI auf. Dort sehen Sie eine Liste der Clusternamen in jeder Region.
Wenn Sie die Logs weiter auf eine bestimmte Logdatei wie
raylet.out
beschränken möchten, klicken Sie auf Logfelder -> Logname.Sie können ähnliche Logeinträge gruppieren:
Klicken Sie in den Abfrageergebnissen auf einen Logeintrag, um das Log zu maximieren.
Klicken Sie in
jsonPayload
auf den Werttailed_path
. Ein Drop-down-Menü wird angezeigt.Klicken Sie auf Übereinstimmende Einträge anzeigen.
Logs deaktivieren
Cloud Logging für Ray in Vertex AI ist standardmäßig aktiviert.
Wenn Sie den Export von Ray-Protokollen in Cloud Logging deaktivieren möchten, verwenden Sie den folgenden Befehl des Vertex AI SDK für Python:
vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
Sie können die Ray-Protokolldateien im Ray-Dashboard aufrufen, auch wenn die Cloud Logging-Funktion für Ray in Vertex AI deaktiviert ist.
Messwerte überwachen
Mit Google Cloud Monitoring (GCM) können Sie sich die Ray-Messwerte in Vertex AI auf unterschiedliche Weise ansehen. Alternativ können Sie die Messwerte aus GCM in Ihren eigenen Grafana-Server exportieren.
Messwerte in GCM überwachen
Es gibt zwei Möglichkeiten, die Ray in Vertex AI-Messwerte in GCM aufzurufen.
- Verwenden Sie die direkte Ansicht unter Metrics Explorer.
Importieren Sie das Grafana-Dashboard.
Metrics Explorer
So verwenden Sie die direkte Ansicht im Metrics Explorer:
- Gehen Sie zur Google Cloud Monitoring-Konsole.
- Wählen Sie Erkunden > Metrics Explorer aus.
- Wählen Sie unter Aktive Ressourcen die Option Prometheus-Ziel aus. Die Option Aktive Messwertkategorien wird angezeigt.
Wählen Sie Ray aus.
Es wird eine Liste mit Messwerten angezeigt:
- Wählen Sie die Messwerte aus, die Sie überwachen möchten. Beispiel:
- Wählen Sie den Prozentsatz der CPU-Auslastung als zu überwachenden Messwert aus:
- Filter auswählen. Wählen Sie beispielsweise Cluster aus:
Verwenden Sie die Cluster-ID, um nur die obigen Messwerte für einen bestimmten Cluster zu überwachen. So finden Sie Ihre Cluster-ID:Öffnen Sie in der Google Cloud Console die Seite Ray.
- Sie müssen sich in dem Projekt befinden, in dem Sie den Test erstellen möchten.
- Unter Name wird eine Liste der Cluster-IDs angezeigt.
- Wählen Sie die Methode Aggregation aus, um die Messwerte aufzurufen. Sie können sich also nicht aggregierte Messwerte ansehen, die die CPU-Auslastung jedes Ray-Prozesses anzeigen:
- Wählen Sie den Prozentsatz der CPU-Auslastung als zu überwachenden Messwert aus:
GCM-Dashboard
Wenn Sie ein Grafana-Dashboard für Ray on Vertex AI importieren möchten, folgen Sie der Anleitung unter Eigenes Grafana-Dashboard importieren.
Sie benötigen lediglich eine JSON-Datei für ein Grafana-Dashboard. OSS Ray unterstützt diese manuelle Einrichtung, indem die Standard-Dashboard-Grafana-JSON-Datei bereitgestellt wird.
Messwerte von nutzereigenen Grafana überwachen
Wenn Sie bereits einen Grafana-Server ausführen, können Sie alle Prometheus-Messwerte des Ray-Clusters in Vertex AI auch auf Ihren vorhandenen Grafana-Server exportieren. Folgen Sie dazu der Anleitung unter Abfragen mit Grafana. So können Sie Ihrem vorhandenen Grafana-Server eine neue Grafana-Datenquelle hinzufügen und die neue Grafana Prometheus-Datenquelle mit Ray on Vertex AI-Messwerten synchronisieren.
Sie müssen die neu hinzugefügte Grafana-Datenquelle mit dem Datenquellen-Synchronizer konfigurieren und authentifizieren. Folgen Sie der Anleitung unter Grafana-Datenquelle konfigurieren und authentifizieren.
Nach der Synchronisierung können Sie beliebige Dashboards basierend auf den Ray in Vertex AI-Messwerten erstellen und hinzufügen.
Die Messwerterfassung für Ray in Vertex AI ist standardmäßig aktiviert. So deaktivieren Sie sie mit dem Vertex AI SDK für Python:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
Ray-Cluster debuggen
Verwenden Sie die interaktive Shell des Hauptknotens, um Ray-Cluster zu debuggen:
Google Cloud Console
So greifen Sie auf die Interaktive Shell des Hauptknotens zu:
- Rufen Sie in der Google Cloud Console die Seite Ray in Vertex AI auf.
Ray in Vertex AI aufrufen - Achten Sie darauf, dass Sie sich im richtigen Projekt befinden.
- Wählen Sie den Cluster aus, den Sie untersuchen möchten. Der Bereich Allgemeine Informationen wird angezeigt.
- Klicken Sie im Bereich Zugriffslinks auf den Link für die Interaktive Shell des Hauptknotens. Die interaktive Shell des Hauptknotens wird angezeigt.
- Folgen Sie der Anleitung unter Training mit interaktiver Shell überwachen und Fehler beheben.