Auf dieser Seite wird beschrieben, wie Sie Google Kubernetes Engine (GKE) so konfigurieren, dass Logs und Messwerte für Ray-Cluster, die in GKE ausgeführt werden, erfasst werden. Außerdem wird beschrieben, wie Sie Ray-Logs und -Messwerte in Cloud Logging und Cloud Monitoring ansehen.
Weitere Informationen zu Ray und KubeRay finden Sie unter Übersicht über Ray in Google Kubernetes Engine (GKE).
Hinweise
Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:
- Aktivieren Sie die Google Kubernetes Engine API. Google Kubernetes Engine API aktivieren
- Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit
gcloud components update
ab.
Anforderungen und Einschränkungen
- Sie müssen das System- und Arbeitslast-Logging in einem vorhandenen GKE-Cluster aktivieren, bevor Sie die Logerfassung für Ray-Cluster aktivieren können.
- Wenn Sie die Logerfassung für Ray-Cluster in einem vorhandenen GKE-Cluster aktivieren, erfasst GKE nur Logs von neu erstellten Ray-Pods, nicht von vorhandenen Ray-Pods.
- Für Standard-GKE-Cluster müssen Sie Google Cloud Managed Service for Prometheus aktivieren, um die Messwerterfassung für Ray-Cluster zu aktivieren. Für Autopilot-Cluster ist Google Cloud Managed Service for Prometheus standardmäßig aktiviert.
- Sie dürfen in keinem Ray-Container im Ray-Cluster ein Volume mit dem Namen
ray-logs
angeben. Andernfalls werden keine Logs in GKE erfasst.
Logerfassung für einen Ray-Cluster aktivieren
Sie können die Logerfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren. Die Ray-Logs, die GKE aus Ray-Clustern erfasst, werden als Containerlogs klassifiziert. Dazu gehören alle Logs, die von den Head- und Worker-Knoten des Ray-Clusters erstellt werden.
Sie können die Erfassung von Logs für Ray-Cluster über die Google Cloud Console oder die gcloud CLI aktivieren.
Console
Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.
Klicken Sie auf
Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.Klicken Sie im Navigationsbereich unter Cluster auf Features.
Achten Sie darauf, dass im Abschnitt Vorgänge das Kästchen System und Workloads angeklickt ist.
Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Logs für Ray-Cluster erfassen aus.
Klicken Sie auf Erstellen.
Für Standardcluster müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.
gcloud
Erstellen Sie einen Cluster mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Ersetzen Sie Folgendes:
CLUSTER_NAME
ist der Name des neuen Clusters.LOCATION
: Der Standort des neuen Clusters, z. B. „us-central1“.
Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster aktivieren, indem Sie den Befehl gcloud container clusters update
mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-logging
verwenden.
Ray-Logs ansehen
Sie können Logs, die von Ray-Clustern erfasst wurden, die in GKE ausgeführt werden, mit Logging ansehen.
Rufen Sie in der Google Cloud Console die Seite Cloud Logging auf.
Öffnen Sie den Abfrageeditor und fügen Sie den Ausdruck ein.
Klicken Sie auf Abfrage ausführen.
Sie können die folgenden Beispielabfragen im Log-Explorer verwenden:
Abfrage-/Filtername | Ausdruck |
---|---|
Alle Ray-Logs | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Alle Ray-Head-Logs | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Alle Logs in einem Ray-Cluster | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Alle Logs eines Ray-Jobs | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Messwerterfassung für einen Ray-Cluster aktivieren
Sie können die Messwerterfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren.
Nachdem Sie die Messwerterfassung für Ray-Cluster aktiviert haben, erfasst GKE Messwerte aus vorhandenen und neuen Ray-Clustern. GKE erfasst alle von Ray exportierten Systemmesswerte im Prometheus-Format.
Sie können die Erfassung von Messwerten für Ray-Cluster mit derGoogle Cloud -Konsole oder der gcloud CLI aktivieren.
Console
Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.
Klicken Sie auf
Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.Klicken Sie im Navigationsbereich unter Cluster auf Features.
Achten Sie darauf, dass im Abschnitt Vorgänge das Kästchen System und Workloads angeklickt ist.
Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray Operator aktivieren und dann Messwerterfassung für Ray-Cluster aktivieren aus.
Klicken Sie auf Erstellen.
Für Standardcluster müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.
gcloud
Erstellen Sie einen Cluster mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Ersetzen Sie Folgendes:
CLUSTER_NAME
ist der Name des neuen Clusters.LOCATION
: Der Standort des neuen Clusters, z. B. „us-central1“.
Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster aktivieren, indem Sie den Befehl gcloud container clusters update
mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-monitoring
verwenden.
Ray-Messwerte ansehen
Google Cloud Managed Service for Prometheus bietet ein vorkonfiguriertes Ray on GKE Overview-Dashboard, das eine zentrale Ansicht der wichtigsten Ray-Messwerte bietet. Dies ist die empfohlene Methode, um schnell mit der Überwachung Ihrer Ray-Cluster in GKE zu beginnen.
Zum Dashboard „Ray on GKE Overview“
Das Dashboard wird automatisch mit Daten gefüllt, wenn Sie die Messwerterfassung für Ihren Ray-Cluster aktivieren.
Wenn Sie einzelne Messwerte untersuchen möchten, die von Ray-Clustern erfasst werden, die in GKE ausgeführt werden, führen Sie die folgenden Schritte aus:
Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.
Im Feld Messwert auswählen können Sie nach Ray-spezifischen Messwerten suchen. Diesen Messwerten wird in der Regel das Präfix
prometheus/ray_
vorangestellt. Beispiele:prometheus/ray_worker_cpu_seconds_total
oderprometheus/ray_memory_bytes_max
.Sie können Ihre Suche weiter eingrenzen, indem Sie den entsprechenden Ressourcentyp (z. B.
k8s_pod
,k8s_container
) auswählen und nach Labels filtern, die für Ihren Ray-Cluster relevant sind (z. B.ray.io/cluster
).
Nächste Schritte
- Mehr über Ray in Kubernetes erfahren.
- KubeRay-Dokumentation ansehen.