Protokolle und Messwerte für Ray-Cluster in der Google Kubernetes Engine (GKE) erfassen und ansehen


Auf dieser Seite wird beschrieben, wie Sie Google Kubernetes Engine (GKE) so konfigurieren, dass Logs und Messwerte für Ray-Cluster, die in GKE ausgeführt werden, erfasst werden. Außerdem wird beschrieben, wie Sie Ray-Logs und -Messwerte in Cloud Logging und Cloud Monitoring ansehen.

Weitere Informationen zu Ray und KubeRay finden Sie unter Übersicht über Ray in Google Kubernetes Engine (GKE).

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Anforderungen und Einschränkungen

  • Sie müssen das System- und Arbeitslast-Logging in einem vorhandenen GKE-Cluster aktivieren, bevor Sie die Logerfassung für Ray-Cluster aktivieren können.
  • Wenn Sie die Logerfassung für Ray-Cluster in einem vorhandenen GKE-Cluster aktivieren, erfasst GKE nur Logs von neu erstellten Ray-Pods, nicht von vorhandenen Ray-Pods.
  • Für Standard-GKE-Cluster müssen Sie Google Cloud Managed Service for Prometheus aktivieren, um die Messwerterfassung für Ray-Cluster zu aktivieren. Für Autopilot-Cluster ist Google Cloud Managed Service for Prometheus standardmäßig aktiviert.
  • Sie dürfen in keinem Ray-Container im Ray-Cluster ein Volume mit dem Namen ray-logs angeben. Andernfalls werden keine Logs in GKE erfasst.

Logerfassung für einen Ray-Cluster aktivieren

Sie können die Logerfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren. Die Ray-Logs, die GKE aus Ray-Clustern erfasst, werden als Containerlogs klassifiziert. Dazu gehören alle Logs, die von den Head- und Worker-Knoten des Ray-Clusters erstellt werden.

Sie können die Erfassung von Logs für Ray-Cluster über die Google Cloud Console oder die gcloud CLI aktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf  Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Abschnitt Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Logs für Ray-Cluster erfassen aus.

  6. Klicken Sie auf Erstellen.

Für Standardcluster müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • LOCATION: Der Standort des neuen Clusters, z. B. „us-central1“.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster aktivieren, indem Sie den Befehl gcloud container clusters update mit der Option --addons=RayOperator und der Option --enable-ray-cluster-logging verwenden.

Ray-Logs ansehen

Sie können Logs, die von Ray-Clustern erfasst wurden, die in GKE ausgeführt werden, mit Logging ansehen.

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Logging auf.

    Zu Cloud Logging

  2. Öffnen Sie den Abfrageeditor und fügen Sie den Ausdruck ein.

  3. Klicken Sie auf Abfrage ausführen.

Sie können die folgenden Beispielabfragen im Log-Explorer verwenden:

Abfrage-/Filtername Ausdruck
Alle Ray-Logs
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Alle Ray-Head-Logs
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Alle Logs in einem Ray-Cluster
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Alle Logs eines Ray-Jobs
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Messwerterfassung für einen Ray-Cluster aktivieren

Sie können die Messwerterfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren.

Nachdem Sie die Messwerterfassung für Ray-Cluster aktiviert haben, erfasst GKE Messwerte aus vorhandenen und neuen Ray-Clustern. GKE erfasst alle von Ray exportierten Systemmesswerte im Prometheus-Format.

Sie können die Erfassung von Messwerten für Ray-Cluster mit derGoogle Cloud -Konsole oder der gcloud CLI aktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf  Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Abschnitt Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray Operator aktivieren und dann Messwerterfassung für Ray-Cluster aktivieren aus.

  6. Klicken Sie auf Erstellen.

Für Standardcluster müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • LOCATION: Der Standort des neuen Clusters, z. B. „us-central1“.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster aktivieren, indem Sie den Befehl gcloud container clusters update mit der Option --addons=RayOperator und der Option --enable-ray-cluster-monitoring verwenden.

Ray-Messwerte ansehen

Google Cloud Managed Service for Prometheus bietet ein vorkonfiguriertes Ray on GKE Overview-Dashboard, das eine zentrale Ansicht der wichtigsten Ray-Messwerte bietet. Dies ist die empfohlene Methode, um schnell mit der Überwachung Ihrer Ray-Cluster in GKE zu beginnen.

Zum Dashboard „Ray on GKE Overview“

Das Dashboard wird automatisch mit Daten gefüllt, wenn Sie die Messwerterfassung für Ihren Ray-Cluster aktivieren.

Wenn Sie einzelne Messwerte untersuchen möchten, die von Ray-Clustern erfasst werden, die in GKE ausgeführt werden, führen Sie die folgenden Schritte aus:

  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zum Metrics Explorer

  2. Im Feld Messwert auswählen können Sie nach Ray-spezifischen Messwerten suchen. Diesen Messwerten wird in der Regel das Präfix prometheus/ray_ vorangestellt. Beispiele: prometheus/ray_worker_cpu_seconds_total oder prometheus/ray_memory_bytes_max.

  3. Sie können Ihre Suche weiter eingrenzen, indem Sie den entsprechenden Ressourcentyp (z. B. k8s_pod, k8s_container) auswählen und nach Labels filtern, die für Ihren Ray-Cluster relevant sind (z. B. ray.io/cluster).

Nächste Schritte