Protokolle und Messwerte für Ray-Cluster in der Google Kubernetes Engine (GKE) erfassen und ansehen


Auf dieser Seite erfahren Sie, wie Sie die Google Kubernetes Engine (GKE) so konfigurieren, dass Protokolle und Messwerte für Ray-Cluster erfasst werden, die in der Google Kubernetes Engine (GKE) ausgeführt werden. Außerdem wird beschrieben, wie Sie Ray-Protokolle und ‑Messwerte in Cloud Logging und Cloud Monitoring aufrufen.

Weitere Informationen zu Ray und KubeRay finden Sie unter Ray in der Google Kubernetes Engine (GKE).

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Anforderungen und Einschränkungen

  • Sie müssen das System- und Arbeitslast-Logging in einem vorhandenen GKE-Cluster aktivieren, bevor Sie die Protokollerhebung für Ray-Cluster aktivieren.
  • Wenn Sie die Logerfassung für Ray-Cluster in einem vorhandenen GKE-Cluster aktivieren, erfasst GKE nur Logs von neu erstellten Ray-Pods, nicht von vorhandenen Ray-Pods.
  • Bei GKE-Standardclustern müssen Sie Google Cloud Managed Service for Prometheus aktivieren, um die Messwerterfassung für Ray-Cluster zu aktivieren. Bei Autopilot-Clustern ist Google Cloud Managed Service for Prometheus standardmäßig aktiviert.
  • Sie dürfen kein Volume mit dem Namen ray-logs in einem Ray-Container im Ray-Cluster angeben. Andernfalls werden in GKE keine Protokolle erfasst.

Logerfassung für einen Ray-Cluster aktivieren

Sie können die Protokollerfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren. Die Ray-Protokolle, die GKE aus Ray-Clustern erfasst, werden als Containerprotokolle klassifiziert. Dazu gehören alle Protokolle, die vom Ray-Cluster-Header und den Worker-Knoten erstellt werden.

Sie können die Protokollerfassung für Ray-Cluster über die Google Cloud Console oder die gcloud CLI aktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Protokollerhebung für Ray-Cluster aktivieren aus.

  6. Klicken Sie auf Erstellen.

Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • LOCATION: den Standort des neuen Clusters, z. B. us-central1.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update und den Optionen --addons=RayOperator und --enable-ray-cluster-logging aktivieren.

Ray-Logs ansehen

Mit Logging können Sie sich Logs ansehen, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden.

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Logging auf.

    Zu Cloud Logging

  2. Öffnen Sie den Abfrageeditor und fügen Sie den Ausdruck ein.

  3. Klicken Sie auf Abfrage ausführen.

Sie können die folgenden Beispielabfragen im Log-Explorer verwenden:

Abfrage-/Filtername Ausdruck
Alle Ray-Logs
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Alle Ray-Head-Logs
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Alle Protokolle in einem Ray-Cluster
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Alle Protokolle eines Ray-Jobs
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Messwerterfassung für einen Ray-Cluster aktivieren

Sie können die Messwerterfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren.

Nachdem Sie die Messwerterfassung für Ray-Cluster aktiviert haben, erfasst GKE Messwerte aus vorhandenen und neuen Ray-Clustern. GKE erfasst alle von Ray im Prometheus-Format exportierten Systemmesswerte.

Sie können die Erfassung von Messwerten für Ray-Cluster mit derGoogle Cloud -Console oder der gcloud CLI aktivieren.

Console

  1. Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Messwerterfassung für Ray-Cluster aktivieren aus.

  6. Klicken Sie auf Erstellen.

Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • LOCATION: den Standort des neuen Clusters, z. B. us-central1.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update und den Optionen --addons=RayOperator und --enable-ray-cluster-monitoring aktivieren.

Ray-Messwerte ansehen

Google Cloud Managed Service for Prometheus bietet ein vorkonfiguriertes Dashboard Ray on GKE Overview (Ray in GKE – Übersicht), das eine zentrale Ansicht wichtiger Ray-Messwerte bietet. Dies ist die empfohlene Methode, um schnell mit dem Überwachen Ihrer Ray-Cluster in GKE zu beginnen.

Dashboard „Ray on GKE“ aufrufen

Das Dashboard wird automatisch ausgefüllt, wenn Sie die Messwerterfassung für Ihren Ray-Cluster aktivieren.

Wenn Sie sich einzelne Messwerte ansehen möchten, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden, gehen Sie so vor:

  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zum Metrics Explorer

  2. Im Feld Messwert auswählen können Sie nach Ray-spezifischen Messwerten suchen. Diese Messwerte haben in der Regel das Präfix prometheus/ray_. Beispiele sind prometheus/ray_worker_cpu_seconds_total oder prometheus/ray_memory_bytes_max.

  3. Sie können die Suche weiter eingrenzen, indem Sie den entsprechenden Ressourcentyp auswählen (z. B. k8s_pod oder k8s_container) und nach Labels filtern, die für Ihren Ray-Cluster relevant sind (z. B. ray.io/cluster).

Nächste Schritte