Raccogliere e visualizzare log e metriche per i cluster Ray su Google Kubernetes Engine (GKE)


Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e le metriche dei cluster Ray in esecuzione su Google Kubernetes Engine (GKE), nonché come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.

Per ulteriori informazioni su Ray e KubeRay, consulta la panoramica di Ray su Google Kubernetes Engine (GKE).

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:

  • Attiva l'API Google Kubernetes Engine.
  • Attiva l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installa e poi inizializza gcloud CLI. Se hai già installato l'interfaccia a riga di comando gcloud, ottieni la versione più recente eseguendo gcloud components update.

Requisiti e limitazioni

  • Devi abilitare il logging di sistema e dei workload su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
  • Se attivi la raccolta dei log per i cluster Ray su un cluster GKE esistente, GKE raccoglie i log solo dai pod Ray appena creati, non da quelli esistenti.
  • Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per attivare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è attivato per impostazione predefinita.
  • Non devi specificare un volume denominato ray-logs in nessun contenitore Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.

Abilita la raccolta dei log per un cluster Ray

Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. I log Ray raccolti da GKE dai cluster Ray sono classificati come log dei container. Sono inclusi tutti i log generati dall'intestazione del cluster Ray e dai nodi worker.

Puoi abilitare la raccolta dei log per i cluster Ray utilizzando la Google Cloud console o la gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella Google Cloud console.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea e poi sulla sezione Standard o Autopilot e fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta dei log per i cluster Ray.

  6. Fai clic su Crea.

Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • LOCATION: la posizione del nuovo cluster, ad esempio us-central1.

Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update con l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging.

Visualizza i log di Ray

Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.

  1. Vai alla pagina Cloud Logging nella Google Cloud console.

    Vai a Cloud Logging

  2. Apri l'editor di query e incolla l'espressione

  3. Fai clic su Esegui query.

Puoi utilizzare le seguenti query di esempio in Esplora log:

Nome della query/del filtro Espressione
Tutti i log di Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Tutti i log di Ray Head
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Tutti i log in un cluster Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Tutti i log di un job Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Abilita la raccolta delle metriche per un cluster Ray

Puoi attivare la raccolta delle metriche per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti.

Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie le metriche dai cluster Ray esistenti e dai nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray nel formato Prometheus.

Puoi attivare la raccolta delle metriche per i cluster Ray utilizzando la consoleGoogle Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella Google Cloud console.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea e poi sulla sezione Standard o Autopilot e fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta delle metriche per i cluster Ray.

  6. Fai clic su Crea.

Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • LOCATION: la posizione del nuovo cluster, ad esempio us-central1.

Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update con l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-monitoring.

Visualizzare le metriche di Ray

Google Cloud Managed Service per Prometheus fornisce una dashboard preconfigurata Panoramica di Ray su GKE che offre una visualizzazione centralizzata delle metriche chiave di Ray. Questo è il modo consigliato per iniziare rapidamente a monitorare i cluster Ray su GKE.

Vai alla dashboard Panoramica di Ray su GKE

La dashboard viene compilata automaticamente quando attivi la raccolta delle metriche per il tuo cluster Ray.

In alternativa, se vuoi esplorare le singole metriche raccolte dai cluster Ray in esecuzione su GKE:

  1. Vai alla pagina Esplora metriche nella Google Cloud console.

    Vai a Esplora metriche

  2. Nel campo Seleziona una metrica, puoi cercare le metriche specifiche di Ray. A queste metriche viene in genere anteposto il prefisso prometheus/ray_. Ecco alcuni esempi: prometheus/ray_worker_cpu_seconds_total o prometheus/ray_memory_bytes_max.

  3. Puoi perfezionare ulteriormente la ricerca selezionando il tipo di risorsa appropriato (ad es. k8s_pod, k8s_container) e filtrando in base alle etichette pertinenti al tuo cluster Ray (ad es. ray.io/cluster).

Passaggi successivi