Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e le metriche dei cluster Ray in esecuzione su Google Kubernetes Engine (GKE), nonché come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.
Per ulteriori informazioni su Ray e KubeRay, consulta la panoramica di Ray su Google Kubernetes Engine (GKE).
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:
- Attiva l'API Google Kubernetes Engine. Attiva l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
installa e poi
inizializza gcloud CLI. Se hai già installato l'interfaccia a riga di comando gcloud, ottieni la versione più recente eseguendo
gcloud components update
.
Requisiti e limitazioni
- Devi abilitare il logging di sistema e dei workload su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
- Se attivi la raccolta dei log per i cluster Ray su un cluster GKE esistente, GKE raccoglie i log solo dai pod Ray appena creati, non da quelli esistenti.
- Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per attivare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è attivato per impostazione predefinita.
- Non devi specificare un volume denominato
ray-logs
in nessun contenitore Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.
Abilita la raccolta dei log per un cluster Ray
Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. I log Ray raccolti da GKE dai cluster Ray sono classificati come log dei container. Sono inclusi tutti i log generati dall'intestazione del cluster Ray e dai nodi worker.
Puoi abilitare la raccolta dei log per i cluster Ray utilizzando la Google Cloud console o la gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella Google Cloud console.
Fai clic su
Crea e poi sulla sezione Standard o Autopilot e fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta dei log per i cluster Ray.
Fai clic su Crea.
Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.LOCATION
: la posizione del nuovo cluster, ad esempio us-central1.
Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione --enable-ray-cluster-logging
.
Visualizza i log di Ray
Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.
Vai alla pagina Cloud Logging nella Google Cloud console.
Apri l'editor di query e incolla l'espressione
Fai clic su Esegui query.
Puoi utilizzare le seguenti query di esempio in Esplora log:
Nome della query/del filtro | Espressione |
---|---|
Tutti i log di Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tutti i log di Ray Head | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tutti i log in un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tutti i log di un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Abilita la raccolta delle metriche per un cluster Ray
Puoi attivare la raccolta delle metriche per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti.
Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie le metriche dai cluster Ray esistenti e dai nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray nel formato Prometheus.
Puoi attivare la raccolta delle metriche per i cluster Ray utilizzando la consoleGoogle Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella Google Cloud console.
Fai clic su
Crea e poi sulla sezione Standard o Autopilot e fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta delle metriche per i cluster Ray.
Fai clic su Crea.
Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.LOCATION
: la posizione del nuovo cluster, ad esempio us-central1.
Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione --enable-ray-cluster-monitoring
.
Visualizzare le metriche di Ray
Google Cloud Managed Service per Prometheus fornisce una dashboard preconfigurata Panoramica di Ray su GKE che offre una visualizzazione centralizzata delle metriche chiave di Ray. Questo è il modo consigliato per iniziare rapidamente a monitorare i cluster Ray su GKE.
Vai alla dashboard Panoramica di Ray su GKE
La dashboard viene compilata automaticamente quando attivi la raccolta delle metriche per il tuo cluster Ray.
In alternativa, se vuoi esplorare le singole metriche raccolte dai cluster Ray in esecuzione su GKE:
Vai alla pagina Esplora metriche nella Google Cloud console.
Nel campo Seleziona una metrica, puoi cercare le metriche specifiche di Ray. A queste metriche viene in genere anteposto il prefisso
prometheus/ray_
. Ecco alcuni esempi:prometheus/ray_worker_cpu_seconds_total
oprometheus/ray_memory_bytes_max
.Puoi perfezionare ulteriormente la ricerca selezionando il tipo di risorsa appropriato (ad es.
k8s_pod
,k8s_container
) e filtrando in base alle etichette pertinenti al tuo cluster Ray (ad es.ray.io/cluster
).
Passaggi successivi
- Scopri di più su Ray su Kubernetes.
- Consulta la documentazione di KubeRay.