Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere log e metriche per i cluster Ray in esecuzione su Google Kubernetes Engine (GKE, oltre a come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.
Per ulteriori informazioni su Ray e KubeRay, consulta Panoramica di Ray su Google Kubernetes Engine (GKE).
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:
- Attiva l'API Google Kubernetes Engine. Attiva l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
installala e poi
inizializza
gcloud CLI. Se hai già installato gcloud CLI, scarica l'ultima versione
eseguendo
gcloud components update
.
Requisiti e limitazioni
- Devi abilitare il logging di sistema e dei workload su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
- Se abiliti la raccolta dei log per i cluster Ray su un cluster GKE esistente, GKE raccoglie solo i log dei pod Ray appena creati, non quelli dei pod Ray esistenti.
- Per i cluster GKE Standard, devi abilitare Google Cloud Managed Service per Prometheus per abilitare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è abilitato per impostazione predefinita.
- Non devi specificare un volume denominato
ray-logs
in nessun container Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.
Abilita la raccolta dei log per un cluster Ray
Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. I log di Ray che GKE raccoglie dai cluster Ray sono classificati come log dei container. Sono inclusi tutti i log generati dall'intestazione del cluster Ray e dai nodi worker.
Puoi abilitare la raccolta dei log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud .
Fai clic su
Crea, poi fai clic su Configura nella sezione Standard o Autopilot.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Abilita operatore Ray, quindi seleziona Abilita raccolta log per cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.LOCATION
: la posizione del nuovo cluster, ad esempio us-central1.
Puoi abilitare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando
gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-logging
.
Visualizza i log di Ray
Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.
Vai alla pagina Cloud Logging nella console Google Cloud .
Apri l'editor di query e incolla l'espressione
Fai clic su Esegui query.
Puoi utilizzare le seguenti query di esempio in Esplora log:
Nome query/filtro | Espressione |
---|---|
Tutti i log di Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tutti i log dell'head di Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tutti i log in un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tutti i log di un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Abilita la raccolta delle metriche per un cluster Ray
Puoi abilitare la raccolta delle metriche per i cluster Ray con cluster GKE Autopilot o Standard nuovi o esistenti.
Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie le metriche dai cluster Ray esistenti e dai nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray nel formato Prometheus.
Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando la consoleGoogle Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud .
Fai clic su
Crea, poi fai clic su Configura nella sezione Standard o Autopilot.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Abilita operatore Ray e poi Abilita raccolta delle metriche per i cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.LOCATION
: la posizione del nuovo cluster, ad esempio us-central1.
Puoi abilitare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando
gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-monitoring
.
Visualizza le metriche di Ray
Google Cloud Managed Service per Prometheus fornisce una dashboard Panoramica di Ray su GKE preconfigurata che offre una visualizzazione centralizzata delle metriche chiave di Ray. Questo è il modo consigliato per iniziare rapidamente a monitorare i cluster Ray su GKE.
Vai alla dashboard Panoramica di Ray su GKE
La dashboard viene compilata automaticamente quando attivi la raccolta delle metriche per il cluster Ray.
In alternativa, se vuoi esplorare le singole metriche raccolte dai cluster Ray in esecuzione su GKE, segui questi passaggi:
Vai alla pagina Esplora metriche nella console Google Cloud .
Nel campo Seleziona una metrica, puoi cercare metriche specifiche di Ray. Queste metriche sono in genere precedute dal prefisso
prometheus/ray_
. Alcuni esempi sonoprometheus/ray_worker_cpu_seconds_total
oprometheus/ray_memory_bytes_max
.Puoi perfezionare ulteriormente la ricerca selezionando il tipo di risorsa appropriato (ad esempio,
k8s_pod
,k8s_container
) e filtrando in base alle etichette pertinenti al tuo cluster Ray (ad esempio,ray.io/cluster
).
Passaggi successivi
- Scopri di più su Ray su Kubernetes.
- Esplora la documentazione di KubeRay.