Cette page explique comment configurer Google Kubernetes Engine (GKE) pour collecter des journaux et des métriques pour les clusters Ray exécutés sur Google Kubernetes Engine (GKE), et comment afficher les journaux et les métriques Ray dans Cloud Logging et Cloud Monitoring.
Pour en savoir plus sur Ray et KubeRay, consultez la présentation de Ray sur Google Kubernetes Engine (GKE).
Avant de commencer
Avant de commencer, effectuez les tâches suivantes :
- Activez l'API Google Kubernetes Engine. Activer l'API Google Kubernetes Engine
- Si vous souhaitez utiliser Google Cloud CLI pour cette tâche, installez puis initialisez gcloud CLI. Si vous avez déjà installé gcloud CLI, assurez-vous de disposer de la dernière version en exécutant la commande
gcloud components update
.
Conditions requises et limites
- Vous devez activer la journalisation du système et des charges de travail sur un cluster GKE existant avant d'activer la collecte des journaux pour les clusters Ray.
- Si vous activez la collecte de journaux pour les clusters Ray sur un cluster GKE existant, GKE ne collecte que les journaux des pods Ray nouvellement créés, et non ceux des pods Ray existants.
- Pour les clusters GKE standards, vous devez activer Google Cloud Managed Service pour Prometheus afin d'activer la collecte de métriques pour les clusters Ray. Pour les clusters Autopilot, Google Cloud Managed Service pour Prometheus est activé par défaut.
- Vous ne devez pas spécifier de volume nommé
ray-logs
dans un conteneur Ray du cluster Ray. Sinon, GKE ne collecte pas les journaux.
Activer la collecte de journaux pour un cluster Ray
Vous pouvez activer la collecte de journaux pour les clusters Ray avec des clusters GKE Autopilot ou standards nouveaux ou existants. Les journaux Ray que GKE collecte à partir des clusters Ray sont classés comme journaux de conteneurs. Cela inclut tous les journaux produits par l'en-tête du cluster Ray et les nœuds de travail.
Vous pouvez activer la collecte des journaux pour les clusters Ray à l'aide de la Google Cloud console ou de gcloud CLI.
Console
Accédez à la page Google Kubernetes Engine dans la console Google Cloud .
Cliquez sur
Créer, puis sur Configurer dans la section Standard ou Autopilot.Dans le volet de navigation, sous Cluster, cliquez sur Fonctionnalités.
Dans la section Opérations, assurez-vous que la case Système et charges de travail est cochée.
Dans la section IA et machine learning, sélectionnez Activer l'opérateur Ray, puis Activer la collecte des journaux pour les clusters Ray.
Cliquez sur Créer.
Pour les clusters standards, vous devez également activer Google Cloud Managed Service pour Prometheus.
gcloud
Créez un cluster à l'aide des options --addons=RayOperator
et --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Remplacez les éléments suivants :
CLUSTER_NAME
: nom du nouveau clusterLOCATION
: emplacement du nouveau cluster (par exemple, us-central1).
Vous pouvez activer la collecte de journaux pour les clusters Ray sur un cluster existant à l'aide de la commande gcloud container clusters update
avec les options --addons=RayOperator
et --enable-ray-cluster-logging
.
Afficher les journaux Ray
Vous pouvez afficher les journaux collectés à partir de clusters Ray exécutés sur GKE à l'aide de Logging.
Accédez à la page Cloud Logging dans la console Google Cloud .
Ouvrez l'éditeur de requête et collez votre expression dans l'éditeur de requête.
Cliquez sur Exécuter la requête.
Vous pouvez utiliser les exemples de requêtes suivants dans l'explorateur de journaux :
Nom de la requête/du filtre | Expression |
---|---|
Tous les journaux Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tous les journaux Ray principaux | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tous les journaux d'un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tous les journaux d'un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Activer la collecte de métriques pour un cluster Ray
Vous pouvez activer la collecte de métriques pour les clusters Ray avec des clusters GKE Autopilot ou standards nouveaux ou existants.
Une fois que vous avez activé la collecte de métriques pour les clusters Ray, GKE collecte les métriques des clusters Ray existants et des nouveaux clusters Ray. GKE collecte toutes les métriques système exportées par Ray au format Prometheus.
Vous pouvez activer la collecte de métriques pour les clusters Ray à l'aide de la consoleGoogle Cloud ou de gcloud CLI.
Console
Accédez à la page Google Kubernetes Engine dans la console Google Cloud .
Cliquez sur
Créer, puis sur Configurer dans la section Standard ou Autopilot.Dans le volet de navigation, sous Cluster, cliquez sur Fonctionnalités.
Dans la section Opérations, assurez-vous que la case Système et charges de travail est cochée.
Dans la section IA et machine learning, sélectionnez Activer l'opérateur Ray, puis Activer la collecte de métriques pour les clusters Ray.
Cliquez sur Créer.
Pour les clusters standards, vous devez également activer Google Cloud Managed Service pour Prometheus.
gcloud
Créez un cluster à l'aide des options --addons=RayOperator
et --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Remplacez les éléments suivants :
CLUSTER_NAME
: nom du nouveau clusterLOCATION
: emplacement du nouveau cluster (par exemple, us-central1).
Vous pouvez activer la collecte de journaux pour les clusters Ray sur un cluster existant à l'aide de la commande gcloud container clusters update
avec les options --addons=RayOperator
et --enable-ray-cluster-monitoring
.
Afficher les métriques Ray
Google Cloud Managed Service pour Prometheus fournit un tableau de bord Vue d'ensemble de Ray sur GKE préconfiguré qui offre une vue centralisée des principales métriques Ray. Il s'agit de la méthode recommandée pour commencer rapidement à surveiller vos clusters Ray sur GKE.
Accéder au tableau de bord "Présentation de Ray sur GKE"
Le tableau de bord est renseigné automatiquement lorsque vous activez la collecte de métriques pour votre cluster Ray.
Si vous souhaitez explorer des métriques individuelles collectées à partir de clusters Ray exécutés sur GKE, procédez comme suit:
Accédez à la page Explorateur de métriques dans la console Google Cloud .
Dans le champ Sélectionner une métrique, vous pouvez rechercher des métriques spécifiques à Ray. Ces métriques sont généralement précédées du préfixe
prometheus/ray_
. Par exemple,prometheus/ray_worker_cpu_seconds_total
ouprometheus/ray_memory_bytes_max
.Vous pouvez affiner votre recherche en sélectionnant le type de ressource approprié (par exemple,
k8s_pod
,k8s_container
) et en filtrant par libellé pertinent pour votre cluster Ray (par exemple,ray.io/cluster
).
Étapes suivantes
- Découvrez Ray sur Kubernetes.
- Consultez la documentation de KubeRay.