Supervisa tu clúster de Ray en Vertex AI

En esta página, se explica cómo ver los registros de seguimiento asociados con tus clústeres de Ray y supervisar las métricas de Ray en Vertex AI. También se proporciona orientación para depurar clústeres de Ray.

Ver registros

Cuando realizas tareas con tu clúster de Ray en Vertex AI, los registros de seguimiento se generan y almacenan de forma automática en Cloud Logging y en el panel de Ray de código abierto. En esta sección, se describe cómo acceder a los registros generados a través de la consola de Google Cloud.

Antes de comenzar, asegúrate de leer la descripción general de Ray en Vertex AI y configurar todas las herramientas de requisitos previos que necesitas.

Panel de OSS de Ray

Puedes ver los archivos de registro de Ray de código abierto a través del panel de Ray OSS:

  1. En la consola de Google Cloud, ve a la página Ray en Vertex AI.

    Ir a la página de Ray en Vertex AI

  2. En la fila del clúster que creaste, selecciona el menú más acciones.

  3. Selecciona el vínculo del panel de Ray OSS. El panel se abrirá en otra pestaña.

  4. Navega a la vista Registros en la esquina superior derecha del menú:

    Selecciona los registros del panel de Ray

  5. Haz clic en cada nodo para ver los archivos de registro asociados con ese nodo.

Consola de Cloud Logging

  1. En la consola de Google Cloud, ve a la página Explorador de registros.

    Ir al Explorador de registros

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Logging.

  2. Selecciona una organización, una carpeta o un proyecto existente de Google Cloud.

  3. Para mostrar todos los registros de Ray, ingresa la siguiente consulta en el campo del editor de consultas y, luego, haz clic en Ejecutar consulta:

    resource.labels.task_name="ray-cluster-logs"
  4. Para limitar los registros a un clúster de Ray específico, agrega la siguiente línea a la consulta y, luego, haz clic en Ejecutar consulta:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Reemplaza CLUSTER_NAME por el nombre de tu clúster de Ray. En la consola de Google Cloud, ve a Vertex AI > Ray en Vertex AI, donde verás una lista de nombres de clústeres en cada región.

  5. Para limitar aún más los registros a un archivo de registro específico como raylet.out, haz clic en el nombre del registro en Campos de registro -> Nombre del registro.

  6. Puedes agrupar entradas de registro similares:

    1. En los Resultados de la búsqueda, haz clic en una entrada de registro para expandir el registro.

    2. En jsonPayload, haz clic en el valor tailed_path. Aparecerá un menú desplegable.

    3. Haz clic en Mostrar entradas coincidentes.

Inhabilitar registros

De forma predeterminada, Ray en Vertex AI Cloud Logging está habilitado.

  • Para inhabilitar la exportación de registros de Ray a Cloud Logging, usa el siguiente comando del SDK de Vertex AI para Python:

    vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
    

Puedes ver los archivos de registro de Ray en el panel de Ray, incluso si la función de Cloud Logging de Ray en Vertex AI está inhabilitada.

Supervisa las métricas

Puedes ver las métricas de Ray en Vertex AI de diferentes maneras con Google Cloud Monitoring (GCM). Como alternativa, puedes exportar las métricas de GCM a tu propio servidor de Grafana.

Supervisa las métricas en GCM

Existen dos formas de ver las métricas de Ray en Vertex AI en GCM.

  • Usa la vista directa en el Explorador de métricas.
  • Importa el panel de Grafana.

Explorador de métricas

Para usar la vista directa en Explorador de métricas, sigue estos pasos:

  1. Ve a la consola de voz de Google Cloud.
  2. En Explorar, selecciona Explorador de métricas.
  3. En Recursos activos, selecciona Destino de Prometheus. Aparecerá la opción Categorías de métricas activas.
  4. Selecciona Ray.

    Aparecerá una lista de métricas:

    selecciona una métrica
  5. Elige las métricas que quieres supervisar. Por ejemplo:
    1. Elige el porcentaje de uso de CPU como una métrica supervisada:
      utilization-target
    2. Selecciona un filtro. Por ejemplo, selecciona clúster:
      agrega el filtro necesario Usa el ID de clúster para supervisar solo las métricas anteriores de un clúster específico. Para ubicar el ID del clúster, sigue estos pasos:
      1. En la consola de Google Cloud, ve a la página Ray.

        Ir a Ray

      2. Asegúrate de estar en el proyecto en el que deseas crear el experimento.
        Selección de proyecto de Vertex AI
      3. En Nombre, aparecerá una lista de IDs de clústeres.
      selecciona una métrica
    3. Selecciona el método Agregación para ver las métricas. Es decir, puedes elegir ver métricas no agregadas, que muestran el uso de CPU de cada proceso de Ray:
      métricas no agregadas

Panel de GCM

Para importar un panel de Grafana para Ray en Vertex AI, sigue los lineamientos del panel de supervisión en la nube, Importa tu propio panel de grafana.

panel de supervisión

Todo lo que necesitas es un archivo JSON del panel de Grafana. OSS Ray admite esta configuración manual, ya que proporciona el archivo JSON de Grafana del panel predeterminado.

Supervisa métricas de Grafana que pertenecen al usuario

Si ya tienes un servidor de Grafana en ejecución, también hay una forma de exportar todas las métricas de Prometheus de Ray en Vertex AI a tu servidor de Grafana existente. Para ello, sigue la guía de Consulta con Grafana de GMP. Esto te permite agregar una nueva fuente de datos de Grafana a tu servidor de Grafana existente y usar el sincronizador de fuentes de datos para sincronizar la nueva fuente de datos de Prometheus de Grafana con las métricas de Ray en Vertex AI.

Es importante que configures y autentiques la fuente de datos de Grafana que agregaste recientemente con el sincronizador de fuentes de datos. Sigue los pasos proporcionados en Configura y autentica la fuente de datos de Grafana.

Una vez sincronizado, puedes crear y agregar cualquier panel que necesites según las métricas de Ray en Vertex AI.

De forma predeterminada, las colecciones de métricas de Ray en Vertex AI están habilitadas. Aquí se muestra cómo inhabilitarlos con el SDK de Vertex AI para Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Depura clústeres de Ray

Para depurar clústeres de Ray, usa la shell interactiva del nodo principal:

Consola de Google Cloud

Para acceder a la shell interactiva del nodo principal, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Ray en Vertex AI.
    Ir a Ray en Vertex AI
  2. Asegúrate de estar en el proyecto correcto.
    Selección de proyecto de Vertex AI
  3. Selecciona el clúster que deseas examinar. Aparecerá la sección Información básica.
  4. En la sección Vínculos de acceso, haz clic en el vínculo de Shell interactivo del nodo principal. Aparecerá el shell interactivo del nodo principal.
  5. Sigue las instrucciones que se describen en Supervisa y depura el entrenamiento con una shell interactiva.

¿Qué sigue?