Se usó la API de Cloud Translation para traducir esta página.

Métricas de Cloud Monitoring para Vertex AI

Vertex AI exporta métricas a Cloud Monitoring. Vertex AI también muestra algunas de estas métricas en la consola de Google Cloud Vertex AI. Puedes usar Cloud Monitoring para crear paneles o configurar alertas basadas en las métricas. Por ejemplo, puedes recibir alertas si la latencia de predicción de un modelo en Vertex AI es demasiado alta.

En las siguientes secciones, se describen las métricas proporcionadas en la consola de Vertex AI Google Cloud , que podrían ser métricas directas o calculadas que Vertex AI envía a Cloud Monitoring.

Para ver una lista de la mayoría de las métricas que Vertex AI exporta a Cloud Monitoring, consulta aiplatform. Para las métricas de entrenamiento personalizadas, consulta los tipos de métricas que comienzan con training en la sección ml.

Métricas personalizadas de supervisión de entrenamiento

Cuando realizas un entrenamiento personalizado, puedes supervisar los siguientes tipos de uso de recursos para cada nodo de entrenamiento:

Uso de CPU o GPU de cada nodo de entrenamiento
Uso de memoria de cada nodo de entrenamiento
Uso de red (bytes enviados y recibidos por segundo)

Si usas el ajuste de hiperparámetros, puedes consultar las métricas de cada prueba.

Sigue estos pasos para ver estas métricas después de iniciar el entrenamiento personalizado:

En la consola de Google Cloud , ve a una de las siguientes páginas, según si usas el ajuste de hiperparámetros:
- Si no usas el ajuste de hiperparámetros, ve a la página Trabajos personalizados.
  
  Ve a Trabajos personalizados
- Si usas el ajuste de hiperparámetros, ve a la página Trabajos de ajuste de hiperparámetros.
  
  Ir a Trabajos de ajuste de hiperparámetros
Haz clic en el nombre de tu recurso de entrenamiento personalizado.

Si creaste un recurso TrainingPipeline personalizado, haz clic en el nombre del trabajo que creó TrainingPipeline, por ejemplo, TRAINING_PIPELINE_NAME-custom-job o TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.
Haz clic en la pestaña CPU, GPU o Red para ver los gráficos de uso de la métrica que te interesan.

Si usas el ajuste de hiperparámetros, puedes hacer clic en una fila de la tabla Pruebas de ajuste de hiperparámetros para ver las métricas de una prueba específica.

Para ver métricas más antiguas o personalizar la forma en que ves las métricas, usa Monitoring. Vertex AI exporta métricas de entrenamiento personalizadas a Monitoring como tipos de métricas con el prefijo ml.googleapis.com/training. El tipo de recurso supervisado es cloudml_job.

Ten en cuenta que AI Platform Training exporta métricas a Monitoring con los mismos tipos de métricas y tipos de recursos.

Métricas de supervisión de extremos

Después de implementar un modelo en un extremo, puedes supervisarlo para comprender el rendimiento y uso de recursos del modelo. Puedes hacer un seguimiento de las métricas, como los patrones de tráfico, las tasas de error, la latencia y el uso de recursos para asegurarte de que el modelo responda de manera coherente y predecible a las solicitudes. Por ejemplo, puedes volver a implementar tu modelo con un tipo de máquina diferente para optimizar el costo. Después de realizar el cambio, puedes supervisar el modelo para verificar si tus cambios afectaron de forma negativa su rendimiento.

En Cloud Monitoring, el tipo de recurso supervisado para los modelos implementados es aiplatform.googleapis.com/Endpoint.

Métricas de rendimiento

Las métricas de rendimiento pueden ayudarte a encontrar información sobre los patrones de tráfico, los errores y la latencia del modelo. Encuentra las siguientes métricas de rendimiento en la Google Cloud consola.

Predicciones por segundo: La cantidad de predicciones por segundo en predicciones en línea y por lotes. Si tienes más de una instancia por solicitud, cada instancia se cuenta en este gráfico.
Porcentaje de errores de predicción: la tasa de errores que produce el modelo. Una tasa de error alta puede indicar un problema con el modelo o con las solicitudes que se realizan al modelo. Consulta el gráfico de códigos de respuesta para determinar qué errores ocurren.
Latencia del modelo (solo para modelos tabulares y personalizados): El tiempo dedicado a realizar procesamiento.
Latencia general (solo para modelos tabulares y personalizados): Tiempo total dedicado al procesamiento de una solicitud, fuera del procesamiento.
Duración total de la latencia: El tiempo total que una solicitud pasa en el servicio, que es la latencia del modelo más la latencia de la sobrecarga.

Uso de recursos

Las métricas de uso de recursos pueden ayudarte a realizar un seguimiento del uso de CPU, del uso de memoria y de la red de tu modelo. Puedes ver las siguientes métricas de uso en laGoogle Cloud consola.

Recuento de réplicas: La cantidad de réplicas activas que usa el modelo implementado
Destino de la réplica: La cantidad de réplicas activas necesarias para el modelo implementado
Uso de CPU: Tasa de uso actual del núcleo de CPU de la réplica del modelo implementado. El 100% representa un núcleo de CPU completamente usado, por lo que una réplica puede lograr un uso de más del 100% si su tipo de máquina tiene varios núcleos.
Uso de la memoria: La cantidad de memoria asignada por la réplica del modelo implementado y actualmente en uso
Bytes de red enviados: Es la cantidad de bytes enviados a través de la red por la réplica del modelo implementado.
Prueba de red recibida: La cantidad de bytes recibidos por la red a través de la réplica del modelo implementado.
Ciclo de trabajo promedio de acelerador: La fracción de tiempo promedio a lo largo del último período de muestra durante el cual se procesaron uno o más aceleradores de manera activa.
Uso de la memoria del acelerador: La cantidad de memoria que asigna la réplica del modelo implementado.

Visualiza gráficos de métricas de supervisión de extremos

Ve a la página Extremos de Vertex AI en laGoogle Cloud consola.

Ir a la página Estremos
Haz clic en el nombre de un extremo para ver sus métricas.
Debajo de los intervalos del gráfico, haz clic en Rendimiento o Uso de recursos para ver las métricas de rendimiento o uso de recursos.

Puedes seleccionar diferentes intervalos de gráficos para ver valores de métricas en un período determinado, como 1 hora, 12 horas o 14 días.

Si tienes varios modelos implementados en el extremo, puedes seleccionar o anular la selección de modelos a fin de ocultar o ver las métricas de modelos específicos. Si seleccionas varios modelos, la consola agrupa algunas métricas del modelo en un solo gráfico. Por ejemplo, si una métrica proporciona solo un valor por modelo, la consola agrupa las métricas del modelo en un solo gráfico, como el uso de CPU. En la métrica que puede tener varios valores por modelo, la consola proporciona un gráfico para cada modelo. Por ejemplo, la consola proporciona un gráfico de código de respuesta para cada modelo.

Métricas de supervisión de Vertex AI Feature Store (Legacy)

Después de compilar un almacén de atributos con Vertex AI Feature Store (Legacy), puedes supervisar su rendimiento y el uso de recursos, como las latencias de entrega de almacenamiento en línea o la cantidad de nodos de almacenamiento en línea. Por ejemplo, puedes supervisar los cambios en las métricas de entrega del almacenamiento en línea después de actualizar la cantidad de nodos de almacenamiento en línea de un almacén de atributos.

En Cloud Monitoring, el tipo de recurso supervisado de un almacén de atributos es aiplatform.googleapis.com/Featurestore.

Métricas

Tamaño de la solicitud: El tamaño de la solicitud por tipo de entidad en tu almacén de atributos.
Escritura en el almacenamiento sin conexión para la escritura de transmisión: Es la cantidad de solicitudes de escritura de transmisión procesadas para el almacenamiento sin conexión.
Tiempo de demora de escritura en el almacenamiento sin conexión: El tiempo transcurrido (en segundos) entre la llamada a la API de escritura y la escritura en el almacenamiento sin conexión.
Recuento de nodos: La cantidad de nodos de entrega en línea de tu almacén de atributos.
Latencia: El tiempo total que una solicitud de transferencia en línea o entrega de transmisión pasa en el servicio.
Consultas por segundo: La cantidad de consultas en línea de transferencia o entrega de transmisiones que controla tu almacén de atributos.
Porcentaje de errores: El porcentaje de errores que produce el almacén de atributos cuando se manejan las solicitudes de transferencia en línea o entrega de transmisión.
Uso de CPU: La fracción de CPU asignada por el almacén de atributos que utiliza el almacenamiento en línea. Esta cantidad puede superar el 100% si el almacenamiento de entrega en línea está sobrecargado. Considera aumentar la cantidad de nodos de entrega en línea del almacén de atributos para reducir el uso de CPU.
Uso de CPU: nodo más activo: Carga de CPU del nodo más activo del almacén de atributos de la tienda de funciones.
Almacenamiento sin conexión total: cantidad de datos almacenados en el almacenamiento sin conexión del almacén de atributos.
Almacenamiento en línea total: cantidad de datos almacenados en el almacenamiento en línea del almacén de atributos.
Capacidad de procesamiento de entrega en línea: En MB/s, la capacidad de procesamiento para las solicitudes de entrega en línea

Visualiza gráficos de métricas de supervisión del almacén de atributos

Ve a la página Funciones de Vertex AI en laGoogle Cloud consola.

Ir a la página Funciones
En la columna Almacén de atributos, haz clic en el nombre de un almacén de atributos para ver sus métricas.

Puedes seleccionar diferentes intervalos de gráficos para ver los valores de las métricas durante un período en particular, como 1 hora, 1 día o 1 semana.

Para algunas métricas de entrega en línea, puedes elegir ver las métricas de un método en particular, que desglosan aún más las métricas por tipo de entidad. Por ejemplo, puedes ver la latencia de los métodos ReadFeatureValues o StreamingReadFeatureValues.

Métricas de supervisión de Vertex AI Feature Store

Después de configurar la entrega en línea con Vertex AI Feature Store, puedes supervisar su rendimiento y el uso de recursos. Por ejemplo, puedes supervisar las cargas de CPU, la cantidad de nodos para la entrega en línea optimizada y la cantidad de solicitudes de entrega.

En Cloud Monitoring, el tipo de recurso supervisado para una instancia de tienda en línea es aiplatform.googleapis.com/FeatureOnlineStore.

Métricas

Bytes almacenados: Cantidad de datos en bytes en la instancia del almacén en línea.
Carga de CPU: Es la carga promedio de CPU de los nodos en la instancia de la tienda en línea.
Carga de CPU (nodo más activo): Es la carga de CPU del nodo más activo en la instancia de la tienda en línea.
Recuento de nodos: Es la cantidad de nodos de entrega en línea para una instancia de la tienda en línea configurada para la entrega en línea de Bigtable.
Recuento de nodos optimizados: Es la cantidad de nodos de entrega en línea para una instancia de almacén en línea configurada para la entrega en línea optimizada.
Recuento de solicitudes: Es la cantidad de solicitudes que recibió la instancia de la tienda en línea.
Latencia de la solicitud: Es la latencia de la solicitud del servidor de la instancia de la tienda en línea.
Recuento de bytes de respuesta: Es la cantidad de datos en bytes que se envían en las respuestas de la publicación en línea.
Antigüedad de los datos de entrega: Es la antigüedad de los datos de entrega en segundos, medida como la diferencia entre la hora actual y la hora de la última sincronización.
Sincronizaciones en ejecución: Es la cantidad de sincronizaciones en ejecución en un momento determinado.
Datos de entrega por hora de sincronización: Desglose de los datos en la instancia de la tienda en línea por marca de tiempo de la sincronización.