Se usó la API de Cloud Translation para traducir esta página.

Evaluación de modelos en Vertex AI

El servicio de evaluación de IA de inferencia te permite evaluar el rendimiento del modelo en casos de uso específicos. También puedes referirte a la evaluación como la observabilidad del rendimiento de un modelo. La evaluación del modelo que proporciona Vertex AI puede ajustarse al flujo de trabajo típico del aprendizaje automático de varias maneras:

Después de entrenar tu modelo, revisa las métricas de evaluación del modelo antes de implementarlo. Compara las métricas de evaluación en varios modelos para ayudarte a decidir qué modelo implementar.
Después de implementar tu modelo en producción, evalúa tu modelo periódicamente con datos entrantes nuevos. Si las métricas de evaluación muestran que el rendimiento de tu modelo se está degradando, considera volver a entrenar tu modelo. Este proceso se denomina evaluación continua.

La forma de interpretar y usar estas métricas depende de las necesidades de su empresa y del problema para el que entrenó tu modelo. Por ejemplo, es posible que tengas una tolerancia más baja para los falsos positivos que para los falsos negativos, o viceversa. Estos tipos de preguntas afectan las métricas en las que te enfocarás a medida que iteras en el modelo.

Estas son algunas de las métricas clave que proporciona el servicio de evaluación de modelos predictivos basados en IA:

Funciones

Para evaluar un modelo con Vertex AI, necesitas un modelo entrenado, un resultado de inferencia por lotes y un conjunto de datos de verdad fundamental. El siguiente es un flujo de trabajo típico de evaluación de modelos que usa Vertex AI:

Entrenar un modelo. Puedes hacerlo en Vertex AI con AutoML o el entrenamiento personalizado.
Ejecuta un trabajo de inferencia por lotes en el modelo para generar resultados de inferencia.
Prepara los datos de verdad fundamental, que son los datos “etiquetados de forma correcta” según lo que determinen las personas. La verdad fundamental suele ser el conjunto de datos de prueba que usaste durante el proceso de entrenamiento de modelos.
Ejecuta un trabajo de evaluación en el modelo, que evalúa la exactitud de los resultados de la inferencia por lotes en comparación con los datos de verdad fundamental.
Analiza las métricas que resultan del trabajo de evaluación.
Itera en tu modelo para ver si puedes mejorar la exactitud de tu modelo. Puedes ejecutar varios trabajos de evaluación y comparar los resultados de varios trabajos en los modelos o versiones de modelos.

Puedes ejecutar la evaluación de modelos en Vertex AI de varias maneras:

Crea evaluaciones a través de Vertex AI Model Registry en la consola deGoogle Cloud .
Usa evaluaciones de modelo de Vertex AI como componente de canalización con Vertex AI Pipelines. Puedes crear ejecuciones de canalizaciones y plantillas que incluyan evaluaciones de modelos como parte de tu flujo de trabajo automatizado de MLOps.

Puedes ejecutar el componente de evaluación del modelo por sí solo o con otros componentes de canalización, como el componente de inferencia por lotes.

Vertex AI admite la evaluación de los siguientes tipos de modelos:

Imagen

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
Pérdida logística: Es la entropía cruzada entre las inferencias del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
Umbral de confianza: Es una puntuación de confianza que determina qué inferencias mostrar. Un modelo devuelve inferencias que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
Recuperación: Es la fracción de inferencias con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
Precisión: Es la fracción de inferencias de clasificación correctas que produjo el modelo.
Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.

Tabular

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
AuROC: El área bajo la curva de característica operativa del receptor. Esta puede variar de cero a uno y cuanto más alto sea su valor, mejor será la calidad del modelo.
Pérdida logística: Es la entropía cruzada entre las inferencias del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
Umbral de confianza: Es una puntuación de confianza que determina qué inferencias mostrar. Un modelo devuelve inferencias que tienen este valor o uno más alto. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Vertex AI muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afecta la precisión y la recuperación.
Recuperación: Es la fracción de inferencias con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
Recuperación en 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de inferencia más alta y no está debajo del umbral de confianza para cada ejemplo.
Precisión: Es la fracción de inferencias de clasificación correctas que produjo el modelo.
Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de inferencia más alta y no está debajo del umbral de confianza para cada ejemplo.
Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.
Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
Conteo de verdaderos negativos: la cantidad de veces que un modelo predijo correctamente una clase negativa.
Recuento de verdaderos positivos: La cantidad de veces que un modelo predijo de forma correcta una clase positiva.
Recuento de falsos negativos: La cantidad de veces que un modelo predijo de forma incorrecta una clase negativa.
Recuento de falsos positivos: La cantidad de veces que un modelo predijo de forma incorrecta una clase positiva.
Tasa de falsos positivos: La fracción de resultados previstos de forma incorrecta de todos los resultados previstos.
Tasa de falsos positivos en 1: Es la tasa de falsos positivos cuando solo se considera la etiqueta que tiene la puntuación de inferencia más alta y no está debajo del umbral de confianza de cada ejemplo.
Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Regresión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. La RMSLE penaliza con mayor peso la subinferencia que la sobreinferencia. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de inferencia grandes que para los valores de inferencia pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
Atribución de atributos del modelo: Vertex AI te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento del modelo. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Previsión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. La RMSLE penaliza con mayor peso la subinferencia que la sobreinferencia. También puede ser una buena métrica cuando no se desea penalizar con mayor peso las diferencias para los valores de inferencia grandes que para los valores de inferencia pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
WAPE: El error porcentual absoluto ponderado (WAPE) es la diferencia general entre el valor que predice un modelo y los valores que se observan sobre los valores observados. En comparación con el RMSE, el WAPE se calcula en función de las diferencias generales, en lugar de las diferencias individuales, que pueden estar muy influenciadas por valores bajos o intermitentes. Un valor más bajo indica un modelo de mejor calidad.
RMSPE: La raíz cuadrada del error cuadrático medio (RMPSE) muestra el RMSE como un porcentaje de los valores reales en lugar de como un número absoluto. Un valor más bajo indica un modelo de mejor calidad.
Cuantil: Es el porcentaje de cuantil, que indica la probabilidad de que un valor observado esté por debajo del valor previsto. Por ejemplo, en el cuantil 0.5, se espera que los valores observados sean más bajos que los valores previstos el 50% del tiempo.
Cuantil observado: Muestra el porcentaje de valores reales que eran inferiores al valor previsto de un cuantil dado.
Pérdida de pinball escalado: Es la pérdida de pinball escalada en un cuantil particular. Un valor más bajo indica un modelo de mayor calidad en el cuantil determinado.

Instructivos para uso de notebooks

Datos tabulares de AutoML

Para obtener más información, ejecuta los siguientes notebooks en el entorno que elijas:

“Vertex AI: Evalúa los resultados de la predicción por lotes a partir de un modelo de clasificación tabular de AutoML”:
Abrir en Colab | Abrir en Colab Enterprise | Abrir en Vertex AI Workbench | Ver en GitHub
“Vertex AI Pipelines: Evalúa los resultados de la predicción por lotes del modelo de regresión tabular de AutoML”:
Abrir en Colab | Abrir en Colab Enterprise | Abrir en Vertex AI Workbench | Ver en GitHub

Entrenamiento personalizado: Tabular

Para obtener más información, ejecuta los siguientes notebooks en el entorno que elijas:

“Vertex AI Pipelines: Evalúa los resultados de BatchPrediction a partir de un modelo de clasificación tabular personalizado”:
Abrir en Colab | Abrir en Colab Enterprise | Abrir en Vertex AI Workbench | Ver en GitHub
“Vertex AI Pipelines: Evalúa los resultados de la predicción por lotes a partir del modelo de regresión tabular personalizado”:
Abrir en Colab | Abrir en Colab Enterprise | Abrir en Vertex AI Workbench | Ver en GitHub

Vertex AI Model Registry

¿Qué sigue?

Obtén información sobre cómo realizar una evaluación de modelos con Vertex AI.