Cuando el Servicio de etiquetado de datos ejecuta un trabajo de evaluación, genera un conjunto de métricas de evaluación que varían según los detalles de tu modelo de aprendizaje automático. En esta guía, se describen los diferentes tipos de métricas de evaluación y cómo puedes verlas.
Antes de comenzar
Antes de comenzar, crea un trabajo de evaluación y espera a que se ejecute por primera vez. De manera predeterminada, tu trabajo de evaluación se ejecuta diariamente a las 10:00 a. m. UTC.
Cuando se ejecuta el trabajo, primero envía datos a revisores manuales para el etiquetado de la verdad fundamental (si habilitaste esta opción). Luego, calcula las métricas de evaluación. Dado que el etiquetado manual lleva tiempo, si tu trabajo realiza un muestreo de una gran cantidad de datos, es posible que debas esperar más de un día para ver las primeras métricas de evaluación.
Compara la precisión promedio entre modelos
En AI Platform Prediction, se pueden agrupar varias versiones del modelo en un recurso de modelo. Cada versión del modelo en un modelo debe realizar la misma tarea, pero cada uno puede ser entrenado de manera diferente.
Si tienes varias versiones del modelo en un solo modelo y creaste un trabajo de evaluación para cada una, podrás ver un gráfico que compara la precisión promedio de las versiones del modelo a lo largo del tiempo:
Abre la página Modelos de AI Platform en la consola de Google Cloud :
Haz clic en el nombre del modelo que contiene las versiones del modelo que deseas comparar.
Haz clic en la pestaña Evaluación.
En el gráfico de esta página, se comparan las precisiones promedio de cada versión del modelo a lo largo del tiempo. Puedes cambiar el intervalo del gráfico.
Si alguno de los trabajos de evaluación para la versión del modelo tuvo un error durante una ejecución reciente, también lo verás en esta página.
Visualiza las métricas de una versión específica del modelo
Para obtener métricas de evaluación más detalladas, consulta una sola versión del modelo:
Abre la página Modelos de AI Platform en la consola de Google Cloud :
Haz clic en el nombre del modelo que contiene la versión que te interesa.
Haz clic en el nombre de la versión del modelo que te interesa.
Haz clic en la pestaña Evaluación.
De manera similar a la imagen comparativa que analizamos en la sección anterior, esta página tiene un gráfico de la precisión promedio a lo largo del tiempo. También muestra los errores de las ejecuciones de trabajos de evaluación recientes de tu versión del modelo.
Ingresa una fecha en el campo Ingresar fecha pera ver las métricas de la ejecución de un trabajo de evaluación individual. También puedes hacer clic en Todas las etiquetas y seleccionar una etiqueta específica de la lista desplegable para filtrar más métricas. En las siguientes secciones, se describen las métricas que puedes ver para ejecuciones de trabajos de evaluación individual.
Curva de precisión-recuperación
Las curvas de precisión-recuperación muestran cómo cambiarían la precisión y recuperación de tu modelo de aprendizaje automático si ajustabas tu umbral de clasificación.
Matriz de confusión
Las matrices de confusión muestran todos los pares de etiquetas de verdad fundamental y etiquetas de predicción, para que puedas ver patrones de cómo tu modelo de aprendizaje automático confundió ciertas etiquetas con otras.
Las matrices de confusión solo se generan para las versiones del modelo que realizan la clasificación.
Comparación en paralelo
Si la versión de tu modelo realiza una clasificación de imágenes o texto, puedes ver una comparación en paralelo de las etiquetas predichas del modelo de aprendizaje automático y las etiquetas de verdad fundamental de cada entrada de predicción.
Si la versión de tu modelo realiza la detección de objetos de imagen, puedes ver una comparación en paralelo de los cuadros de límite predichos del modelo de aprendizaje automático y los cuadros de límite de verdad fundamental. Coloca el cursor sobre los cuadros de límite para ver las etiquetas asociadas.
¿Qué sigue?
Aprende cómo actualizar, pausar o borrar un trabajo de evaluación.