Preparar los datos de entrenamiento

En esta página se describe cómo preparar los datos tabulares para entrenar modelos de previsión.

En esta página se tratan los siguientes temas:

  1. Requisitos de la estructura de los datos
  2. Preparar el origen de importación
  3. Añadir pesos a los datos de entrenamiento

De forma predeterminada, Vertex AI usa un algoritmo de división cronológica para separar los datos de previsión en tres divisiones de datos. También puedes usar una división manual, pero para ello debes preparar una columna de división de datos. Más información sobre las divisiones de datos

Requisitos de estructura de datos

En el caso de los modelos de previsión, los datos de entrenamiento deben cumplir los siguientes requisitos básicos:

Tipo de requisito Requisito
Tamaño El tamaño del conjunto de datos no puede superar los 100 GB.
Número de columnas El conjunto de datos debe tener entre 3 y 100 columnas. Cada una de las observaciones del conjunto de datos debe tener un objetivo y una hora, que actúan como características. Además, cada observación debe tener un ID de serie temporal, que identifica la serie temporal a la que pertenece la observación. Lo ideal es que los datos de entrenamiento tengan muchas más de 3 columnas. El número máximo de columnas incluye tanto las de características como las que no lo son.
Columna de objetivos Especifica una columna de destino. La columna de destino permite que Vertex AI asocie los datos de entrenamiento con el resultado deseado. No debe contener valores nulos y debe ser numérica.
Columna de tiempo Debe especificar una columna de tiempo y debe tener un valor en cada fila. La columna Hora indica la hora a la que se hizo una observación determinada.
Columna identificadora de la serie temporal Debe especificar una columna de identificador de serie temporal y debe tener un valor en cada fila. Los datos de entrenamiento de las previsiones suelen incluir varias series temporales, y el identificador indica a Vertex AI a qué serie temporal pertenece una observación determinada de los datos de entrenamiento. Todas las filas de una serie temporal determinada tienen el mismo valor en la columna del identificador de la serie temporal. Algunos identificadores de series temporales habituales pueden ser el ID de producto, el ID de tienda o una región. Es posible entrenar un modelo de previsión en una sola serie temporal, con un valor idéntico para todas las filas de la columna del identificador de la serie temporal. Sin embargo, Vertex AI es más adecuado para datos de entrenamiento que contienen dos o más series temporales. Para obtener los mejores resultados, usa al menos 10 series temporales por cada columna que utilices para entrenar el modelo.
Formato del nombre de la columna El nombre de la columna puede incluir cualquier carácter alfanumérico o un guion bajo (_), pero no puede empezar por un guion bajo.
Número de filas El conjunto de datos debe tener al menos 1000 filas y no más de 100.000.000. Si hay más de 100.000.000 de filas, considere la posibilidad de reducir el muestreo. Para obtener más información, consulta Estrategias de ventana móvil. En función del número de características que tenga tu conjunto de datos, es posible que 1000 filas no sean suficientes para entrenar un modelo de alto rendimiento. Más información
Formato de datos Usa el formato de datos estrecho (a veces llamado "largo"). En el formato estrecho, cada fila representa el elemento especificado por el identificador de la serie temporal en un momento concreto, junto con todos los datos de ese elemento en ese momento. Consulta cómo elegir el formato de los datos.
Intervalo entre filas El intervalo entre las filas de entrenamiento debe ser constante. Esta es la granularidad de tus datos, que afecta a la forma en que se entrena el modelo y a la frecuencia de los resultados de la inferencia. Consulta cómo elegir la granularidad de los datos.
Longitud de la serie temporal La longitud de una serie temporal no debe superar los 3000 pasos de tiempo.

Preparar el origen de importación

Puedes proporcionar datos de entrenamiento de modelos a Vertex AI en dos formatos:

  • Tablas de BigQuery
  • Valores separados por comas (CSV)

La fuente que utilices dependerá de cómo almacenes los datos, así como del tamaño y la complejidad de estos. Si tu conjunto de datos es pequeño y no necesitas tipos de datos más complejos, puede que sea más fácil usar CSV. Para conjuntos de datos más grandes que incluyan arrays y structs, usa BigQuery.

BigQuery

Tu tabla o vista de BigQuery debe cumplir los requisitos de ubicación de BigQuery.

Si tu tabla o vista de BigQuery está en un proyecto distinto del proyecto en el que vas a crear tu conjunto de datos de Vertex AI, o si tu tabla o vista de BigQuery se basa en una fuente de datos externa, añade uno o varios roles al agente de servicio de Vertex AI. Consulta los requisitos para añadir roles en BigQuery.

No es necesario que especifiques un esquema para tu tabla de BigQuery. Vertex AI infiere automáticamente el esquema de tu tabla cuando importas los datos.

El URI de BigQuery (que especifica la ubicación de los datos de entrenamiento) debe tener el siguiente formato:

bq://<project_id>.<dataset_id>.<table_id>

El URI no puede contener ningún otro carácter especial.

Para obtener información sobre los tipos de datos de BigQuery y cómo se asignan a Vertex AI, consulta el artículo sobre las tablas de BigQuery. Para obtener más información sobre cómo usar fuentes de datos externas de BigQuery, consulta la introducción a fuentes de datos externas.

CSV

Los archivos CSV pueden estar en Cloud Storage o en tu ordenador local. Deben cumplir los siguientes requisitos:

  • La primera línea del primer archivo debe ser un encabezado que contenga los nombres de las columnas. Si la primera fila de otro archivo es idéntica al encabezado, se tratará como tal. De lo contrario, se considerará una fila de datos.
  • Los nombres de las columnas pueden incluir cualquier carácter alfanumérico o un guion bajo (_). El nombre de la columna no puede empezar con un guion bajo.
  • El tamaño de cada archivo no debe superar los 10 GB.

    Puedes incluir varios archivos siempre que no sobrepases el máximo de 100 GB.

  • El delimitador debe ser una coma (",").

No es necesario que especifique un esquema para sus datos CSV. Vertex AI infiere automáticamente el esquema de tu tabla cuando importas los datos y usa la fila de encabezado para los nombres de las columnas.

Para obtener más información sobre el formato de los archivos CSV y los tipos de datos, consulta el artículo Archivos CSV.

Si importa sus datos desde Cloud Storage, deben estar en un segmento que cumpla los siguientes requisitos:

Si importa datos desde su ordenador local, debe tener un segmento de Cloud Storage que cumpla los siguientes requisitos:

Añadir pesos a los datos de entrenamiento

De forma predeterminada, Vertex AI pondera equitativamente cada fila de tus datos de entrenamiento. Para fines de formación, ninguna fila se considera más importante que otra.

En ocasiones, puede que quieras que algunas filas tengan más importancia en el entrenamiento. Por ejemplo, si usas datos de gasto, puede que quieras que los datos asociados a los usuarios que gastan más tengan un mayor impacto en el modelo. Si quieres evitar que se te pase por alto un resultado específico, pondera las filas con ese resultado de forma más significativa.

Añade una columna de ponderación a tu conjunto de datos para asignar valores relativos a las filas. La columna de peso debe ser numérica. El valor de la ponderación puede ser de 0 a 10.000. Los valores más altos indican que la fila es más importante a la hora de entrenar el modelo. Si el peso es 0, la fila se ignora. Si incluye una columna de peso, debe contener un valor en cada fila.

Más adelante, cuando entrenes tu modelo, especifica esta columna como la columna Weight.

Los esquemas de ponderación personalizados solo se usan para entrenar el modelo. No afectan al conjunto de pruebas que se usa para evaluar el modelo.

Siguientes pasos