Prepara la fuente de datos

Antes de comenzar a publicar atributos en línea con el almacén de atributos de Vertex AI, debes configurar tu fuente de datos de atributos en BigQuery de la siguiente manera:

  1. Crea una tabla o vista de BigQuery con tus datos de atributos. Para cargar datos de componentes en una tabla o vista de BigQuery, puedes crear un conjunto de datos de BigQuery con los datos, crear una tabla de BigQuery y, luego, cargar los datos de componentes del conjunto de datos en la tabla.

  2. Después de cargar los datos de atributos en la tabla o la vista de BigQuery, debes hacer que esta fuente de datos esté disponible para Vertex AI Feature Store para la entrega en línea. Existen dos maneras en las que puedes conectar la fuente de datos a recursos de entrega en línea, como tiendas en línea e instancias de vistas de atributos:

    • Registra la fuente de datos mediante la creación de grupos de funciones y atributos: Puedes asociar grupos de funciones y atributos con las instancias de vistas de atributos en tu almacén en línea. Puedes dar formato a los datos de las siguientes maneras:

      • Para darles formato a tus datos como una serie temporal, incluye una columna de marca de tiempo de atributos. Vertex AI Feature Store solo entrega los valores de atributos más recientes de cada ID de entidad único, según la marca de tiempo del atributo en esta columna.

      • Dales formato a los datos sin incluir columnas de marca de tiempo de atributos. Vertex AI Feature Store administra las marcas de tiempo y entrega solo los valores de atributos más recientes de cada ID de entidad único.

      Para obtener información sobre cómo crear grupos de atributos, consulta Crea un grupo de atributos. Para obtener información sobre cómo crear atributos dentro de un grupo de atributos, consulta Crea un atributo.

    • Publicar atributos directamente desde la fuente de datos sin crear grupos de atributos y atributos: Puedes especificar el URI de la fuente de datos en la vista de atributos. Ten en cuenta que, en este caso, no puedes dar formato a tus datos como una serie temporal ni incluir datos históricos en la fuente de BigQuery. Cada fila debe contener los valores de atributos más recientes correspondientes a un ID único. No se admiten varias ocurrencias del mismo ID de entidad en diferentes filas.

Dado que Vertex AI Feature Store te permite mantener los datos de atributos en BigQuery y entrega atributos desde la fuente de datos de BigQuery, no es necesario importar ni copiar los atributos a un almacén sin conexión.

Lineamientos para la preparación de fuentes de datos

Sigue estos lineamientos para comprender el esquema y las restricciones mientras preparas la fuente de datos en BigQuery:

  1. Incluye las siguientes columnas en la fuente de datos:

    • Columnas de ID de entidad: La fuente de datos debe tener al menos una columna de ID de entidad con valores string o int. El nombre predeterminado para esta columna es entity_id. De manera opcional, puedes usar un nombre diferente para esta columna. El tamaño de cada valor de esta columna debe ser inferior a 4 KB.

      Ten en cuenta que también puedes designar un registro de atributos si construyes el ID de la entidad con atributos de varias columnas. En este caso, puedes incluir varias columnas de ID de entidad en la fuente de datos. El nombre de cada columna de ID de entidad debe ser único. Si registras la fuente de datos creando grupos de atributos, establece las columnas de ID de entidad para cada grupo de atributos. De lo contrario, si asocias directamente la fuente de datos con una vista de atributos, configura las vistas de atributos para especificar las columnas de ID de entidad.

      Ten en cuenta que puedes incluir varias columnas de ID en una fuente de datos. En este caso, el nombre de cada columna de ID de entidad debe ser único. Puedes configurar tus grupos de atributos o vistas de atributos para construir el ID de la entidad con los valores de cada columna de un registro de atributos.

    • Columna de marca de tiempo de los atributos: Opcional. Si registras la fuente de datos con grupos de atributos y atributos, y necesitas dar formato a los datos como una serie temporal, incluye una columna de marca de tiempo de atributo. La columna de marca de tiempo contiene valores del tipo timestamp. El nombre predeterminado de la columna de marca de tiempo es feature_timestamp. Si deseas usar un nombre de columna diferente, usa el parámetro time_series para establecer la columna de marca de tiempo del grupo de atributos.

      Si no especificas una columna de marca de tiempo para dar formato a tus datos como una serie temporal, Vertex AI Feature Store administra las marcas de tiempo de los atributos y entrega los valores de atributos más recientes.

      Si asocias directamente una fuente de datos de BigQuery con una vista de atributos, la columna feature_timestamp no es obligatoria. En esta situación, debes incluir solo los valores de atributos más recientes en la fuente de datos y el almacén de atributos de Vertex AI no busca la marca de tiempo.

    • Incorporación y filtrado de columnas: Opcional. Si deseas usar la administración de incorporaciones en una tienda en línea creada para la entrega en línea optimizada, la fuente de datos debe contener las siguientes columnas:

      • Una columna embedding que contiene matrices del tipo float.

      • Opcional: Una o más columnas de filtrado del tipo string o matriz string.

      • Opcional: Una columna de agrupamiento del tipo int.

  2. Cada fila de la fuente de datos es un registro completo de los valores de atributos asociados con un ID de entidad. Si falta un valor de atributo en una de las columnas, se considera como valor nulo.

  3. Cada columna de la tabla o de la vista de BigQuery representa un atributo. Proporciona los valores de cada atributo en una columna independiente. Si asocias la fuente de datos con un grupo de atributos y sus características, se asocia cada columna con un atributo independiente.

  4. Los tipos de datos admitidos para valores de atributos incluyen bool, int, float, string, timestamp, matrices de estos tipos de datos y bytes. Ten en cuenta que, durante la sincronización de datos, los valores de componentes de tipo timestamp se convierten a int64.

  5. La fuente de datos debe estar ubicada en la misma región que la instancia de la tienda en línea o en una multirregión que incluya o que se superponga con la región de la tienda en línea. Por ejemplo, si la tienda en línea está en us-central, la fuente de BigQuery puede estar ubicada en us-central o en US.

  6. Sincroniza los datos en una vista de atributos antes de la publicación en línea para asegurarte de publicar solo los valores de atributos más recientes. Si usas la sincronización de datos programada, es posible que debas sincronizar manualmente los datos en la vista de atributos. Sin embargo, si usas la sincronización de datos continua con la entrega en línea optimizada, no es necesario que sincronices los datos de forma manual.

¿Qué sigue?