Requisitos de datos de origen

En el caso de la importación por lotes, Vertex AI Feature Store (antigua) puede importar datos de tablas de BigQuery o de archivos de Cloud Storage.

  • Use una tabla de BigQuery si necesita importar todo el conjunto de datos y no requiere filtros de partición.

  • Usa la vista de BigQuery si necesitas importar un subconjunto específico del conjunto de datos. Esta opción es más eficiente y te permite importar selecciones específicas de todo el conjunto de datos, incluidas varias tablas generadas a partir de los datos.

  • Los datos incluidos en los archivos importados de Cloud Storage deben estar en formato AVRO o CSV.

En la importación por streaming, proporciona los valores de las funciones que quieres importar en la solicitud de la API. Estos requisitos de datos de origen no se aplican. Para obtener más información, consulta la referencia de la API writeFeatureValues.

Cada elemento (o fila) debe cumplir los siguientes requisitos:

  • Debe tener una columna para los IDs de entidad y los valores deben ser del tipo STRING. Esta columna contiene los IDs de las entidades para las que se aplican los valores de las características.

  • Los tipos de valor de los datos de origen deben coincidir con los tipos de valor de la función de destino del almacén de características. Por ejemplo, los valores booleanos deben importarse en una función de tipo BOOL.

  • Todas las columnas deben tener un encabezado de tipo STRING. No hay restricciones en el nombre de los encabezados.

    • En el caso de las tablas y vistas de BigQuery, el encabezado de columna es el nombre de la columna.
    • En el caso de AVRO, el encabezado de columna se define mediante el esquema AVRO asociado a los datos binarios.
    • En el caso de los archivos CSV, el encabezado de columna es la primera fila.
  • Si proporciona una columna para las marcas de tiempo de generación de funciones, utilice uno de los siguientes formatos de marca de tiempo:

    • En el caso de las tablas y vistas de BigQuery, las marcas de tiempo deben estar en la columna TIMESTAMP.
    • En Avro, las marcas de tiempo deben ser de tipo long y de tipo lógico timestamp-micros.
    • En el caso de los archivos CSV, las marcas de tiempo deben estar en formato RFC 3339.
  • Los archivos CSV no pueden incluir tipos de datos de matriz. Usa Avro o BigQuery en su lugar.

  • En los tipos de matriz, no puede incluir un valor nulo en la matriz. Sin embargo, puedes incluir un array vacío.

Marcas de tiempo de los valores de las funciones

En el caso de la importación por lotes, Vertex AI Feature Store (antigua) requiere que los usuarios proporcionen marcas de tiempo para los valores de características importados. Puede especificar una marca de tiempo concreta para cada valor o la misma marca de tiempo para todos los valores:

  • Si las marcas de tiempo de los valores de las características son diferentes, especifícalas en una columna de los datos de origen. Cada fila debe tener su propia marca de tiempo que indique cuándo se generó el valor de la función. En tu solicitud de importación, especifica el nombre de la columna para identificar la columna de marca de tiempo.
  • Si la marca de tiempo de todos los valores de las características es la misma, puede especificarla como parámetro en su solicitud de importación. También puedes especificar la marca de tiempo en una columna de tus datos de origen, donde cada fila tenga la misma marca de tiempo.

Región de la fuente de datos

Si los datos de origen están en BigQuery o Cloud Storage, el conjunto de datos o el segmento de origen deben estar en la misma región o en la misma ubicación multirregional que tu almacén de características. Por ejemplo, un almacén de características de us-central1 solo puede importar datos de segmentos de Cloud Storage o conjuntos de datos de BigQuery que se encuentren en us-central1 o en la ubicación multirregional de EE. UU. No puedes importar datos de us-east1, por ejemplo. Además, no se admiten los datos de origen de los segmentos birregionales.

Siguientes pasos