Requisiti dei dati di origine

Per l'importazione batch, Vertex AI Feature Store (legacy) può importare i dati dalle tabelle in BigQuery o dai file in Cloud Storage.

  • Utilizza la tabella BigQuery se devi importare l'intero set di dati e non richiedi filtri di partizione.

  • Utilizza la vista BigQuery se devi importare un sottoinsieme specifico del set di dati. Questa opzione è più efficiente in termini di tempo e ti consente di importare selezioni specifiche dall'intero set di dati, incluse più tabelle generate dai dati.

  • I dati contenuti nei file importati da Cloud Storage devono essere in formato AVRO o CSV.

Per l'importazione in streaming, fornisci i valori delle caratteristiche da importare nella richiesta API. Questi requisiti per i dati di origine non si applicano. Per ulteriori informazioni, consulta il riferimento dell'API writeFeatureValues.

Ogni elemento (o riga) deve rispettare i seguenti requisiti:

  • Devi avere una colonna per gli ID entità e i valori devono essere di tipo STRING. Questa colonna contiene gli ID entità a cui si riferiscono i valori delle caratteristiche.

  • I tipi di valore dei dati di origine devono corrispondere ai tipi di valore della caratteristica di destinazione nell'archivio di caratteristiche. Ad esempio, i valori booleani devono essere importati in una caratteristica di tipo BOOL.

  • Tutte le colonne devono avere un'intestazione di tipo STRING. Non ci sono restrizioni sul nome delle intestazioni.

    • Per le tabelle BigQuery e le viste BigQuery, l'intestazione della colonna è il nome della colonna.
    • Per AVRO, l'intestazione della colonna è definita dallo schema AVRO associato ai dati binari.
    • Per i file CSV, l'intestazione della colonna è la prima riga.
  • Se fornisci una colonna per i timestamp di generazione delle caratteristiche, usa uno dei seguenti formati di timestamp:

    • Per le tabelle BigQuery e le viste BigQuery, i timestamp devono essere nella colonna TIMESTAMP.
    • Per Avro, i timestamp devono essere di tipo long e di tipo logico timestamp-micros.
    • Per i file CSV, i timestamp devono essere nel formato RFC 3339.
  • I file CSV non possono includere tipi di dati di tipo array. Usa invece Avro o BigQuery.

  • Per i tipi di array, non è possibile includere un valore nullo nell'array. Tuttavia, puoi includere un array vuoto.

Timestamp dei valori delle caratteristiche

Per l'importazione batch, Vertex AI Feature Store (legacy) richiede timestamp forniti dall'utente per i valori delle caratteristiche importati. Puoi specificare un timestamp particolare per ogni valore o specificare lo stesso timestamp per tutti i valori:

  • Se i timestamp dei valori delle caratteristiche sono diversi, specificarli in una colonna dei dati di origine. Ogni riga deve avere il proprio timestamp che indica quando è stato generato il valore della funzionalità. Nella richiesta di importazione, specifica il nome della colonna per identificare la colonna del timestamp.
  • Se il timestamp di tutti i valori delle caratteristiche è lo stesso, puoi specificarlo come parametro nella richiesta di importazione. Puoi anche specificare il timestamp in una colonna dei dati di origine, in cui ogni riga ha lo stesso timestamp.

Regione dell'origine dati

Se i dati di origine si trovano in BigQuery o Cloud Storage, il set di dati o il bucket di origine deve trovarsi nella stessa regione o nella stessa località multiregionale dell'archivio delle funzionalità. Ad esempio, un featurestore in us-central1 può importare dati solo da bucket Cloud Storage o set di dati BigQuery che si trovano in us-central1 o nella località multiregionale degli Stati Uniti. Non puoi importare dati, ad esempio, da us-east1. Inoltre, i dati di origine dai bucket dual-region non sono supportati.

Passaggi successivi