Per creare un datastore e importare i dati per i consigli personalizzati, vai alla sezione relativa all'origine che prevedi di utilizzare:
BigQuery
Puoi creare magazzini di dati dalle tabelle BigQuery in due modi:
Importazione una tantum: importi i dati da una tabella BigQuery in un datastore. I dati nell'datastore non cambiano, a meno che non li aggiorni manualmente.
Importazione periodica: importa i dati da una o più tabelle BigQuery e imposta una frequenza di sincronizzazione che determina la frequenza con cui i depositi di dati vengono aggiornati con i dati più recenti del set di dati BigQuery.
La tabella seguente mette a confronto i due modi in cui puoi importare i dati BigQuery nei datastore di Vertex AI Search.
Importazione una tantum | Importazione periodica |
---|---|
In disponibilità generale (GA). | Anteprima pubblica. |
I dati devono essere aggiornati manualmente. | I dati vengono aggiornati automaticamente ogni 1, 3 o 5 giorni. I dati non possono essere aggiornati manualmente. |
Vertex AI Search crea un singolo datastore da una tabella in BigQuery. | Vertex AI Search crea un connettore dati per un set di dati BigQuery e un datastore (chiamato data datastore entità) per ogni tabella specificata. Per ogni connettore di dati, le tabelle devono avere lo stesso tipo di dati (ad esempio, strutturati) e trovarsi nello stesso set di dati BigQuery. |
I dati di più tabelle possono essere combinati in un unico datastore importando prima i dati di una tabella e poi altri dati da un'altra origine o tabella BigQuery. | Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore delle entità possono provenire solo da una tabella BigQuery. |
Il controllo dell'accesso all'origine dati è supportato. | Controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli di accesso, ma questi controlli non verranno rispettati. |
Puoi creare un datastore utilizzando la console o l'API.Google Cloud | Devi utilizzare la console per creare i connettori di dati e i relativi magazzini di dati delle entità. |
Conformità a CMEK. | Conformità a CMEK. |
Importa una volta da BigQuery
Per importare i dati da una tabella BigQuery, segui i passaggi riportati di seguito per creare un datastore e importare i dati utilizzando la Google Cloud console o l'API.
Prima di importare i dati, consulta Preparare i dati per l'importazione.
Console
Per utilizzare la Google Cloud console per importare i dati da BigQuery, segui questi passaggi:
Nella Google Cloud console, vai alla pagina AI Applications.
Vai alla pagina Datastore.
Fai clic su
Crea datastore.Nella pagina Origine, seleziona BigQuery.
Seleziona il tipo di dati da importare dalla sezione Quale tipo di dati stai importando.
Seleziona Una volta nella sezione Frequenza della sincronizzazione.
Nel campo Percorso BigQuery, fai clic su Sfoglia, seleziona una tabella che hai preparato per l'importazione e poi fai clic su Seleziona. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery.
Fai clic su Continua.
Se esegui l'importazione una tantum dei dati strutturati:
Mappa i campi alle proprietà chiave.
Se nello schema mancano campi importanti, utilizza Aggiungi nuovo campo per aggiungerli.
Per saperne di più, consulta Informazioni sul rilevamento automatico e sull'editing.
Fai clic su Continua.
Scegli una regione per il tuo datastore.
Inserisci un nome per il tuo datastore.
Fai clic su Crea.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Dati. Quando la colonna dello stato nella scheda Attività passa da In corso a Importazione completata, l'importazione è completata.
A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.
REST
Per utilizzare la riga di comando per creare un datastore e importare i dati da BigQuery, segui questi passaggi.
Crea un datastore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore di Vertex AI Search che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME
: il nome visualizzato del datastore di ricerca Vertex AI che vuoi creare.
Importa i dati da BigQuery.
Se hai definito uno schema, assicurati che i dati siano conformi.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID dello datastore di Vertex AI Search.DATASET_ID
: l'ID del set di dati BigQuery.TABLE_ID
: l'ID della tabella BigQuery.- Se la tabella BigQuery non è in PROJECT_ID, devi concedere all'account di servizio
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
l'autorizzazione "Visualizzatore dei dati BigQuery" per la tabella BigQuery. Ad esempio, se importi una tabella BigQuery dal progetto di origine "123" al progetto di destinazione "456", concedi le autorizzazioniservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
per la tabella BigQuery nel progetto "123".
- Se la tabella BigQuery non è in PROJECT_ID, devi concedere all'account di servizio
DATA_SCHEMA
: facoltativo. I valori sonodocument
ecustom
. Il valore predefinito èdocument
.document
: la tabella BigQuery da utilizzare deve essere conforme allo schema BigQuery predefinito fornito in Preparare i dati per l'importazione. Puoi definire autonomamente l'ID di ogni documento, inserendo tutti i dati nella stringa jsonData.custom
: è accettato qualsiasi schema di tabella BigQuery e Vertex AI Search genera automaticamente gli ID per ogni documento importato.
ERROR_DIRECTORY
: facoltativo. Una directory Cloud Storage per le informazioni sugli errori relativi all'importazione, ad esempiogs://<your-gcs-bucket>/directory/import_errors
. Google consiglia di lasciare vuoto questo campo per consentire a Vertex AI Search di creare automaticamente una directory temporanea.RECONCILIATION_MODE
: facoltativo. I valori sonoFULL
eINCREMENTAL
. Il valore predefinito èINCREMENTAL
. La specifica diINCREMENTAL
provoca un aggiornamento incrementale dei dati da BigQuery al tuo datastore. Viene eseguita un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. Se specifichiFULL
, viene eseguita una rebase completa dei documenti nel tuo datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al tuo datastore e quelli che non sono in BigQuery vengono rimossi. La modalitàFULL
è utile se vuoi eliminare automaticamente i documenti che non ti servono più.AUTO_GENERATE_IDS
: facoltativo. Specifica se generare automaticamente gli ID documento. Se impostato sutrue
, gli ID documento vengono generati in base a un hash del payload. Tieni presente che gli ID documento generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostarereconciliationMode
suFULL
per mantenere ID documento coerenti.Specifica
autoGenerateIds
solo quandobigquerySource.dataSchema
è impostato sucustom
. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
. Se non specifichiautoGenerateIds
o lo imposti sufalse
, devi specificareidField
. In caso contrario, l'importazione dei documenti non andrà a buon fine.ID_FIELD
: facoltativo. Specifica quali campi sono gli ID documento. Per i file di origine BigQuery,idField
indica il nome della colonna nella tabella BigQuery che contiene gli ID documento.Specifica
idField
solo se: (1)bigquerySource.dataSchema
è impostato sucustom
e (2)auto_generate_ids
è impostato sufalse
o non è specificato. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
.Il valore del nome della colonna BigQuery deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme a RFC-1034. In caso contrario, l'importazione dei documenti non andrà a buon fine.
C#
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications C#.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Go
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Go.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Java
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Java.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Node.js
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Node.js.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Python
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Python.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Ruby
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Ruby.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Connettiti a BigQuery con sincronizzazione periodica
Prima di importare i dati, consulta Preparare i dati per l'importazione.
La procedura seguente descrive come creare un connettore dati che associ un set di dati BigQuery a un connettore dati Vertex AI Search e come specificare una tabella nel set di dati per ogni datastore che vuoi creare. I datastore che sono figli di connettori dati sono chiamati datastore di entità.
I dati del set di dati vengono sincronizzati periodicamente con i datastore delle entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.
Console
Per utilizzare la Google Cloud console per creare un connettore che sincronizzi periodicamente i dati da un set di dati BigQuery a Vertex AI Search, segui questi passaggi:
Nella Google Cloud console, vai alla pagina AI Applications.
Nel menu di navigazione, fai clic su Datastore.
Fai clic su Crea datastore.
Nella pagina Origine, seleziona BigQuery.
Seleziona il tipo di dati da importare.
Fai clic su Periodico.
Seleziona la frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore di ricerca Vertex AI si sincronizzi con il set di dati BigQuery. Puoi modificare la frequenza in un secondo momento.
Nel campo Percorso del set di dati BigQuery, fai clic su Sfoglia, seleziona il set di dati che contiene le tabelle che hai preparato per l'importazione. In alternativa, inserisci la posizione della tabella direttamente nel campo Percorso BigQuery. Il formato del percorso è
projectname.datasetname
.Nel campo Tabelle da sincronizzare, fai clic su Sfoglia e seleziona una tabella che contiene i dati che ti interessano per il tuo datastore.
Se nel set di dati sono presenti altre tabelle che vuoi utilizzare per i depositi di dati, fai clic su Aggiungi tabella e specifica anche queste tabelle.
Fai clic su Continua.
Scegli una regione per il tuo datastore, inserisci un nome per il connettore dati e fai clic su Crea.
Ora hai creato un connettore dati che sincronizzerà periodicamente i dati con il set di dati BigQuery. Inoltre, hai creato uno o più magazzini di dati delle entità. Gli archivi dati hanno gli stessi nomi delle tabelle BigQuery.
Per controllare lo stato dell'importazione, vai alla pagina Data store e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Dati > scheda Attività di importazione dei dati. Quando la colonna dello stato nella scheda Attività passa da In corso a Riuscito, la prima importazione è completata.
A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.
Dopo aver configurato l'origine dati e importato i dati per la prima volta, l'archivio dati sincronizza i dati da questa origine con una frequenza selezionata durante la configurazione. La prima sincronizzazione avviene circa un'ora dopo la creazione del connettore dati. La sincronizzazione successiva avviene circa 24, 72 o 120 ore dopo.
Passaggi successivi
Per collegare il tuo datastore a un'app, crea un'app e seleziona il datastore seguendo i passaggi descritti in Creare un'app di consigli personalizzati.
Per visualizzare l'anteprima o ricevere consigli dopo aver configurato l'app e il datastore, consulta Ricevere consigli.
Cloud Storage
Puoi creare magazzini di dati dalle tabelle Cloud Storage in due modi:
Importazione una tantum: importi i dati da una cartella o da un file Cloud Storage in un datastore. I dati nell'datastore non cambiano, a meno che non li aggiorni manualmente.
Importazione periodica: importi i dati da un file o da una cartella Cloud Storage e imposti una frequenza di sincronizzazione che determina la frequenza con cui il data store viene aggiornato con i dati più recenti della posizione Cloud Storage.
La tabella seguente mette a confronto i due modi in cui puoi importare i dati di Cloud Storage nei datastore di Vertex AI Search.
Importazione una tantum | Importazione periodica |
---|---|
In disponibilità generale (GA). | Anteprima pubblica. |
I dati devono essere aggiornati manualmente. | I dati vengono aggiornati automaticamente ogni uno, tre o cinque giorni. I dati non possono essere aggiornati manualmente. |
Vertex AI Search crea un singolo datastore da una cartella o un file in Cloud Storage. | Vertex AI Search crea un connettore di dati e lo associa a un datastore (chiamato datastore di entità) per il file o la cartella specificati. Ogni connettore di dati Cloud Storage può avere un singolo datastore di entità. |
I dati di più file, cartelle e bucket possono essere combinati in un unico datastore importando prima i dati da una posizione Cloud Storage e poi altri dati da un'altra posizione. | Poiché l'importazione manuale dei dati non è supportata, i dati in un datastore di entità possono provenire solo da un file o da una cartella Cloud Storage. |
Il controllo dell'accesso all'origine dati è supportato. Per ulteriori informazioni, consulta Controllo dell'accesso alle origini dati. | Controllo dell'accesso all'origine dati non è supportato. I dati importati possono contenere controlli di accesso, ma questi controlli non verranno rispettati. |
Puoi creare un datastore utilizzando la console o l'API.Google Cloud | Devi utilizzare la console per creare i connettori di dati e i relativi magazzini di dati delle entità. |
Conformità a CMEK. | Conformità a CMEK. |
Importa una volta da Cloud Storage
Per importare i dati da Cloud Storage, segui questi passaggi per creare un datastore e importare i dati utilizzando la console o l'API. Google Cloud
Prima di importare i dati, consulta Preparare i dati per l'importazione.
Console
Per utilizzare la console per importare i dati da un bucket Cloud Storage, segui questi passaggi:
Nella Google Cloud console, vai alla pagina AI Applications.
Vai alla pagina Datastore.
Fai clic su
Crea datastore.Nella pagina Origine, seleziona Cloud Storage.
Nella sezione Seleziona una cartella o un file da importare, seleziona Cartella o File.
Fai clic su Sfoglia e scegli i dati che hai preparato per l'importazione, quindi fai clic su Seleziona. In alternativa, inserisci la località direttamente nel campo
gs://
.Seleziona il tipo di dati che stai importando.
Fai clic su Continua.
Se esegui l'importazione una tantum dei dati strutturati:
Mappa i campi alle proprietà chiave.
Se nello schema mancano campi importanti, utilizza Aggiungi nuovo campo per aggiungerli.
Per saperne di più, consulta Informazioni sul rilevamento automatico e sull'editing.
Fai clic su Continua.
Scegli una regione per il tuo datastore.
Inserisci un nome per il tuo datastore.
(Facoltativo) Se hai selezionato documenti non strutturati, puoi selezionare le opzioni di analisi e suddivisione per i documenti. Per confrontare i parser, vedi Eseguire il parsing dei documenti. Per informazioni sul chunking, consulta Eseguire il chunking dei documenti per RAG.
L'analisi del layout e l'analisi OCR possono comportare costi aggiuntivi. Consulta la pagina Prezzi delle funzionalità di DocAI.
Per selezionare un parser, espandi Opzioni di elaborazione documenti e specifica le opzioni del parser che vuoi utilizzare.
Fai clic su Crea.
Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del datastore per visualizzarne i dettagli nella pagina Dati. Quando la colonna dello stato nella scheda Attività passa da In corso a Importazione completata, l'importazione è completata.
A seconda delle dimensioni dei dati, l'importazione può richiedere diversi minuti o diverse ore.
REST
Per utilizzare la riga di comando per creare un datastore e importare i dati da Cloud Storage, segui questi passaggi.
Crea un datastore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore di Vertex AI Search che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME
: il nome visualizzato del datastore di ricerca Vertex AI che vuoi creare.
Importa i dati da Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID dello datastore di Vertex AI Search.INPUT_FILE_PATTERN
: un pattern di file in Cloud Storage contenente i tuoi documenti.Per i dati strutturati o per i dati non strutturati con metadati, un esempio di pattern del file di input è
gs://<your-gcs-bucket>/directory/object.json
e un esempio di corrispondenza del pattern a uno o più file ègs://<your-gcs-bucket>/directory/*.json
.Per i documenti non strutturati, un esempio è
gs://<your-gcs-bucket>/directory/*.pdf
. Ogni file corrispondente al pattern diventa un documento.Se
<your-gcs-bucket>
non è in PROJECT_ID, devi assegnare all'account di servizioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
le autorizzazioni "Visualizzatore oggetti Storage" per il bucket Cloud Storage. Ad esempio, se importi un bucket Cloud Storage dal progetto di origine "123" al progetto di destinazione "456", concedi le autorizzazioniservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
al bucket Cloud Storage nel progetto "123".DATA_SCHEMA
: facoltativo. I valori sonodocument
,custom
,csv
econtent
. Il valore predefinito èdocument
.document
: carica i dati non strutturati con i metadati per i documenti non strutturati. Ogni riga del file deve seguire uno dei seguenti formati. Puoi definire l'ID di ogni documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: carica il file JSON per i documenti strutturati. I dati sono organizzati in base a uno schema. Puoi specificare lo schema; in caso contrario, viene rilevato automaticamente. Puoi inserire la stringa JSON del documento in un formato coerente direttamente in ogni riga e Vertex AI Search genera automaticamente gli ID per ogni documento importato.content
: carica i documenti non strutturati (PDF, HTML, DOC, TXT, PPTX). L'ID di ogni documento viene generato automaticamente come primi 128 bit di SHA256(GCS_URI) codificati come stringa esadecimale. Puoi specificare più pattern di file di input, a condizione che i file corrispondenti non superino il limite di 100.000 file.csv
: includi una riga di intestazione nel file CSV, con ogni intestazione mappata a un campo del documento. Specifica il percorso del file CSV utilizzando il campoinputUris
.
ERROR_DIRECTORY
: facoltativo. Una directory Cloud Storage per le informazioni sugli errori relativi all'importazione, ad esempiogs://<your-gcs-bucket>/directory/import_errors
. Google consiglia di lasciare vuoto questo campo per consentire a Vertex AI Search di creare automaticamente una directory temporanea.RECONCILIATION_MODE
: facoltativo. I valori sonoFULL
eINCREMENTAL
. Il valore predefinito èINCREMENTAL
. La specifica diINCREMENTAL
provoca un aggiornamento incrementale dei dati da Cloud Storage al tuo datastore. Viene eseguita un'operazione di upsert, che aggiunge nuovi documenti e sostituisce quelli esistenti con documenti aggiornati con lo stesso ID. Se specifichiFULL
, viene eseguita una rebase completa dei documenti nel datastore. In altre parole, i documenti nuovi e aggiornati vengono aggiunti al tuo datastore e quelli che non sono in Cloud Storage vengono rimossi. La modalitàFULL
è utile se vuoi eliminare automaticamente i documenti che non ti servono più.AUTO_GENERATE_IDS
: facoltativo. Specifica se generare automaticamente gli ID documento. Se impostato sutrue
, gli ID documento vengono generati in base a un hash del payload. Tieni presente che gli ID documento generati potrebbero non rimanere coerenti in più importazioni. Se generi automaticamente gli ID in più importazioni, Google consiglia vivamente di impostarereconciliationMode
suFULL
per mantenere gli ID documento coerenti.Specifica
autoGenerateIds
solo quandogcsSource.dataSchema
è impostato sucustom
ocsv
. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
. Se non specifichiautoGenerateIds
o lo imposti sufalse
, devi specificareidField
. In caso contrario, l'importazione dei documenti non andrà a buon fine.ID_FIELD
: facoltativo. Specifica quali campi sono gli ID documento. Per i documenti di origine Cloud Storage,idField
specifica il nome nei campi JSON che sono gli ID documento. Ad esempio, se{"my_id":"some_uuid"}
è il campo ID documento in uno dei tuoi documenti, specifica"idField":"my_id"
. In questo modo, tutti i campi JSON con il nome"my_id"
vengono identificati come ID documento.Specifica questo campo solo quando: (1)
gcsSource.dataSchema
è impostato sucustom
ocsv
e (2)auto_generate_ids
è impostato sufalse
o non è specificato. In caso contrario, viene restituito un erroreINVALID_ARGUMENT
.Tieni presente che il valore del campo JSON di Cloud Storage deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme a RFC-1034. In caso contrario, l'importazione dei documenti non andrà a buon fine.
Tieni presente che il nome del campo JSON specificato da
id_field
deve essere di tipo stringa, deve essere compreso tra 1 e 63 caratteri e deve essere conforme allo standard RFC-1034. In caso contrario, l'importazione dei documenti non andrà a buon fine.
C#
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications C#.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Go
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Go.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Java
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Java.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Node.js
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Node.js.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Python
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Python.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Ruby
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API AI Applications Ruby.
Per effettuare l'autenticazione in AI Applications, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Crea un datastore
Importa documenti
Connettiti a Cloud Storage con sincronizzazione periodica
Prima di importare i dati, consulta Preparare i dati per l'importazione.
La procedura seguente descrive come creare un connettore dati che associ una posizione Cloud Storage a un connettore dati Vertex AI Search e come specificare una cartella o un file in quella posizione per il datastore che vuoi creare. I datastore figli dei connettori dati sono chiamati datastore di entità.
I dati vengono sincronizzati periodicamente con il datastore delle entità. Puoi specificare la sincronizzazione giornaliera, ogni tre giorni o ogni cinque giorni.
Console
Nella Google Cloud console, vai alla pagina AI Applications.
Vai alla pagina Datastore.
Fai clic su Crea datastore.
Nella pagina Origine, seleziona Cloud Storage.
Seleziona il tipo di dati che stai importando.
Fai clic su Periodico.
Seleziona la frequenza di sincronizzazione, ovvero la frequenza con cui vuoi che il connettore di ricerca Vertex AI si sincronizzi con la posizione di Cloud Storage. Puoi modificare la frequenza in un secondo momento.
Nella sezione Seleziona una cartella o un file da importare, seleziona Cartella o File.
Fai clic su Sfoglia e scegli i dati che hai preparato per l'importazione, quindi fai clic su Seleziona. In alternativa, inserisci la località direttamente nel campo
gs://
.Fai clic su Continua.
Scegli una regione per il connettore dati.
Inserisci un nome per il connettore dati.
(Facoltativo) Se hai selezionato documenti non strutturati, puoi selezionare le opzioni di analisi e suddivisione per i documenti. Per confrontare i parser, vedi Eseguire il parsing dei documenti. Per informazioni sul chunking, consulta Eseguire il chunking dei documenti per RAG.
L'analisi del layout e l'analisi OCR possono comportare costi aggiuntivi. Consulta la pagina Prezzi delle funzionalità di DocAI.
Per selezionare un parser, espandi Opzioni di elaborazione documenti e specifica le opzioni del parser che vuoi utilizzare.
Fai clic su Crea.
Ora hai creato un connettore dati che sincronizzerà periodicamente i dati con la posizione Cloud Storage. Hai anche creato un datastore di entità denominato
gcs_store
.Per controllare lo stato dell'importazione, vai alla pagina Datastore e fai clic sul nome del connettore dati per visualizzarne i dettagli nella pagina Dati.
Scheda Attività di importazione dati. Quando la colonna dello stato nella scheda Attività di importazione dei dati passa da In corso a Riuscito, la prima importazione è completata.
A seconda delle dimensioni dei dati, l'importazione può richiedere da alcuni minuti a diverse ore.
Dopo aver configurato l'origine dati e importato i dati per la prima volta, i dati vengono sincronizzati da questa origine con una frequenza selezionata durante la configurazione. La prima sincronizzazione avviene circa un'ora dopo la creazione del connettore dati. La sincronizzazione successiva avviene circa 24, 72 o 120 ore dopo.
Passaggi successivi
Per collegare il tuo datastore a un'app, crea un'app e seleziona il datastore seguendo i passaggi descritti in Creare un'app di consigli personalizzati.
Per visualizzare l'anteprima o ricevere consigli dopo aver configurato l'app e il datastore, consulta Ricevere consigli.
Carica dati JSON strutturati con l'API
Per caricare direttamente un documento o un oggetto JSON utilizzando l'API, segui questi passaggi.
Prima di importare i dati, preparali per l'importazione.
REST
Per utilizzare la riga di comando per creare un datastore e importare dati JSON strutturati:
Crea un datastore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore dei consigli che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME
: il nome visualizzato del datastore dei consigli che vuoi creare.
(Facoltativo) Fornisci il tuo schema. Quando fornisci uno schema, in genere ottieni risultati migliori. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore dei consigli.JSON_SCHEMA_OBJECT
: lo schema JSON come oggetto JSON, ad esempio:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importa dati strutturati conformi allo schema definito.
Esistono diversi approcci che puoi utilizzare per caricare i dati, tra cui:
Carica un documento JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Sostituisci
JSON_DOCUMENT_STRING
con il documento JSON come singola stringa. Deve essere conforme allo schema JSON fornito nel passaggio precedente, ad esempio:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Carica un oggetto JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Sostituisci
JSON_DOCUMENT_OBJECT
con il documento JSON come oggetto JSON. Deve essere conforme allo schema JSON fornito nel passaggio precedente, ad esempio:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Aggiorna con un documento JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Aggiorna con un oggetto JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Passaggi successivi
Per collegare il tuo datastore a un'app, crea un'app e seleziona il datastore seguendo la procedura descritta in Creare un'app di consigli personalizzati.
Per visualizzare l'anteprima della visualizzazione dei consigli dopo la configurazione dell'app e dell'datastore, consulta Ricevere consigli.
Creare un datastore utilizzando Terraform
Puoi utilizzare Terraform per creare un datastore vuoto. Dopo aver creato il datastore vuoto, puoi importare i dati utilizzando i comandi della Google Cloud console o dell'API.
Per scoprire come applicare o rimuovere una configurazione Terraform, consulta Comandi Terraform di base.
Per creare un datastore vuoto utilizzando Terraform, consulta
google_discovery_engine_data_store
.