La modalità di preparazione dei dati dipende dal tipo di dati che stai importando e dal modo in cui scegli di importarli. Inizia con il tipo di dati che prevedi di importare:
- Dati del sito web
- Dati non strutturati
- Dati strutturati
- Origini dati di terze parti
- Dati multimediali strutturati
- Dati FHIR sanitari
Per informazioni sulla ricerca combinata, in cui è possibile collegare più datastore a una singola app di ricerca generica, consulta Informazioni sul collegamento di più datastore.
Dati sui siti web
Quando crei un datastore per i dati del sito web, fornisci gli URL delle pagine web che Google deve eseguire la scansione e indicizzare per la ricerca o la raccomandazione.
Prima di indicizzare i dati del tuo sito web:
Decidi quali pattern URL includere nell'indicizzazione e quali escludere.
Escludi i pattern per gli URL dinamici. Gli URL dinamici sono URL che cambiano al momento della pubblicazione a seconda della richiesta.
Ad esempio, i pattern URL per le pagine web che pubblicano i risultati di ricerca, come
www.example.com/search/*
. Supponiamo che un utente cerchi la fraseNobel prize
. L'URL di ricerca dinamico potrebbe essere un URL univoco:www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Se il pattern URLwww.example.com/search/*
non è escluso, tutti gli URL di ricerca dinamica univoci che seguono questo pattern vengono indicizzati. Ciò comporta un indice gonfiato e una qualità della ricerca diluita.Elimina gli URL duplicati utilizzando pattern URL canonici. In questo modo viene fornito un unico URL canonico per la Ricerca Google durante la scansione del sito web e viene eliminata l'ambiguità. Per esempi di canonicalizzazione e altre informazioni, consulta Che cos'è la canonicalizzazione degli URL e Come specificare un URL canonico con rel="canonical" e altri metodi.
Puoi includere pattern URL di domini uguali o diversi che devono essere indicizzati ed escludere quelli che non devono essere indicizzati. Il numero di pattern URL che puoi includere ed escludere è diverso nel seguente modo:
Tipo di indicizzazione Siti inclusi Siti esclusi Ricerca di base su sito web Massimo 50 pattern URL Massimo 50 pattern URL Indicizzazione avanzata dei siti web Massimo 500 pattern URL Massimo 500 pattern URL Verifica che le pagine web che prevedi di fornire non utilizzino il file robots.txt per bloccare l'indicizzazione. Per ulteriori informazioni, consulta l'introduzione al file robots.txt.
Se prevedi di utilizzare l'indicizzazione avanzata dei siti web, devi essere in grado di verificare i domini per i pattern URL nel tuo datastore.
Aggiungi dati strutturati sotto forma di tag
meta
e PageMaps allo schema del tuo datastore per arricchire l'indicizzazione, come spiegato in Utilizzare i dati strutturati per l'indicizzazione avanzata dei siti web.
Dati non strutturati
Vertex AI Search supporta la ricerca in documenti in formato HTML, PDF con testo incorporato e TXT. I formati PPTX e DOCX sono disponibili in Anteprima.
Importa i documenti da un bucket Cloud Storage. Puoi eseguire l'importazione utilizzando la console Google Cloud, il metodo ImportDocuments
o l'importazione di flussi di dati tramite i metodi CRUD.
Per informazioni di riferimento sull'API, consulta DocumentService
e documents
.
La tabella seguente elenca i limiti di dimensione dei file di ciascun tipo con configurazioni diverse (per ulteriori informazioni, consulta Eseguire l'analisi e suddividere i documenti). Puoi importare fino a 100.000 file alla volta.
Tipo di file | Importazione predefinita | Importazione con suddivisione dei documenti in base al layout | Importa con il parser layout |
---|---|---|---|
File basati su testo come HTML, TXT, JSON, XHTML e XML | < 2,5 MB | < 10 MB | < 10 MB |
PPTX, DOCX e XLSX | < 200 MB | < 200 MB | < 200 MB |
< 200 MB | < 200 MB | < 40 MB |
Se prevedi di includere gli embedding nei tuoi dati non strutturati, consulta Utilizzare gli embedding personalizzati.
Se hai PDF non sottoposti a ricerca (PDF scansionati o PDF con testo all'interno di immagini, come le infografiche), ti consigliamo di attivare l'elaborazione tramite il riconoscimento ottico dei caratteri (OCR) durante la creazione dell'datastore. In questo modo, Vertex AI Search può estrarre elementi come blocchi di testo e tabelle. Se hai PDF disponibili per la ricerca composti principalmente da testo leggibile dalla macchina e contengono molte tabelle, puoi valutare la possibilità di attivare l'elaborazione OCR con l'opzione per il testo leggibile dalla macchina attivata per migliorare il rilevamento e l'analisi. Per ulteriori informazioni, consulta Eseguire l'analisi e suddividere i documenti.
Se vuoi utilizzare Vertex AI Search per la generazione basata sul recupero (RAG), attiva il chunking dei documenti quando crei il tuo datastore. Per ulteriori informazioni, consulta Eseguire l'analisi e il chunking dei documenti.
Puoi importare dati non strutturati dalle seguenti origini:
Cloud Storage
Puoi importare i dati da Cloud Storage con o senza metadati.
L'importazione dei dati non è ricorsiva. In altre parole, se all'interno del bucket o della cartella specificata sono presenti cartelle, i file al loro interno non vengono importati.
Se prevedi di importare documenti da Cloud Storage senza metadati, inseriscili direttamente in un bucket Cloud Storage. L'ID documento è un esempio di metadati.
Per i test, puoi utilizzare le seguenti cartelle Cloud Storage disponibili pubblicamente, che contengono PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Se prevedi di importare dati da Cloud Storage con metadati, inserisci un file JSON contenente i metadati in un bucket Cloud Storage di cui fornisci la posizione durante l'importazione.
I documenti non strutturati possono trovarsi nello stesso bucket Cloud Storage dei metadati o in un altro.
Il file di metadati deve essere un file JSON Lines o NDJSON. L'ID documento è un esempio di metadati. Ogni riga del file dei metadati deve seguire uno dei seguenti formati JSON:
- Utilizzo di
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Utilizzo di
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Utilizza il campo uri
in ogni riga per indicare la posizione di Cloud Storage del documento.
Ecco un esempio di file di metadati NDJSON per un documento non strutturato. In questo esempio, ogni riga del file dei metadati rimanda a un documento PDF e contiene i metadati del documento. Le prime due righe utilizzano jsonData
e le altre due structData
. Con structData
non è necessario eseguire l'escape delle virgolette all'interno di altre virgolette.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di suggerimenti.
BigQuery
Se prevedi di importare i metadati da BigQuery, crea una tabella BigQuery contenente i metadati. L'ID documento è un esempio di metadati.
Inserisci i documenti non strutturati in un bucket Cloud Storage.
Utilizza lo schema BigQuery seguente. Utilizza il campo uri
in ogni record per indicare la posizione del documento in Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Per ulteriori informazioni, consulta Creare e utilizzare le tabelle nella documentazione di BigQuery.
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di suggerimenti.
Google Drive
La sincronizzazione dei dati da Google Drive è supportata per la ricerca generica.
Se prevedi di importare dati da Google Drive, devi configurare l'identità Google come provider di identità in Vertex AI Agent Builder. Per informazioni sulla configurazione del controllo dell'accesso dell'accesso, consulta Utilizzare il controllo dell'accesso alle origini dati.
Per creare il datastore, consulta Creare un datastore di ricerca.
Dati strutturati
Prepara i dati in base al metodo di importazione che prevedi di utilizzare. Se hai intenzione di importare dati multimediali, consulta anche la sezione Dati multimediali strutturati.
Puoi importare i dati strutturati dalle seguenti origini:
- BigQuery
- Cloud Storage
- Dati JSON locali
- Origini dati di terze parti (anteprima con lista consentita)
Quando importi dati strutturati da BigQuery o da Cloud Storage, hai la possibilità di importarli con i metadati. I dati strutturati con metadati sono noti anche come dati strutturati avanzati.
BigQuery
Puoi importare dati strutturati dai set di dati BigQuery.
Lo schema viene rilevato automaticamente. Dopo l'importazione, Google consiglia di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Se effettui l'importazione utilizzando l'API anziché la console Google Cloud, hai la possibilità di fornire il tuo schema come oggetto JSON. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
Per esempi di dati strutturati disponibili pubblicamente, consulta i set di dati pubblici di BigQuery.
Se prevedi di includere gli elementi incorporati nei tuoi dati strutturati, consulta Utilizzare elementi incorporati personalizzati.
Se selezioni l'importazione di dati strutturati con metadati, includi due campi nelle tue tabelle BigQuery:
Un campo
id
per identificare il documento. Se importi dati strutturati senza metadati,id
viene generato automaticamente. L'inclusione dei metadati consente di specificare il valore diid
.Un campo
jsonData
che contiene i dati. Per esempi di stringhejsonData
, consulta la sezione precedente Cloud Storage.
Utilizza lo schema BigQuery seguente per le importazioni di dati strutturati con metadati:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Per istruzioni su come creare il datastore, consulta Creare un datastore per la ricerca o Creare un datastore per i consigli.
Cloud Storage
I dati strutturati in Cloud Storage devono essere in formato JSON Lines o NDJSON. Le dimensioni di ogni file non devono superare i 2 GB. Puoi importare fino a 100 file alla volta.
Per esempi di dati strutturati disponibili pubblicamente, consulta le seguenti cartelle in Cloud Storage, che contengono file NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Se prevedi di includere gli elementi incorporati nei tuoi dati strutturati, consulta Utilizzare elementi incorporati personalizzati.
Ecco un esempio di file di metadati NDJSON di dati strutturati. Ogni riga del file rappresenta un documento ed è costituita da un insieme di campi.
{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di suggerimenti.
Per informazioni sulla formattazione dei dati delle domande frequenti nei file CSV per le app di chat, consulta Structured data store nella documentazione di Dialogflow CX.
Dati JSON locali
Puoi caricare direttamente un documento o un oggetto JSON utilizzando l'API.
Per ottenere risultati migliori, Google consiglia di fornire il tuo schema come oggetto JSON. Se non fornisci il tuo schema, questo viene rilevato automaticamente. Dopo l'importazione, ti consigliamo di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, ad esempio i titoli. Per saperne di più, consulta Fornire o rilevare automaticamente uno schema.
Se prevedi di includere gli elementi incorporati nei tuoi dati strutturati, consulta Utilizzare elementi incorporati personalizzati.
Per creare il datastore, consulta Creare un datastore di ricerca o Creare un datastore di suggerimenti.
Dati multimediali strutturati
Se prevedi di importare dati multimediali strutturati, come video, notizie o musica, esamina quanto segue:
- Informazioni sul metodo di importazione (BigQuery o Cloud Storage): Dati strutturati
- Schemi e campi obbligatori per i documenti multimediali e i datastore: Informazioni sui documenti multimediali e sui datastore
- Requisiti e schemi degli eventi utente: Informazioni sugli eventi utente
- Informazioni sui tipi di consigli per i contenuti multimediali: Informazioni sui tipi di consigli per i contenuti multimediali
Origini dati di terze parti
L'importazione da origini dati di terze parti è un'anteprima con la funzionalità della lista consentita.
Le connessioni delle origini dati di terze parti sono supportate per la ricerca generica.
Quando colleghi un'origine dati di terze parti, i dati vengono inizialmente importati e poi sincronizzati con Vertex AI Search con la frequenza specificata.
Prima di configurare la connessione dell'origine dati, devi configurare il controllo dell'accesso per l'origine dati. Per informazioni sulla configurazione del controllo dell'accesso dell'accesso, consulta Utilizzare il controllo dell'accesso alle origini dati.
Per le credenziali richieste per connettere un'origine dati, consulta la documentazione relativa alla connessione dell'origine dati di terze parti da cui prevedi di importare i dati:
Dati FHIR Healthcare
Se prevedi di importare dati FHIR dall'API Cloud Healthcare, verifica quanto segue:
- Posizione: l'archivio FHIR di origine deve trovarsi in un set di dati dell'API Cloud Healthcare nella posizione
us-central1
,us
oeu
. Per ulteriori informazioni, consulta Creare e gestire set di dati nell'API Cloud Healthcare. - Tipo di archivio FHIR: l'archivio FHIR di origine deve essere un datastore R4. Puoi controllare le versioni dei tuoi archivi FHIR elencandoli nel tuo set di dati. Per creare un archivio FHIR R4, consulta Creare archivi FHIR.
- Quota di importazione: il datastore FHIR di origine deve contenere meno di un milione di risorse FHIR. Se sono presenti più di un milione di risorse FHIR, il processo di importazione si interrompe dopo aver raggiunto questo limite. Per ulteriori informazioni, consulta Quote e limiti.
- I file a cui viene fatto riferimento in una risorsa
DocumentReference
devono essere file PDF, RTF o di immagini archiviati in Cloud Storage. Il link ai file a cui si fa riferimento deve trovarsi nel campocontent[].attachment.url
della risorsa nel formato del percorso Cloud Storage standard:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
. - Esamina l'elenco delle risorse FHIR R4 supportate da Vertex AI Search. Per ulteriori informazioni, consulta la documentazione di riferimento dello schema di dati FHIR R4 per la salute.