Questa pagina è stata tradotta dall'API Cloud Translation.

Preparare i dati per l'importazione

La preparazione dei dati dipende dal tipo di dati che stai importando e dalla modalità di importazione scelta. Inizia con il tipo di dati che prevedi di importare:

Dati del sito web
Dati non strutturati
Dati strutturati
Dati multimediali strutturati
Dati FHIR Healthcare

Per informazioni sulla ricerca combinata, in cui è possibile collegare più datastore a una singola app di ricerca personalizzata, consulta Informazioni sul collegamento di più datastore.

Dati sui siti web

Quando crei un datastore per i dati del sito web, fornisci gli URL delle pagine web che Google deve scansionare e indicizzare per la ricerca o la raccomandazione.

Prima di indicizzare i dati del tuo sito web:

Decidi quali pattern URL includere nell'indicizzazione e quali escludere.
- Escludi i pattern per gli URL dinamici. Gli URL dinamici sono URL che cambiano al momento della pubblicazione a seconda della richiesta.
  
  Ad esempio, i pattern URL delle pagine web che mostrano i risultati di ricerca, come www.example.com/search/*. Supponiamo che un utente cerchi la frase Nobel prize. L'URL di ricerca dinamica potrebbe essere un URL univoco: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Se il pattern URL www.example.com/search/* non è escluso, tutti gli URL di ricerca dinamica univoci che seguono questo pattern vengono indicizzati. Ciò comporta un indice gonfio e una qualità della ricerca diluita.
- Elimina gli URL duplicati utilizzando i pattern di URL canonici. In questo modo viene fornito un unico URL canonico per la Ricerca Google durante la scansione del sito web e viene eliminata l'ambiguità. Per esempi di canonicalizzazione e ulteriori informazioni, consulta Che cos'è la canonicalizzazione degli URL e Come specificare un URL canonico con rel="canonical" e altri metodi.

Puoi includere pattern URL dello stesso dominio o di domini diversi che devono essere indicizzati ed escludere pattern che non devono essere indicizzati. Il numero di pattern URL che puoi includere ed escludere varia nel seguente modo:

Tipo di indicizzazione	Siti inclusi	Siti esclusi
Ricerca di base su sito web	Massimo 50 pattern URL	Massimo 50 pattern URL
Indicizzazione avanzata dei siti web	Massimo 500 pattern URL	Massimo 500 pattern URL

Se utilizzi il file robots.txt nel tuo sito web, procedi nel seguente modo:
- Verifica i crawler e i fetcher di Google.
- Assicurati che Google-CloudVertexBot possa accedere ai tuoi contenuti. Il bot di Vertex AI Search deve eseguire la scansione e l'indicizzazione delle tue informazioni, inclusi i contenuti a pagamento. Ad esempio:
```
User-agent: Google-CloudVertexBot
Allow: /
```
  È necessario che il bot di Vertex AI Search esegua la scansione e indicizzi le tue informazioni, inclusi i contenuti a pagamento. Per ulteriori informazioni sulla scansione e sull'indicizzazione dei tuoi contenuti, inclusi quelli protetti da paywall, consulta quanto segue:
  - Dati strutturati per contenuti in abbonamento e protetti da paywall
  - Risolvere i problemi di JavaScript relativi alla Ricerca
- Verifica che le pagine web che prevedi di aggiungere al datastore non blocchino l'indicizzazione.
Per ulteriori informazioni, consulta Introduzione a robots.txt e Come scrivere e inviare un file robots.txt.
Se prevedi di utilizzare l'indicizzazione avanzata dei siti web, devi essere in grado di verificare i domini per i pattern URL nel tuo datastore.
Aggiungi dati strutturati sotto forma di tag meta e PageMaps allo schema del datastore per arricchire l'indicizzazione, come spiegato in Utilizzare i dati strutturati per l'indicizzazione avanzata dei siti web.

Dati non strutturati

Vertex AI Search supporta la ricerca nei documenti in formato HTML, PDF con testo incorporato e TXT. I formati PPTX e DOCX sono disponibili in anteprima.

Importa i documenti da un bucket Cloud Storage. Puoi eseguire l'importazione utilizzando la console Google Cloud , il metodo ImportDocuments o l'importazione di flussi di dati tramite i metodi CRUD. Per informazioni di riferimento sull'API, consulta DocumentService e documents.

La seguente tabella elenca i limiti delle dimensioni dei file di ciascun tipo di file con configurazioni diverse (per ulteriori informazioni, vedi Analizzare e dividere i documenti in blocchi). Puoi importare fino a 100.000 file alla volta.

Tipo di file	Importazione predefinita	Importa con la suddivisione dei documenti in blocchi in base al layout	Importare con il parser del layout
File basati su testo come HTML, TXT, JSON, XHTML e XML	< 200 MB	< 10 MB	< 10 MB
PPTX, DOCX e XLSX	< 200 MB	< 200 MB	< 200 MB
PDF	< 200 MB	< 200 MB	< 40 MB

Se prevedi di includere incorporamenti nei tuoi dati non strutturati, consulta la sezione Utilizzare incorporamenti personalizzati.

Se hai PDF non ricercabili (PDF scansionati o PDF con testo all'interno delle immagini, come le infografiche), ti consigliamo di attivare l'analizzatore di layout durante la creazione del datastore. In questo modo, Vertex AI Search può estrarre elementi come blocchi di testo e tabelle. Se hai PDF ricercabili composti principalmente da testo leggibile dalla macchina e contenenti molte tabelle, puoi valutare di attivare l'elaborazione OCR con l'opzione per il testo leggibile dalla macchina abilitata per migliorare il rilevamento e l'analisi. Per saperne di più, consulta Analizzare e dividere i documenti in blocchi.

Se vuoi utilizzare Vertex AI Search per la generazione RAG (Retrieval-Augmented Generation), attiva la suddivisione dei documenti in blocchi quando crei il datastore. Per saperne di più, consulta Analizzare e dividere i documenti in blocchi.

Puoi importare dati non strutturati dalle seguenti origini:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Puoi importare i dati da Cloud Storage con o senza metadati.

L'importazione dei dati è ricorsiva. ovvero, se ci sono cartelle all'interno del bucket o della cartella che specifichi, i file all'interno di queste cartelle vengono importati.

Se prevedi di importare documenti da Cloud Storage senza metadati, inserisci i documenti direttamente in un bucket Cloud Storage. L'ID documento è un esempio di metadati.

Per i test, puoi utilizzare le seguenti cartelle Cloud Storage disponibili pubblicamente, che contengono PDF:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Se prevedi di importare dati da Cloud Storage con metadati, inserisci un file JSON che contiene i metadati in un bucket Cloud Storage di cui fornisci la posizione durante l'importazione.

I documenti non strutturati possono trovarsi nello stesso bucket Cloud Storage dei metadati o in un bucket diverso.

Il file di metadati deve essere un file JSON Lines o NDJSON. L'ID documento è un esempio di metadati. Ogni riga del file di metadati deve seguire uno dei seguenti formati JSON:

Utilizzo di jsonData:
- { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Utilizzo di structData:
- { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Utilizza il campo uri in ogni riga per indicare la posizione Cloud Storage del documento.

Ecco un esempio di file di metadati NDJSON per un documento non strutturato. In questo esempio, ogni riga del file di metadati punta a un documento PDF e contiene i metadati per quel documento. Le prime due righe utilizzano jsonData e le seconde due righe utilizzano structData. Con structData non è necessario eseguire l'escape delle virgolette che compaiono all'interno delle virgolette.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Per creare il datastore, vedi Creare un datastore di ricerca.

BigQuery

Se prevedi di importare i metadati da BigQuery, crea una tabella BigQuery che contenga i metadati. L'ID documento è un esempio di metadati.

Inserisci i documenti non strutturati in un bucket Cloud Storage.

Utilizza lo schema BigQuery seguente. Utilizza il campo uri in ogni record per indicare la posizione del documento in Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Per saperne di più, consulta Creare e utilizzare le tabelle nella documentazione di BigQuery.

Per creare il datastore, vedi Creare un datastore di ricerca.

Google Drive

La sincronizzazione dei dati da Google Drive è supportata per la ricerca personalizzata.

Se prevedi di importare dati da Google Drive, devi configurare Google Identity come provider di identità in Vertex AI Search. Per informazioni sulla configurazione del controllo dell'accesso, consulta Utilizza il controllo dell'accesso all'origine dati.

Per creare il datastore, vedi Creare un datastore di ricerca.

Dati strutturati

Prepara i dati in base al metodo di importazione che intendi utilizzare. Se prevedi di importare dati multimediali, consulta anche Dati multimediali strutturati.

Puoi importare dati strutturati dalle seguenti origini:

Cloud Storage
Dati JSON locali

Quando importi dati strutturati da BigQuery o da Cloud Storage, hai la possibilità di importarli con i metadati. I dati strutturati con metadati sono anche chiamati dati strutturati avanzati.

BigQuery

Puoi importare dati strutturati dai set di dati BigQuery.

Lo schema viene rilevato automaticamente. Dopo l'importazione, Google consiglia di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Se esegui l'importazione utilizzando l'API anziché la console Google Cloud , hai la possibilità di fornire il tuo schema come oggetto JSON. Per saperne di più, vedi Fornire o rilevare automaticamente uno schema.

Per esempi di dati strutturati disponibili pubblicamente, consulta i set di dati pubblici BigQuery.

Se prevedi di includere incorporamenti nei tuoi dati strutturati, consulta la sezione Utilizzare gli incorporamenti personalizzati.

Se scegli di importare dati strutturati con metadati, includi due campi nelle tabelle BigQuery:

Un campo id per identificare il documento. Se importi dati strutturati senza metadati, viene generato automaticamente il id. L'inclusione dei metadati ti consente di specificare il valore di id.
Un campo jsonData che contiene i dati. Per esempi di stringhe jsonData, consulta la sezione precedente Cloud Storage.

Utilizza il seguente schema BigQuery per le importazioni di dati strutturati con metadati:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Per istruzioni su come creare il datastore, vedi Creare un datastore di ricerca o Creare un datastore di consigli.

Cloud Storage

I dati strutturati in Cloud Storage devono essere in formato JSON Lines o NDJSON. Le dimensioni di ogni file non devono superare i 2 GB. Puoi importare fino a 1000 file in un'unica richiesta di importazione.

Per esempi di dati strutturati disponibili pubblicamente, consulta le seguenti cartelle in Cloud Storage, che contengono file NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Se prevedi di includere incorporamenti nei tuoi dati strutturati, consulta la sezione Utilizzare gli incorporamenti personalizzati.

Ecco un esempio di file di metadati NDJSON di dati strutturati. Ogni riga del file rappresenta un documento ed è costituita da un insieme di campi.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Per creare il datastore, vedi Creare un datastore di ricerca o Creare un datastore di consigli.

Dati JSON locali

Puoi caricare direttamente un documento o un oggetto JSON utilizzando l'API.

Per ottenere risultati migliori, Google consiglia di fornire il tuo schema come oggetto JSON. Se non fornisci il tuo schema, questo viene rilevato automaticamente. Dopo l'importazione, ti consigliamo di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Per saperne di più, vedi Fornire o rilevare automaticamente uno schema.

Se prevedi di includere incorporamenti nei tuoi dati strutturati, consulta la sezione Utilizzare gli incorporamenti personalizzati.

Per creare il datastore, vedi Creare un datastore di ricerca o Creare un datastore di consigli.

Dati multimediali strutturati

Se prevedi di importare dati multimediali strutturati, come video, notizie o musica, esamina quanto segue:

Informazioni sul metodo di importazione (BigQuery o Cloud Storage): dati strutturati
Schemi e campi obbligatori per i documenti e i datastore multimediali: Informazioni su documenti e datastore multimediali
Requisiti e schemi degli eventi utente: Informazioni sugli eventi utente multimediali
Informazioni sui tipi di consigli sui contenuti multimediali: Informazioni sui tipi di consigli sui contenuti multimediali

Dati FHIR Healthcare

Se prevedi di importare dati FHIR dall'API Cloud Healthcare, assicurati che:

Posizione: l'archivio FHIR di origine deve trovarsi in un set di dati dell'API Cloud Healthcare che si trova nella posizione us-central1, us o eu. Per saperne di più, vedi Creare e gestire set di dati nell'API Cloud Healthcare.
Tipo di datastore FHIR: il datastore FHIR di origine deve essere di tipo R4. Puoi controllare le versioni dei tuoi archivi FHIR elencando gli archivi FHIR nel tuo set di dati. Per creare un archivio FHIR R4, consulta Creare archivi FHIR.
Quota di importazione: il datastore FHIR di origine deve contenere meno di 1 milione di risorse FHIR. Se sono presenti più di 1 milione di risorse FHIR, il processo di importazione si interrompe una volta raggiunto questo limite. Per ulteriori informazioni, consulta Quote e limiti.
I file a cui viene fatto riferimento in una risorsa DocumentReference devono essere file PDF, RTF o immagine archiviati in Cloud Storage. Il link ai file a cui viene fatto riferimento deve trovarsi nel campo content[].attachment.url della risorsa nel formato standard del percorso Cloud Storage: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
Esamina l'elenco delle risorse FHIR R4 supportate da Vertex AI Search. Per ulteriori informazioni, consulta Riferimento allo schema dei dati FHIR R4 per il settore sanitario.
Riferimenti alle risorse: assicurati che i riferimenti alle risorse relative siano nel formato Resource/resourceId. Ad esempio, subject.reference deve avere il valore Patient/034AB16. Per ulteriori informazioni su come l'API Cloud Healthcare supporta i riferimenti alle risorse FHIR, consulta Riferimenti tra risorse FHIR.