I datastore vengono utilizzati dagli handler dei datastore e dagli strumenti dei datastore dei playbook per trovare risposte alle domande degli utenti finali tra i tuoi dati. I datastore sono una raccolta di siti web e documenti, ciascuno dei quali fa riferimento ai tuoi dati.
Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta nei contenuti della fonte specificata e riassume i risultati in una risposta coerente. Fornisce inoltre link di supporto alle fonti della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.
Origini del datastore
Puoi fornire dati provenienti da diverse fonti:
- URL del sito web: esegui automaticamente la scansione dei contenuti del sito web da un elenco di domini o pagine web.
- BigQuery: importa i dati dalla tabella BigQuery.
- Cloud Storage: importa i dati dal tuo bucket Cloud Storage.
Contenuti dei siti web
Quando aggiungi i contenuti di un sito web come origine, puoi aggiungere ed escludere più siti.
Quando specifichi un sito,
puoi utilizzare singole pagine o *
come carattere jolly per un pattern.
Tutti i contenuti HTML e PDF verranno elaborati.
Devi verificare il tuo dominio quando utilizzi i contenuti del sito web come fonte.
Limitazioni:
- I file provenienti da URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google, in modo che esistano nell'indice di ricerca. Puoi controllare questo aspetto con Google Search Console.
- Vengono indicizzate un massimo di 200.000 pagine. Se l'datastore contiene altre pagine, l'indicizzazione non va a buon fine e rimangono gli ultimi contenuti indicizzati.
Importa dati
Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere strutturati o non strutturati, e possono essere con metadati o senza metadati.
Sono disponibili le seguenti opzioni di importazione dati:
- Aggiungi/aggiorna dati: i documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un vecchio documento, il nuovo documento sostituisce quello precedente.
- Sostituisci i dati esistenti: tutti i dati precedenti vengono eliminati, quindi vengono caricati i nuovi dati. Questa operazione è irreversibile.
Datastore di dati strutturati
Gli store di dati strutturati possono contenere le risposte alle domande frequenti (FAQ). Quando le domande degli utenti corrispondono con un'elevata affidabilità a una domanda caricata, l'agente restituisce la risposta alla domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domande e risposte visualizzata dall'agente.
Quando carichi i dati nello datastore, devi utilizzare il formato CSV. Ogni file deve avere una riga di intestazione che descriva le colonne.
Ad esempio:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Le colonne title
e url
sono facoltative e possono essere omesse:
"answer","question"
"42","What is the meaning of life?"
Durante il processo di caricamento, è possibile selezionare una cartella in cui ogni file viene trattato come un file CSV, indipendentemente dall'estensione.
Limitazioni:
- Un carattere spazio aggiuntivo dopo
,
causa un errore. - Le righe vuote (anche alla fine del file) causano un errore.
Datastore non strutturato
I datastore di dati non strutturati possono contenere contenuti nei seguenti formati:
- HTML
- TXT
- CSV
Limitazioni:
- La dimensione massima del file è 2,5 MB per i formati basati su testo e 100 MB per gli altri formati.
Datastore con metadati
Come metadati è possibile fornire un titolo e un URL. Quando l'agente è in conversazione con un utente, può fornire queste informazioni all'utente. In questo modo, gli utenti possono collegarsi rapidamente a pagine web interne non accessibili dall'indicizzatore della Ricerca Google.
Per importare i contenuti con i metadati, fornisci uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; gli URI che rimandano ai percorsi Cloud Storage sono forniti nel file JSON Lines.
Quando fornisci i file JSON Lines, fornisci una cartella Cloud Storage che li contiene. Non inserire altri file in questa cartella.
Descrizioni dei campi:
Campo | Tipo | Descrizione |
---|---|---|
ID | string | Identificatore univoco del documento. |
content.mimeType | string | Tipo MIME del documento. Sono supportati i tipi "application/pdf" e "text/html". |
content.uri | string | URI del documento in Cloud Storage. |
structData | string | Oggetto JSON a riga singola con campi facoltativi title e url . |
Ad esempio:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Archivio dati senza metadati
Questo tipo di contenuti non ha metadati. Fornisci semplicemente i documenti da importare. Il tipo di contenuti è determinato dall'estensione del file.
Configurazione di analisi e suddivisione in blocchi
A seconda dell'origine dati, potresti essere in grado di configurare impostazioni di analisi e suddivisione come definito da Vertex AI Search.
Crea un datastore
Per creare un datastore:
Vai alla console Agent Builder:
Seleziona il progetto dal menu a discesa della console.
Leggi e accetta i Termini di servizio, quindi fai clic su Continua e attiva l'API.
Fai clic su Datastore nel riquadro di navigazione a sinistra.
Fai clic su Nuovo archivio dati.
Scegli un'origine dati.
Attiva l'indicizzazione avanzata dei siti web. Questo è necessario per gli agenti datastore.
Fornisci i dati e la configurazione per l'origine del datastore selezionata. La posizione del tuo datastore deve corrispondere alla posizione dell'agente.
Fai clic su Crea per creare il datastore.
Se vuoi, imposta il linguaggio del datastore:
- Nell'elenco dei datastore, fai clic sul datastore appena creato.
- Fai clic sul pulsante di modifica per l'impostazione della lingua.
- Seleziona una lingua e fai clic sul segno di spunta per applicarla.
Utilizzo di Cloud Storage per un documento datastore
Se i tuoi contenuti non sono pubblici, la soluzione consigliata è archiviarli in Cloud Storage.
Quando crei documenti datastore,
fornisci gli URL per i tuoi oggetti Cloud Storage nel formato:
gs://bucket-name/folder-name
.
Ogni documento all'interno della cartella viene aggiunto allo datastore.
Quando crei il bucket Cloud Storage:
- Assicurati di aver selezionato il progetto che utilizzi per l'agente.
- Utilizza la classe di archiviazione Standard.
- Imposta la posizione del bucket sulla stessa posizione dell'agente.
Segui le istruzioni della guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.
Lingue
Per le lingue supportate, consulta la colonna del datastore nel riferimento alle lingue.
Per ottenere il massimo rendimento, è consigliabile creare gli archivi dati in un'unica lingua.
Dopo aver creato un datastore, se vuoi puoi specificare la lingua del datastore. Se imposti la lingua del datastore, puoi collegarlo a un agente configurato per una lingua diversa. Ad esempio, puoi creare un datastore in francese collegato a un agente in inglese.
Aree geografiche supportate
Per le regioni supportate, consulta il riferimento alla regione.