Datastore

I datastore vengono utilizzati dagli strumenti per i datastore per trovare le risposte alle domande degli utenti finali nei tuoi dati. I data store sono una raccolta di siti web, documenti o dati in sistemi di terze parti, ognuno dei quali fa riferimento ai tuoi dati.

Quando un utente finale pone una domanda all'agente, l'agente cerca una risposta nei contenuti di origine forniti e riassume i risultati in una risposta coerente. Fornisce inoltre link di supporto alle fonti della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.

Origini del datastore

Puoi fornire diverse origini per i tuoi dati:

  • URL dei siti web: esegui automaticamente la scansione dei contenuti dei siti web da un elenco di domini o pagine web.
  • BigQuery: Importa i dati dalla tabella BigQuery.
  • Cloud Storage: Importa i dati dal bucket Cloud Storage.
  • AlloyDB: Importa i dati dal tuo cluster AlloyDB.
  • Bigtable: importa i dati da una tabella Bigtable.
  • Firestore: Importa i dati dalla raccolta Firestore.
  • Cloud SQL: Importa i dati da una tabella Cloud SQL.
  • Spanner: Importa i dati da una tabella Spanner.

Origini datastore con accesso limitato

Google offre molte altre origini di datastore proprietari e di terze parti come funzionalità di accesso limitato. Per visualizzare un elenco delle origini disponibili e richiedere l'accesso, consulta la sezione Origini aggiuntive del datastore in questa pagina.

Contenuti dei siti web

Quando aggiungi contenuti di siti web come origine, puoi aggiungere ed escludere più siti. Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Verranno elaborati tutti i contenuti HTML e PDF.

Quando utilizzi i contenuti del sito web come origine, devi verificare il tuo dominio.

Limitazioni:

  • I file provenienti da URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google, in modo che esistano nell'indice di ricerca. Puoi verificarlo con Google Search Console.
  • Viene indicizzato un massimo di 200.000 pagine. Se l'datastore contiene più pagine, l'indicizzazione non andrà a buon fine. I contenuti già indicizzati rimarranno.

Importa dati

Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere in formato FAQ o non strutturati e possono essere con metadati o senza metadati.

Sono disponibili le seguenti opzioni di importazione dati:

  • Aggiungi/Aggiorna dati: I documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un documento precedente, il nuovo documento sostituisce quello precedente.
  • Sovrascrivi i dati esistenti: tutti i dati precedenti vengono eliminati, poi vengono caricati i nuovi dati. Questa operazione è irreversibile.

Datastore delle domande frequenti

I datastore delle domande frequenti possono contenere risposte alle domande frequenti. Quando le domande degli utenti vengono abbinate con un alto livello di confidenza a una domanda caricata, l'agente restituisce la risposta a quella domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia domanda-risposta visualizzata dall'agente.

I dati devono essere caricati nel datastore in formato CSV. Ogni file deve avere una riga di intestazione che descrive le colonne.

Ad esempio:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Le colonne title e url sono facoltative e possono essere omesse:

"answer","question"
"42","What is the meaning of life?"

Durante la procedura di caricamento, puoi selezionare una cartella in cui ogni file viene trattato come un file CSV indipendentemente dall'estensione.

Limitazioni:

  • Un carattere spazio aggiuntivo dopo , causa un errore.
  • Le righe vuote (anche alla fine del file) causano un errore.

Datastore non strutturato

I datastore non strutturati possono contenere contenuti nei seguenti formati:

  • HTML
  • PDF
  • TXT
  • CSV

È possibile (ma raro) importare file dal bucket Cloud Storage di un altro progetto. Per farlo, devi concedere l'accesso esplicito alla procedura di importazione. Segui le istruzioni riportate nel messaggio di errore, che contiene il nome dell'utente che deve disporre dell'accesso in lettura al bucket per eseguire l'importazione.

Limitazioni:

  • La dimensione massima del file è 2,5 MB per i formati basati su testo, 100 MB per gli altri formati.

Datastore con metadati

Un titolo e URL possono essere forniti come metadati. Quando l'agente è in una conversazione con un utente, può fornire queste informazioni all'utente. In questo modo, gli utenti possono collegarsi rapidamente a pagine web interne non accessibili all'indicizzatore della Ricerca Google.

Per importare contenuti con metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; URIs i link ai percorsi Cloud Storage vengono forniti nel file JSON Lines.

Per fornire i file JSON Lines, devi fornire una cartella Cloud Storage che li contenga. Non inserire altri file in questa cartella.

Descrizioni dei campi:

Campo Tipo Descrizione
ID string Identificatore univoco del documento.
content.mimeType string Tipo MIME del documento. Sono supportati "application/pdf" e "text/html".
content.uri string URI del documento in Cloud Storage.
structData string Oggetto JSON su una sola riga con campi title e url facoltativi.

Ad esempio:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore senza metadati

Questo tipo di contenuti non ha metadati. Fornisci invece link URI ai singoli documenti. Il tipo di contenuti è determinato dall'estensione del file.

Configurazione di analisi e suddivisione

A seconda dell'origine dati, potresti essere in grado di configurare le impostazioni di analisi e suddivisione come definite da Vertex AI Search.

Utilizzare Cloud Storage per un documento del datastore

Se i tuoi contenuti non sono pubblici, l'opzione consigliata è archiviarli in Cloud Storage. Quando crei documenti del datastore, fornisci gli URL degli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.

Quando crei il bucket Cloud Storage:

Segui le istruzioni della guida rapida di Cloud Storage per creare un bucket e caricare i file.

Lingue

Per le lingue supportate, consulta la colonna del datastore nel riferimento alle lingue.

Per ottenere prestazioni ottimali, è consigliabile creare datastore in una sola lingua.

Dopo aver creato un datastore, puoi specificare facoltativamente la lingua del datastore. Se imposti la lingua del datastore, puoi collegarlo a un agente configurato per una lingua diversa. Ad esempio, puoi creare un datastore in francese collegato a un agente in inglese.

Aree geografiche supportate

Per le regioni supportate, consulta il riferimento alle regioni.

(Accesso limitato) Altre origini dell'datastore

Nella tabella seguente sono elencati altri tipi di datastore. Sono disponibili come funzionalità ad accesso limitato. Per richiedere l'accesso, puoi compilare il modulo della lista consentita. Una volta approvate, potrai visualizzare queste opzioni quando crei un nuovo datastore in AI Applications.

Origini dei datastore Google

Origine datastore Descrizione
Google Drive Link al Drive dell'organizzazione.
(Anteprima) Google Gmail Link all'account Gmail dell'organizzazione.
(Anteprima) Google Sites Link a Sites dell'organizzazione.
(Anteprima) Google Calendar Link a Calendar dell'organizzazione.
(Anteprima) Google Gruppi Link ai Gruppi dell'organizzazione.

Origini di datastore di terze parti

Origine datastore Descrizione
(Anteprima) AODocs Importa i dati dal tuo sistema di gestione dei documenti AODocs.
Box Importa dati dal sito Box della tua organizzazione.
Confluence Cloud Importa dati dal tuo spazio di lavoro Confluence Cloud.
(Anteprima) Confluence Data Center Importa dati dal tuo spazio di lavoro Confluence Data Center.
Dropbox Importa i dati dallo spazio di archiviazione Dropbox.
EntraID Importa i dati dal sistema EntraID della tua organizzazione.
(Anteprima) HubSpot Importa dati dal sito HubSpot della tua organizzazione.
Jira Cloud Importa i dati dal sistema di gestione delle attività Jira.
(Anteprima) Jira Data Center Importa i dati dal sito Jira Data Center.
(Anteprima) Marketo Importa i dati dal sistema di marketing Marketo della tua organizzazione.
(Anteprima) Notion Importa dati dallo spazio di lavoro Notion della tua organizzazione.
OneDrive Importa i dati dallo spazio di archiviazione OneDrive della tua organizzazione.
Microsoft Outlook Importa i dati da Microsoft Outlook.
Salesforce Importa i dati da Salesforce.
ServiceNow Importa i dati da ServiceNow.
SharePoint Importa dati dal sistema SharePoint della tua organizzazione.
(Anteprima) Shopify Importa i dati dal sistema Shopify della tua organizzazione.
Slack Importa dati da Slack.
Microsoft Teams Importa i dati da Microsoft Teams.
(Anteprima) WordPress Importa dati dal sito WordPress della tua organizzazione.

Configurare un datastore di terze parti utilizzando un connettore

Questa sezione descrive la procedura di configurazione di un datastore utilizzando dati di terze parti. Le istruzioni specifiche per ogni origine dati di terze parti sono disponibili nella documentazione sull'AI generativa.

Provider di identità

I provider di identità consentono di gestire utenti, gruppi e autenticazione. Quando configuri undatastorei di terze parti, puoi utilizzare un provider di identità Google o un provider di identità di terze parti.

Provider di identità Google:

  • Tutti gli utenti dell'agente devono accedere utilizzando le proprie credenziali Google. Può trattarsi di qualsiasi indirizzo email @gmail.com o di qualsiasi account che utilizza Google come provider di identità (ad esempio, Google Workspace). Questo passaggio viene ignorato se gli utenti parlano con l'agente utilizzando Google Cloud direttamente, perché l'identità Google è integrata automaticamente nel sistema.
  • Puoi assegnare l'accesso agli Account Google utilizzando IAM.

Provider di identità di terze parti:

  • Gli utenti dell'agente accedono utilizzando credenziali non Google, ad esempio un indirizzo email Microsoft.
  • Devi creare un pool di forza lavoro utilizzando Google Cloud contenente i provider di identità non Google. Puoi quindi utilizzare IAM per concedere l'accesso all'intero pool o a singoli utenti all'interno del pool.
  • Questo metodo non può essere utilizzato con i progetti Google Cloud configurati nell'organizzazione@google.com.

Connettori

I datastore di terze parti vengono implementati utilizzando un connettore. Ogni connettore può contenere più datastore, che vengono archiviati come entità nel sistema Conversational Agents (Dialogflow CX).

  • Prima di creare un datastore, devi configurare ogni regione con un singolo provider di identità in Google Cloud -> Agent Builder -> Impostazioni. Tutti i datastore in quella regione utilizzeranno lo stesso provider di identità. Puoi scegliere un'identità Google o un'identità di terze parti in un pool di forza lavoro. La stessa credenziale Google è considerata un'identità diversa se si trova in un pool di forza lavoro. Ad esempio, test@gmail.com è considerata un'identità diversa da workforcePools/test-pool/subject/test@gmail.com.

    • Crea un pool di forza lavoro (se necessario).
    • Vai a Agent Builder Impostazioni e seleziona Identità Google o Identità di terze parti. Fai clic su SALVA per salvare l'identità nella regione.
    • Ora puoi creare un datastore nella regione.
  • Ogni datastore salva i dati dell'elenco di controllo dell'accesso (ACL) con ogni documento. Questo è un record degli utenti o dei gruppi che dispongono dell'accesso in lettura alle entità. Durante l'esecuzione, un utente o un membro del gruppo riceverà solo risposte dall'agente che proviene da entità a cui ha accesso in lettura. Se un utente non dispone dell'accesso in lettura a nessuna entità nel datastore, l'agente restituirà una risposta vuota.

  • Poiché i dati nel datastore sono una copia dell'istanza di terze parti, devono essere aggiornati periodicamente. Puoi configurare gli intervalli di aggiornamento su una scala temporale di ore o giorni.

  • Dopo aver configurato il datastore e fatto clic su Crea, potrebbe essere necessario un'ora prima che il datastore venga visualizzato nell'elenco dei datastore.

Tracciamento del datastore

Questa funzionalità è composta da due parti:

  1. Visualizzazione delle tracce di esecuzione interna dell'archivio datastore e delle latenze dei passaggi nel simulatore dell'agente.
  2. Esportazione di dati di tracciamento e latenza in Cloud Logging e BigQuery.

Visualizzare i dati nel simulatore

Per visualizzare i dati di tracciamento ed esecuzione nei dati dell'agente, espandi i dettagli di un turno di conversazione facendo clic sul cursore di espansione a destra della risposta dell'agente.

La scheda Esecuzione mostra le tracce di esecuzione dell'datastore interno, incluse le seguenti informazioni:

  • L'input utente originale.
  • La query come è stata riscritta dal motore del datastore.
  • Gli indicatori di qualità durante i vari passaggi di esecuzione, inclusi lo stato del controllo di sicurezza, lo stato del controllo di stabilità, il risultato del controllo di grounding e lo stato del controllo di sicurezza.
  • Cerca snippet dal datastore.
  • L'elenco dei documenti di supporto da cui sono stati ricavati gli snippet.

La scheda Latenza mostra un grafico temporale per i vari passaggi di esecuzione del datastore. L'elenco dei passaggi può variare a seconda della configurazione dell'datastore e del flusso di esecuzione. I dati visualizzati possono includere:

  • Corrispondenza delle domande frequenti: il datastore ha eseguito un passaggio di corrispondenza delle domande frequenti.
  • Riscrittura della query: l'datastore ha riscritto la query originale dell'utente.
  • Ricerca: il datastore ha eseguito la ricerca di snippet.
  • Riepilogo: l'datastore ha riepilogato la risposta.
  • Controlli di sicurezza: il datastore ha eseguito i passaggi di controllo di sicurezza.

Visualizzare i dati di tracciamento in altre posizioni

  • Se l'agente conversazionale è configurato con la registrazione della cronologia delle conversazioni, puoi anche visualizzare la tracciabilità del datastore nella cronologia delle conversazioni.

  • Se l'agente conversazionale è configurato con Cloud Logging, puoi anche visualizzare le tracce e le latenze in Esplora log.

  • Se l'agente conversazionale è configurato con BigQuery Export, puoi anche visualizzare le tracce e le latenze in una tabella BigQuery esportata.

Passaggi successivi

Per istruzioni su come creare un datastore e utilizzarlo con un agente, consulta la documentazione sugli strumenti per i datastore.