Gli autori di dati vengono utilizzati dagli strumenti per gli autori di dati per trovare risposte alle domande degli utenti finali tra i tuoi dati. Gli archivi dati sono una raccolta di siti web, documenti o dati in sistemi di terze parti, ognuno dei quali fa riferimento ai tuoi dati.
Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta nei contenuti di origine indicati e riassume i risultati in una risposta coerente. Fornisce inoltre link di supporto alle fonti della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.
Origini del datastore
Puoi fornire dati provenienti da diverse fonti:
- URL del sito web: esegui automaticamente la scansione dei contenuti del sito web da un elenco di domini o pagine web.
- BigQuery: importa i dati dalla tabella BigQuery.
- Cloud Storage: importa i dati dal tuo bucket Cloud Storage.
Origini dello spazio di archiviazione dei dati con accesso limitato
Google offre molte altre origini dello spazio dati proprietarie e di terze parti come funzionalità con accesso limitato. Per visualizzare un elenco delle origini disponibili e per richiedere l'accesso, consulta la sezione Origini di datastore aggiuntive in questa pagina.
Contenuti dei siti web
Quando aggiungi i contenuti di un sito web come origine, puoi aggiungere ed escludere più siti.
Quando specifichi un sito,
puoi utilizzare singole pagine o *
come carattere jolly per un pattern.
Tutti i contenuti HTML e PDF verranno elaborati.
Devi verificare il tuo dominio quando utilizzi i contenuti del sito web come fonte.
Limitazioni:
- I file provenienti da URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google, in modo che esistano nell'indice di ricerca. Puoi controllare questo aspetto con Google Search Console.
- Vengono indicizzate un massimo di 200.000 pagine. Se l'archivio dati contiene più pagine, l'indicizzazione non andrà a buon fine. Gli eventuali contenuti già indicizzati rimarranno.
Importa dati
Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere sotto forma di domande frequenti o non strutturati e possono essere con metadati o senza metadati.
Sono disponibili le seguenti opzioni di importazione dati:
- Aggiungi/Aggiorna dati: i documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un vecchio documento, il nuovo documento sostituisce quello precedente.
- Sostituisci i dati esistenti: tutti i dati precedenti vengono eliminati, quindi vengono caricati i nuovi dati. Questa operazione è irreversibile.
Datastore delle domande frequenti
Gli store di dati delle domande frequenti possono contenere le risposte alle domande frequenti. Quando le domande degli utenti corrispondono con un'elevata affidabilità a una domanda caricata, l'agente restituisce la risposta alla domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domande e risposte visualizzata dall'agente.
I dati devono essere caricati nel data store in formato CSV
. Ogni file deve avere una riga di intestazione che descriva le colonne.
Ad esempio:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Le colonne title
e url
sono facoltative e possono essere omesse:
"answer","question"
"42","What is the meaning of life?"
Durante la procedura di caricamento, puoi selezionare una cartella in cui ogni file viene trattato come un file CSV
, indipendentemente dall'estensione.
Limitazioni:
- Un carattere spazio aggiuntivo dopo
,
causa un errore. - Le righe vuote (anche alla fine del file) causano un errore.
Datastore non strutturato
I datastore di dati non strutturati possono contenere contenuti nei seguenti formati:
HTML
PDF
TXT
CSV
È possibile (ma non comune) importare file dal bucket Cloud Storage di un altro progetto. Per farlo, devi concedere l'accesso esplicito alla procedura di importazione. Segui le istruzioni riportate nel messaggio di errore, che conterrà il nome dell'utente che deve disporre dell'accesso in lettura al bucket per eseguire l'importazione.
Limitazioni:
- La dimensione massima del file è 2,5 MB per i formati basati su testo e 100 MB per gli altri formati.
Datastore con metadati
È possibile fornire un titolo e URL
come metadati.
Quando l'agente è in conversazione con un utente, può fornire queste informazioni all'utente.
In questo modo, gli utenti possono collegarsi rapidamente a pagine web interne non accessibili dall'indice della Ricerca Google.
Per importare i contenuti con i metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un
documento. Non carichi direttamente i documenti effettivi; i URIs
che rimandano ai percorsi di Cloud Storage sono forniti nel file JSON Lines.
Per fornire i file JSON Lines, devi fornire una cartella Cloud Storage contenente questi file. Non inserire altri file in questa cartella.
Descrizioni dei campi:
Campo | Tipo | Descrizione |
---|---|---|
ID | string | Identificatore univoco del documento. |
content.mimeType | string | Tipo MIME del documento. Sono supportati i tipi "application/pdf" e "text/html". |
content.uri | string | URI del documento in Cloud Storage. |
structData | string | Oggetto JSON a riga singola con campi facoltativi title e url . |
Ad esempio:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Archivio dati senza metadati
Questo tipo di contenuti non ha metadati. Fornisci invece i link URI ai singoli documenti. Il tipo di contenuti è determinato dall'estensione del file.
Configurazione di analisi e suddivisione in blocchi
A seconda dell'origine dati, potresti essere in grado di configurare impostazioni di analisi e suddivisione come definito da Vertex AI Search.
Utilizzare Cloud Storage per un documento del data store
Se i tuoi contenuti non sono pubblici, l'opzione consigliata è archiviarli in
Cloud Storage.
Quando crei documenti dello spazio dati,
fornisci gli URL per i tuoi oggetti Cloud Storage nel formato:
gs://bucket-name/folder-name
.
Ogni documento all'interno della cartella viene aggiunto allo spazio dati.
Quando crei il bucket Cloud Storage:
- Assicurati di aver selezionato il progetto che utilizzi per l'agente.
- Utilizza la classe di archiviazione Standard.
- Imposta la posizione del bucket sulla stessa posizione dell'agente.
Segui le istruzioni della guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.
Lingue
Per le lingue supportate, consulta la colonna del datastore nel riferimento alle lingue.
Per ottenere le migliori prestazioni, è consigliabile creare gli archivi dati in un unico linguaggio.
Dopo aver creato un datastore, puoi specificare facoltativamente la lingua del datastore. Se imposti la lingua del datastore, puoi collegarlo a un agente configurato per una lingua diversa. Ad esempio, puoi creare un archivio dati in francese collegato a un agente in inglese.
Aree geografiche supportate
Per le regioni supportate, consulta il riferimento alla regione.
(Accesso limitato) Origini del data store aggiuntive
Altri tipi di data store sono elencati nella tabella seguente. Sono disponibili come funzionalità con accesso limitato. Puoi compilare il modulo della lista consentita per richiedere l'accesso. Una volta approvata, potrai visualizzare queste opzioni quando crei un nuovo datastore in Agent Builder.
Origini del datastore Google
Origine del datastore | Descrizione |
---|---|
Cloud SQL | Importa i dati da una tabella Cloud SQL. |
(Anteprima) Chiave inglese | Importa i dati da una tabella Spanner. |
(Anteprima) Bigtable | Importa i dati da una tabella Bigtable. |
Firestore | Importa i dati dalla raccolta Firestore. |
(Anteprima) AlloyDB | Importa dati dal tuo cluster AlloyDB. |
Google Drive | Esegui il collegamento al Drive dell'organizzazione. |
(Anteprima) Google Gmail | Esegui il collegamento all'account Gmail della tua organizzazione. |
(Anteprima) Google Sites | Link a Sites dell'organizzazione. |
(Anteprima) Google Calendar | Esegui il collegamento a Calendar dell'organizzazione. |
(Anteprima) Google Gruppi | Link ai gruppi dell'organizzazione. |
Origini dello spazio dati di terze parti
Origine del datastore | Descrizione |
---|---|
(Anteprima) AODocs | Importa i dati dal sistema di gestione dei documenti AODocs. |
Box | Importa i dati dal sito Box della tua organizzazione. |
Confluence Cloud | Importa i dati dallo spazio di lavoro Confluence Cloud. |
(Anteprima) Confluence Data Center | Importa i dati dallo spazio di lavoro Confluence Data Center. |
Dropbox | Importa i dati dallo spazio di archiviazione Dropbox. |
(Anteprima) HubSpot | Importa i dati dal sito HubSpot della tua organizzazione. |
Jira Cloud | Importa i dati dal sistema di gestione delle attività di Jira. |
(Anteprima) Jira Data Center | Importa i dati dal sito Jira Data Center. |
(Anteprima) Marketo | Importa i dati dal sistema di marketing Marketo della tua organizzazione. |
(Anteprima) Notion | Importa i dati dallo spazio di lavoro Notion della tua organizzazione. |
OneDrive | Importa i dati dallo spazio di archiviazione OneDrive della tua organizzazione. |
Microsoft Outlook | Importa i dati da Microsoft Outlook. |
Salesforce | Importa i dati da Salesforce. |
ServiceNow | Importa i dati da ServiceNow. |
SharePoint | Importa i dati dal sistema SharePoint della tua organizzazione. |
(Anteprima) Shopify | Importa i dati dal sistema Shopify della tua organizzazione. |
Slack | Importa i dati da Slack. |
Microsoft Teams | Importa i dati da Microsoft Teams. |
(Anteprima) WordPress | Importa i dati dal sito WordPress della tua organizzazione. |
Configurare un data store di terze parti utilizzando un connettore
Questa sezione illustra la procedura di configurazione di un data store utilizzando i dati di terze parti. Le istruzioni specifiche per ogni origine dati di terze parti sono disponibili nella documentazione sull'AI generativa.
Provider di identità
I provider di identità ti consentono di gestire utenti, gruppi e autenticazione. Quando configurerai un data store di terze parti, potrai utilizzare un provider di identità Google o un provider di identità di terze parti.
Provider di identità Google:
- Tutti gli utenti dell'agente devono accedere utilizzando le proprie credenziali Google. Può essere qualsiasi indirizzo email
@gmail.com
o qualsiasi account che utilizza Google come fornitore di servizi di identità (ad esempio Google Workspace). Questo passaggio viene ignorato se gli utenti parlano direttamente con l'agente utilizzando Google Cloud , perché l'identità Google è integrata automaticamente nel sistema. - Puoi assegnare l'accesso agli Account Google utilizzando IAM.
Provider di identità di terze parti:
- Gli utenti dell'agente accedono utilizzando credenziali non Google, ad esempio un indirizzo email Microsoft.
- Devi creare un pool di forza lavoro utilizzando Google Cloud contenente i provider di identità non Google. Puoi quindi utilizzare IAM per concedere l'accesso all'intero pool o a singoli utenti al suo interno.
- Questo metodo non può essere utilizzato con i Google Cloud progetti configurati nell'
@google.com
organizzazione.
Connettori
I datastore di terze parti vengono implementati utilizzando un connettore. Ogni connettore può contenere più datastore, che vengono archiviati come entità nel sistema degli agenti conversazionali (Dialogflow CX).
Prima di creare un archivio dati, devi configurare ogni regione con un singolo fornitore di servizi di identità in Google Cloud -> Generatore di agenti -> Impostazioni. Tutti i datastore della regione utilizzeranno lo stesso provider di identità. Puoi scegliere un'identità Google o un'identità di terze parti in un pool di personale. La stessa credenziale Google è considerata un'identità diversa se si trova in un pool di personale. Ad esempio,
test@gmail.com
è considerata un'identità diversa daworkforcePools/test-pool/subject/test@gmail.com
.- Crea un pool di forza lavoro (se necessario).
- Vai a Agent Builder Impostazioni e seleziona Identità Google o Identità di terze parti. Fai clic su SALVA per salvare l'identità nella regione.
- Ora puoi creare un datastore nella regione.
Ogni datastore salva i dati dell'elenco di controllo dell'accesso (ACL) con ogni documento. Si tratta di un record che indica quali utenti o gruppi hanno accesso in lettura a quali entità. Durante l'esecuzione, un utente o un membro di un gruppo riceverà solo risposte dall'agente che ha origine da entità a cui ha accesso in lettura. Se un utente non ha accesso in lettura a nessuna entità nell'archivio dati, l'agente restituirà una risposta vuota.
Poiché i dati nel data store sono una copia dell'istanza di terze parti, devono essere aggiornati periodicamente. Puoi configurare gli intervalli di aggiornamento su una scala temporale di ore o giorni.
Dopo aver configurato il datastore e aver fatto clic su Crea, può essere necessaria fino a un'ora prima che il datastore venga visualizzato nell'elenco dei datastore.
Passaggi successivi
Per istruzioni su come creare un datastore e utilizzarlo con un agente, consulta la documentazione relativa agli strumenti per i datastore.