Les data stores sont utilisés par les outils de data store pour trouver des réponses aux questions des utilisateurs finaux à partir de vos données. Les entrepôts de données sont un ensemble de sites Web, de documents ou de données dans des systèmes tiers, chacun faisant référence à vos données.
Lorsqu'un utilisateur final pose une question à l'agent, celui-ci recherche une réponse à partir du contenu source donné, puis résume les résultats dans une réponse cohérente. Il fournit également des liens vers les sources de la réponse pour permettre à l'utilisateur final d'en savoir plus. L'agent peut fournir jusqu'à cinq extraits de réponse pour une question donnée.
Sources de data store
Vous pouvez fournir vos données à partir de différentes sources:
- URL de sites Web : explorez automatiquement le contenu de sites Web à partir d'une liste de domaines ou de pages Web.
- BigQuery : importez des données à partir de votre table BigQuery.
- Cloud Storage : importez des données à partir de votre bucket Cloud Storage.
Sources de magasins de données à accès limité
Google propose de nombreuses sources de magasins de données first party et tierces supplémentaires en tant que fonctionnalité d'accès limité. Pour obtenir la liste des sources disponibles et demander l'accès, consultez la section Sources de données Datastore supplémentaires sur cette page.
Contenu de site Web
Lorsque vous ajoutez du contenu de site Web en tant que source, vous pouvez ajouter et exclure plusieurs sites.
Lorsque vous spécifiez un site, vous pouvez utiliser des pages individuelles ou *
comme caractère générique pour un modèle.
Tout le contenu HTML et PDF sera traité.
Vous devez valider votre domaine lorsque vous utilisez le contenu d'un site Web comme source.
Limites :
- Les fichiers provenant d'URL publiques doivent avoir été explorés par le plug-in d'indexation de recherche Google, de sorte qu'ils existent dans l'index de recherche. Vous pouvez vérifier cela à l'aide de la Google Search Console.
- Un maximum de 200 000 pages sont indexées. Si le magasin de données contient plus de pages, l'indexation échouera à ce stade. Tout contenu déjà indexé sera conservé.
Importer des données
Vous pouvez importer vos données depuis BigQuery ou Cloud Storage. Ces données peuvent être sous forme de questions fréquentes ou non structurées, et peuvent être avec des métadonnées ou sans métadonnées.
Les options d'importation des données suivantes sont disponibles:
- Ajouter/Mettre à jour des données : les documents fournis sont ajoutés au data store. Si un nouveau document a le même ID qu'un ancien document, le nouveau document remplace l'ancien.
- Remplacer les données existantes : toutes les anciennes données sont supprimées, puis les nouvelles données sont importées. Cette opération est irréversible.
Datastore des questions fréquentes
Les magasins de données de questions fréquentes peuvent contenir des réponses aux questions fréquentes. Lorsque les questions des utilisateurs sont mises en correspondance avec une question importée avec un niveau de confiance élevé, l'agent renvoie la réponse à cette question sans aucune modification. Vous pouvez fournir un titre et une URL pour chaque paire de question/réponse affichée par l'agent.
Les données doivent être importées dans le magasin de données au format CSV
. Chaque fichier doit comporter une ligne d'en-tête décrivant les colonnes.
Exemple :
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Les colonnes title
et url
sont facultatives et peuvent être omises:
"answer","question"
"42","What is the meaning of life?"
Lors du processus d'importation, vous pouvez sélectionner un dossier dans lequel chaque fichier est traité comme un fichier CSV
, quelle que soit son extension.
Limites :
- Un espace supplémentaire après
,
génère une erreur. - Les lignes vides (même à la fin du fichier) génèrent une erreur.
Data Store non structuré
Les datastores de données non structurées peuvent contenir du contenu dans les formats suivants:
HTML
PDF
TXT
CSV
Il est possible (mais rare) d'importer des fichiers à partir du bucket Cloud Storage d'un autre projet. Pour ce faire, vous devez accorder un accès explicite au processus d'importation. Suivez les instructions du message d'erreur, qui contient le nom de l'utilisateur qui doit disposer d'un accès en lecture au bucket pour effectuer l'importation.
Limites :
- La taille maximale des fichiers est de 2,5 Mo pour les formats textuels et de 100 Mo pour les autres formats.
Data Store avec métadonnées
Vous pouvez fournir un titre et un URL
en tant que métadonnées.
Lorsque l'agent est en conversation avec un utilisateur, il peut lui fournir ces informations.
Cela peut aider les utilisateurs à créer rapidement des liens vers des pages Web internes auxquelles l'indexeur de la recherche Google n'a pas accès.
Pour importer du contenu avec des métadonnées, vous devez fournir un ou plusieurs fichiers JSON Lines. Chaque ligne de ce fichier décrit un document. Vous n'importez pas directement les documents réels. Les URIs
qui redirigent vers les chemins Cloud Storage sont fournis dans le fichier JSON Lines.
Pour fournir vos fichiers JSON Lines, vous devez fournir un dossier Cloud Storage qui les contient. N'ajoutez aucun autre fichier à ce dossier.
Descriptions des champs:
Champ | Type | Description |
---|---|---|
id | chaîne | Identifiant unique du document. |
content.mimeType | chaîne | Type MIME du document. Les formats "application/pdf" et "text/html" sont acceptés. |
content.uri | chaîne | URI du document dans Cloud Storage. |
structData | chaîne | Objet JSON sur une seule ligne avec des champs title et url facultatifs. |
Exemple :
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Data Store sans métadonnées
Ce type de contenu ne comporte pas de métadonnées. Vous fournissez plutôt des liens URI vers les documents individuels. Le type de contenu est déterminé par l'extension du fichier.
Configuration de l'analyse et de la segmentation
Selon la source de données, vous pourrez peut-être configurer les paramètres d'analyse et de segmentation tels que définis par Vertex AI Search.
Utiliser Cloud Storage pour un document de datastore
Si votre contenu n'est pas public, nous vous recommandons de le stocker dans Cloud Storage.
Lorsque vous créez des documents de magasin de données, vous fournissez les URL de vos objets Cloud Storage sous la forme : gs://bucket-name/folder-name
.
Chaque document du dossier est ajouté au datastore.
Lorsque vous créez le bucket Cloud Storage:
- Assurez-vous d'avoir sélectionné le projet que vous utilisez pour l'agent.
- Utilisez la classe Stockage standard.
- Définissez l'emplacement du bucket sur l'emplacement de votre agent.
Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.
Langues
Pour connaître les langues acceptées, consultez la colonne "Datastore" dans la documentation de référence sur les langues.
Pour des performances optimales, nous vous recommandons de créer des magasins de données dans une seule langue.
Une fois le data store créé, vous pouvez éventuellement spécifier la langue du data store. Si vous définissez la langue du datastore, vous pouvez l'associer à un agent configuré pour une autre langue. Par exemple, vous pouvez créer un datastore français associé à un agent anglophone.
Régions où le service est disponible
Pour connaître les régions acceptées, consultez la documentation de référence sur les régions.
(Accès limité) Sources de magasins de données supplémentaires
D'autres types de magasins de données sont répertoriés dans le tableau suivant. Elles sont disponibles en tant que fonctionnalités à accès restreint. Vous pouvez remplir le formulaire de liste d'autorisation pour demander l'accès. Une fois approuvé, vous pourrez voir ces options lorsque vous créerez un magasin de données dans Agent Builder.
Sources de données Google
Source du data store | Description |
---|---|
Cloud SQL | Importez des données à partir d'une table Cloud SQL. |
(Preview) Spanner | Importez des données à partir d'une table Spanner. |
(Preview) Bigtable | Importez des données depuis une table Bigtable. |
Firestore | Importez des données depuis votre collection Firestore. |
(Preview) AlloyDB | Importer des données de votre cluster AlloyDB. |
Google Drive | Lien vers le Drive de votre organisation. |
(Preview) Google Gmail | Lien vers les données Gmail de votre organisation. |
(Preview) Google Sites | Lien vers les données Sites de votre organisation |
(Preview) Google Agenda | Lien vers les données Agenda de votre organisation. |
(Preview) Google Groupes | Lien vers les données Groupes de votre organisation. |
Sources de données de magasins tiers
Source du data store | Description |
---|---|
(Preview) AODocs | Importer des données depuis votre système de gestion de documents AODocs |
Box | Importez des données depuis le site Box de votre organisation. |
Confluence Cloud | Importez des données depuis votre espace de travail Confluence Cloud. |
(Preview) Confluence Data Center | Importez des données depuis votre espace de travail Confluence Data Center. |
Dropbox | Importez des données depuis votre espace de stockage Dropbox. |
(Preview) HubSpot | Importez des données depuis le site HubSpot de votre organisation. |
Jira Cloud | Importez des données depuis votre système de gestion des tâches Jira. |
(Preview) Jira Data Center | Importez des données depuis votre site Jira Data Center. |
(Preview) Marketo | Importer des données depuis le système marketing Marketo de votre organisation |
(Preview) Notion | Importez des données depuis l'espace de travail Notion de votre organisation. |
OneDrive | Importez des données depuis l'espace de stockage OneDrive de votre organisation. |
Microsoft Outlook | Importez des données depuis Microsoft Outlook. |
Salesforce | Importez des données depuis Salesforce. |
ServiceNow | Importez des données depuis ServiceNow. |
SharePoint | Importez des données depuis le système SharePoint de votre organisation. |
(Preview) Shopify | Importez des données depuis le système Shopify de votre organisation. |
Slack | Importez des données depuis Slack. |
Microsoft Teams | Importer des données depuis Microsoft Teams |
(Preview) WordPress | Importez des données depuis le site WordPress de votre organisation. |
Configurer un entrepôt de données tiers à l'aide d'un connecteur
Cette section décrit le processus de configuration d'un datastore à l'aide de données tierces. Vous trouverez des instructions spécifiques à chaque source de données tierce dans la documentation sur l'IA générative.
Fournisseurs d'identité
Les fournisseurs d'identité vous permettent de gérer les utilisateurs, les groupes et l'authentification. Lorsque vous configurez un entrepôt de données tiers, vous avez la possibilité d'utiliser un fournisseur d'identité Google ou un fournisseur d'identité tiers.
Fournisseur d'identité Google :
- Tous les utilisateurs de l'agent doivent se connecter avec leurs identifiants Google. Il peut s'agir de n'importe quelle adresse e-mail
@gmail.com
ou de n'importe quel compte qui utilise Google comme fournisseur d'identité (par exemple, Google Workspace). Cette étape est ignorée si les utilisateurs parlent directement à l'agent à l'aide de Google Cloud , car l'identité Google est automatiquement intégrée au système. - Vous pouvez attribuer l'accès à des comptes Google à l'aide d'IAM.
Fournisseur d'identité tiers :
- Les utilisateurs de l'agent se connectent à l'aide d'identifiants autres que Google, par exemple une adresse e-mail Microsoft.
- Vous devez créer un pool d'employés à l'aide de Google Cloud contenant les fournisseurs d'identité autres que Google. Vous pouvez ensuite utiliser IAM pour accorder l'accès à l'ensemble du pool ou à des utilisateurs individuels de ce pool.
- Cette méthode ne peut pas être utilisée avec les Google Cloud projets configurés sous l'organisation
@google.com
.
Connecteurs
Les data stores tiers sont implémentés à l'aide d'un connecteur. Chaque connecteur peut contenir plusieurs datastores, qui sont stockés en tant qu'entités dans le système des agents conversationnels (Dialogflow CX).
Avant de créer un datastore, vous devez configurer chaque région avec un seul fournisseur d'identité dans Google Cloud -> Agent Builder -> Settings (Google Cloud -> Agent Builder-> Settings). Tous les datastores de cette région utiliseront le même fournisseur d'identité. Vous pouvez choisir une identité Google ou une identité tierce dans un pool de personnel. Les mêmes identifiants Google sont considérés comme une identité différente s'ils font partie d'un pool d'employés. Par exemple,
test@gmail.com
est considéré comme une identité différente deworkforcePools/test-pool/subject/test@gmail.com
.- Créez un pool de personnel (si nécessaire).
- Accédez à Agent Builder (Outil de création d'agents) Settings (Paramètres) et sélectionnez Google Identity (Identité Google) ou 3rd Party Identity (Identité tierce). Cliquez sur ENREGISTRER pour enregistrer l'identité dans la région.
- Vous pouvez désormais créer un data store dans la région.
Chaque magasin de données enregistre des données de liste de contrôle d'accès (LCA) avec chaque document. Il s'agit d'un enregistrement des utilisateurs ou des groupes disposant d'un accès en lecture aux entités. Lors de l'exécution, un utilisateur ou un membre de groupe ne reçoit que les réponses de l'agent provenant d'entités auxquelles il a accès en lecture. Si un utilisateur n'a pas d'accès en lecture à aucune entité du magasin de données, l'agent renvoie une réponse vide.
Étant donné que les données du magasin de données sont une copie de l'instance tierce, elles doivent être actualisées régulièrement. Vous pouvez configurer les intervalles d'actualisation sur une échelle de temps en heures ou en jours.
Une fois que vous avez configuré votre data store et cliqué sur Créer, il peut s'écouler jusqu'à une heure avant qu'il n'apparaisse dans la liste de vos data stores.
Étape suivante
Pour savoir comment créer un datastore et l'utiliser avec un agent, consultez la documentation sur les outils de datastore.