Datastores

Les data stores sont utilisés par les outils de data store pour trouver des réponses aux questions des utilisateurs finaux à partir de vos données. Les data stores sont un ensemble de sites Web, de documents ou de données dans des systèmes tiers, chacun d'eux faisant référence à vos données.

Lorsqu'un utilisateur final pose une question à l'agent, celui-ci recherche une réponse à partir du contenu source donné et résume les résultats dans une réponse cohérente. Il fournit également des liens vers les sources de la réponse pour permettre à l'utilisateur final d'en savoir plus. L'agent peut fournir jusqu'à cinq extraits de réponse pour une question donnée.

Sources de data store

Vous pouvez fournir différentes sources pour vos données :

  • URL de sites Web : Explorez automatiquement le contenu de sites Web à partir d'une liste de domaines ou de pages Web.
  • BigQuery : importez les données de votre table BigQuery.
  • Cloud Storage : importez des données depuis votre bucket Cloud Storage.
  • AlloyDB : importez des données depuis votre cluster AlloyDB.
  • Bigtable : importez des données depuis une table Bigtable.
  • Firestore : importez des données depuis votre collection Firestore.
  • Cloud SQL : importez des données à partir d'une table Cloud SQL.
  • Spanner : importez des données à partir d'une table Spanner.

Sources de data store à accès restreint

Google propose de nombreuses autres sources de data store first et third party en tant que fonctionnalité à accès restreint. Pour afficher la liste des sources disponibles et demander l'accès, consultez la section Sources de data store supplémentaires sur cette page.

Contenu de site Web

Lorsque vous ajoutez du contenu de site Web comme source, vous pouvez ajouter et exclure plusieurs sites. Lorsque vous spécifiez un site, vous pouvez utiliser des pages individuelles ou * comme caractère générique pour un modèle. Tout le contenu HTML et PDF sera traité.

Vous devez valider votre domaine lorsque vous utilisez le contenu d'un site Web comme source.

Limites :

  • Les fichiers provenant d'URL publiques doivent avoir été explorés par le plug-in d'indexation de recherche Google, de sorte qu'ils existent dans l'index de recherche. Vous pouvez vérifier cela à l'aide de la Google Search Console.
  • Un maximum de 200 000 pages sont indexées. Si le data store contient plus de pages, l'indexation échouera à ce moment-là. Tout contenu déjà indexé sera conservé.

Importer des données

Vous pouvez importer vos données depuis BigQuery ou Cloud Storage. Ces données peuvent être au format questions/réponses ou non structurées, et elles peuvent être accompagnées de métadonnées ou sans métadonnées.

Les options d'importation de données suivantes sont disponibles :

  • Ajouter/Mettre à jour des données : les documents fournis sont ajoutés au data store. Si un nouveau document porte le même ID qu'un ancien, le nouveau document remplace l'ancien.
  • Remplacer les données existantes : toutes les anciennes données sont supprimées, puis les nouvelles données sont importées. Cette opération est irréversible.

Data store questions fréquentes

Les data stores de questions fréquentes peuvent contenir des réponses aux questions fréquentes. Lorsque les questions des utilisateurs correspondent avec un haut degré de confiance à une question importée, l'agent renvoie la réponse à cette question sans aucune modification. Vous pouvez fournir un titre et une URL pour chaque paire question/réponse affichée par l'agent.

Les données doivent être importées dans le data store au format CSV. Chaque fichier doit comporter une ligne d'en-tête décrivant les colonnes.

Exemple :

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Les colonnes title et url sont facultatives et peuvent être omises :

"answer","question"
"42","What is the meaning of life?"

Lors de l'importation, vous pouvez sélectionner un dossier dans lequel chaque fichier est traité comme un fichier CSV, quelle que soit son extension.

Limites :

  • Un espace supplémentaire après , entraîne une erreur.
  • Les lignes vides (même à la fin du fichier) entraînent une erreur.

Data store non structuré

Les data stores de données non structurées peuvent contenir du contenu dans les formats suivants :

  • HTML
  • PDF
  • TXT
  • CSV

Il est possible (mais rare) d'importer des fichiers à partir du bucket Cloud Storage d'un autre projet. Pour ce faire, vous devez accorder un accès explicite au processus d'importation. Suivez les instructions du message d'erreur, qui contient le nom de l'utilisateur qui a besoin d'un accès en lecture au bucket pour effectuer l'importation.

Limites :

  • La taille maximale des fichiers est de 2,5 Mo pour les formats texte et de 100 Mo pour les autres formats.

Data store avec métadonnées

Un titre et URL peuvent être fournis en tant que métadonnées. Lorsque l'agent est en conversation avec un utilisateur, il peut lui fournir ces informations. Cela peut aider les utilisateurs à accéder rapidement à des pages Web internes qui ne sont pas accessibles par l'indexeur de la recherche Google.

Pour importer du contenu avec des métadonnées, vous devez fournir un ou plusieurs fichiers JSON Lines. Chaque ligne de ce fichier décrit un document. Vous n'importez pas directement les documents. Les URIs qui renvoient aux chemins Cloud Storage sont fournis dans le fichier JSON Lines.

Pour fournir vos fichiers JSON Lines, vous devez indiquer un dossier Cloud Storage qui les contient. Ne placez aucun autre fichier dans ce dossier.

Descriptions des champs :

Champ Type Description
id chaîne Identifiant unique du document.
content.mimeType chaîne Type MIME du document. Les types "application/pdf" et "text/html" sont acceptés.
content.uri chaîne URI du document dans Cloud Storage.
structData chaîne Objet JSON sur une seule ligne avec les champs facultatifs title et url.

Exemple :

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Data store sans métadonnées

Ce type de contenu ne comporte pas de métadonnées. À la place, vous fournissez des liens URI vers les documents individuels. Le type de contenu est déterminé par l'extension du fichier.

Configuration de l'analyse et de la fragmentation

Selon la source de données, vous pourrez peut-être configurer les paramètres d'analyse et de segmentation définis par Vertex AI Search.

Utiliser Cloud Storage pour un document de data store

Si votre contenu n'est pas public, nous vous recommandons de le stocker dans Cloud Storage. Lorsque vous créez des documents de data store, vous fournissez les URL de vos objets Cloud Storage au format gs://bucket-name/folder-name. Chaque document du dossier est ajouté au data store.

Lorsque vous créez le bucket Cloud Storage :

Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.

Langues

Pour connaître les langues acceptées, consultez la colonne "Data store" (Datastore) dans la documentation de référence sur les langages.

Pour des performances optimales, nous vous recommandons de créer les data stores dans une seule langue.

Après avoir créé un data store, vous pouvez éventuellement spécifier sa langue. Si vous définissez la langue du data store, vous pouvez l&#data store;associer à un agent configuré dans une autre langue. Par exemple, vous pouvez créer un data store en français qui est associé à un agent en anglais.

Régions où le service est disponible

Pour connaître les régions disponibles, consultez la documentation de référence sur les régions.

(Accès limité) Sources de data store supplémentaires

D'autres types de data store sont listés dans le tableau suivant. Elles sont disponibles en tant que fonctionnalités à accès restreint. Vous pouvez remplir le formulaire de liste d'autorisation pour demander l'accès. Une fois approuvées, ces options s'afficheront lorsque vous créerez un data store dans AI Applications.

Sources de data store Google

Source du data store Description
Google Drive Lien vers le Drive de votre organisation.
(Aperçu) Google Gmail Lien vers les données Gmail de votre organisation.
(Preview) Google Sites Lien vers les données Sites de votre organisation.
(Aperçu) Google Agenda Lien vers les données Agenda de votre organisation.
(Aperçu) Google Groupes Lien vers les données Groupes de votre organisation.

Sources de data store tiers

Source du data store Description
(Bêta) AODocs Importez des données depuis votre système de gestion de documents AODocs.
Box Importez des données depuis le site Box de votre organisation.
Confluence Cloud Importez des données depuis votre espace de travail Confluence Cloud.
(Aperçu) Confluence Data Center Importez des données depuis votre espace de travail Confluence Data Center.
Dropbox Importez des données depuis votre espace de stockage Dropbox.
EntraID Importez les données du système EntraID de votre organisation.
(Preview) HubSpot Importez des données depuis le site HubSpot de votre organisation.
Jira Cloud Importez des données depuis votre système de gestion des tâches Jira.
(Aperçu) Jira Data Center Importez des données depuis votre site Jira Data Center.
(Preview) Marketo Importez les données du système marketing Marketo de votre organisation.
(Preview) Notion Importez des données de l'espace de travail Notion de votre organisation.
OneDrive Importez des données depuis l'espace de stockage OneDrive de votre organisation.
Microsoft Outlook Importez des données depuis Microsoft Outlook.
Salesforce Importez des données depuis Salesforce.
ServiceNow Importez des données depuis ServiceNow.
SharePoint Importez des données depuis le système SharePoint de votre organisation.
(Preview) Shopify Importez des données depuis le système Shopify de votre organisation.
Slack Importez des données depuis Slack.
Microsoft Teams Importez des données depuis Microsoft Teams.
(Bêta) WordPress Importez des données depuis le site WordPress de votre organisation.

Configurer un data store tiers à l'aide d'un connecteur

Cette section décrit le processus de configuration d'un data store à l'aide de données tierces. Vous trouverez des instructions spécifiques à chaque source de données tierce dans la documentation sur l'IA générative.

Fournisseurs d'identité

Les fournisseurs d'identité vous permettent de gérer les utilisateurs, les groupes et l'authentification. Lorsque vous configurez un data store tiers, vous pouvez utiliser un fournisseur d'identité Google ou un fournisseur d'identité tiers.

Fournisseur d'identité Google :

  • Tous les utilisateurs de l'agent doivent se connecter avec leurs identifiants Google. Il peut s'agir de n'importe quelle adresse e-mail @gmail.com ou de n'importe quel compte utilisant Google comme fournisseur d'identité (par exemple, Google Workspace). Cette étape est ignorée si les utilisateurs parlent à l'agent directement à l'aide de Google Cloud , car l'identité Google est automatiquement intégrée au système.
  • Vous pouvez attribuer des accès aux comptes Google à l'aide d'IAM.

Fournisseur d'identité tiers :

  • Les utilisateurs de l'agent se connectent à l'aide d'identifiants non Google, par exemple une adresse e-mail Microsoft.
  • Vous devez créer un pool d'employés à l'aide de Google Cloud contenant les fournisseurs d'identité non Google. Vous pouvez ensuite utiliser IAM pour accorder l'accès à l'ensemble du pool ou à des utilisateurs individuels de ce pool.
  • Cette méthode ne peut pas être utilisée avec les projets Google Cloud configurés sous l'organisation @google.com.

Connecteurs

Les data stores tiers sont implémentés à l'aide d'un connecteur. Chaque connecteur peut contenir plusieurs data stores, qui sont stockés sous forme d'entités dans le système d'agents conversationnels (Dialogflow CX).

  • Avant de créer un data store, vous devez configurer chaque région avec un seul fournisseur d'identité dans Google Cloud  > Agent Builder > Paramètres. Tous les magasins de données de cette région utiliseront le même fournisseur d'identité. Vous pouvez choisir une identité Google ou une identité tierce dans un pool de personnel. Le même identifiant Google est considéré comme une identité différente s'il se trouve dans un pool de personnel. Par exemple, test@gmail.com est considéré comme une identité différente de workforcePools/test-pool/subject/test@gmail.com.

    • Créez un pool d'employés (si nécessaire).
    • Accédez à Agent Builder Settings (Paramètres) et sélectionnez Google Identity (Identité Google) ou 3rd Party Identity (Identité tierce). Cliquez sur ENREGISTRER pour enregistrer l'identité dans la région.
    • Vous pouvez désormais créer un data store dans la région.
  • Chaque data store enregistre les données de la liste de contrôle d'accès (LCA) avec chaque document. Il s'agit d'un enregistrement des utilisateurs ou groupes ayant accès en lecture à des entités spécifiques. Lors de l'exécution, un utilisateur ou un membre d'un groupe ne recevra des réponses de l'agent que si elles proviennent d'entités auxquelles il a accès en lecture. Si un utilisateur n'a pas accès en lecture à une entité du data store, l'agent renvoie une réponse vide.

  • Étant donné que les données du data store sont une copie de l'instance tierce, elles doivent être actualisées régulièrement. Vous pouvez configurer les intervalles d'actualisation sur une échelle de temps en heures ou en jours.

  • Une fois que vous avez configuré votre data store et cliqué sur Créer, il peut s'écouler jusqu'à une heure avant qu'il n'apparaisse dans la liste de vos data stores.

Traçage du data store

Cette fonctionnalité comporte deux parties :

  1. Affichage des traces d'exécution internes du data store et des latences des étapes dans le simulateur d'agent.
  2. Exportation des données de traçage et de latence vers Cloud Logging et BigQuery

Afficher les données dans le simulateur

Pour afficher les données de traçage et d'exécution dans les données de l'agent, développez les détails d'un tour de conversation en cliquant sur le caret d'expansion à droite de la réponse de l'agent.

L'onglet Exécution affiche les traces d'exécution du data store interne, y compris les informations suivantes :

  • Entrée utilisateur d'origine.
  • Requête réécrite par le moteur du data store.
  • Les signaux de qualité lors des différentes étapes d'exécution, y compris l'état de la vérification de la sécurité, l'état de la vérification de la stabilité, le résultat de la vérification de l'ancrage et l'état de la vérification de la sécurité.
  • Recherchez des extraits dans la recherche du data store.
  • Liste des documents justificatifs à partir desquels les extraits ont été obtenus.

L'onglet Latence affiche un graphique temporel pour différentes étapes d'exécution du data store. La liste des étapes peut varier en fonction de la configuration du data store et du flux d'exécution. Les données affichées peuvent inclure les éléments suivants :

  • Correspondance avec les questions fréquentes : le data store a effectué une étape de mise en correspondance avec les questions fréquentes.
  • Réécriture de la requête : le data store a réécrit la requête utilisateur d'origine.
  • Recherche : le data store a effectué une recherche d'extraits.
  • Synthèse : le data store a synthétisé la réponse.
  • Contrôles de sécurité : le data store a effectué des contrôles de sécurité.

Afficher les données de traçage dans d'autres emplacements

  • Si l'agent conversationnel est configuré avec l'enregistrement de l'historique des conversations, vous pouvez également afficher le traçage du data store dans l'onglet Historique des conversations.

  • Si l'agent conversationnel est configuré avec Cloud Logging, vous pouvez également afficher les traces et les latences dans l'explorateur de journaux du cloud.

  • Si l'agent conversationnel est configuré avec BigQuery Export, vous pouvez également afficher les traces et les latences dans une table BigQuery exportée.

Étapes suivantes

Pour savoir comment créer un data store et l'utiliser avec un agent, consultez la documentation sur les outils de datastore.