Pour créer un data store et ingérer des données pour la recherche, accédez à la section de la source que vous prévoyez d'utiliser:
- Créer un data store à l'aide du contenu d'un site Web
- Importer des données depuis BigQuery
- Importer depuis Cloud Storage
- Synchroniser à partir de Google Drive
- Synchroniser depuis Gmail (bêta publique)
- Synchroniser à partir de Google Sites (version preview publique)
- Synchroniser depuis Google Agenda (bêta publique)
- Synchroniser depuis Google Groupes (version preview publique)
- Synchroniser les données sur les personnes (version Preview publique)
- Importer depuis Cloud SQL
- Importer depuis Spanner (bêta publique)
- Importer depuis Firestore
- Importer depuis Bigtable (version Preview publique)
- Importer depuis AlloyDB pour PostgreSQL (bêta publique)
- Importer des données JSON structurées avec l'API
- Créer un data store à l'aide de Terraform
Pour synchroniser les données à partir d'une source de données tierce, consultez Connecter une source de données tierce.
Créer un data store à l'aide du contenu d'un site Web
Suivez la procédure ci-dessous pour créer un data store et indexer des sites Web.
Pour utiliser un data store de site Web après l'avoir créé, vous devez l'associer à une application pour laquelle les fonctionnalités Enterprise sont activées. Vous pouvez activer l'édition Enterprise pour une application lorsque vous la créez. Cela entraîne des coûts supplémentaires. Consultez les pages Créer une application de recherche et À propos des fonctionnalités avancées.
Console
Pour créer un data store et indexer des sites Web à l'aide de la console Google Cloud , procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Data Stores (Espaces de stockage de données).
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Contenu de site Web.
Indiquez si vous souhaitez activer l'indexation avancée de sites Web pour ce data store. Vous ne pourrez plus activer ou désactiver cette option par la suite.
L'indexation avancée des sites Web offre des fonctionnalités supplémentaires, telles que la synthèse de la recherche, la recherche avec des questions de suivi et les réponses extractives. L'indexation avancée de site Web entraîne des coûts supplémentaires et vous devez valider la propriété du domaine pour chaque site Web que vous indexez. Pour en savoir plus, consultez les pages Indexation avancée de sites Web et Tarifs.
Dans le champ Sites à inclure, saisissez les formats d'URL correspondant aux sites Web que vous souhaitez inclure dans votre data store. Incluez un format d'URL par ligne, sans les séparer par une virgule. Exemple :
example.com/docs/*
.Facultatif: Dans le champ Sites à exclure, saisissez les modèles d'URL que vous souhaitez exclure de votre data store.
Les sites exclus ont la priorité sur les sites inclus. Par conséquent, si vous incluez
example.com/docs/*
, mais excluezexample.com
, aucun site Web ne sera indexé. Pour en savoir plus, consultez la section Données du site Web.Cliquez sur Continuer.
Sélectionnez un emplacement pour votre data store.
- Lorsque vous créez un data store de recherche de site Web de base, il est toujours défini sur global (Global).
- Lorsque vous créez un data store avec l'indexation avancée de sites Web, vous pouvez sélectionner un emplacement. Étant donné que les sites Web indexés doivent être publics, Google vous recommande vivement de sélectionner global (Global) comme emplacement. Cela garantit une disponibilité maximale de tous les services de recherche et de réponse, et élimine les limites des datastores régionaux.
Attribuez un nom à votre datastore
Cliquez sur Créer. Vertex AI Search crée votre data store et l'affiche sur la page Datastores (Datastores).
Pour afficher des informations sur votre data store, cliquez sur son nom dans la colonne Nom. La page de votre data store s'affiche.
- Si vous avez activé l'option Indexation avancée de sites Web, un avertissement s'affiche pour vous inviter à valider les domaines de votre data store.
- Si vous ne disposez pas d'assez de quota (le nombre de pages des sites Web que vous avez spécifiés dépasse le quota "Nombre de documents par projet" de votre projet), un avertissement supplémentaire s'affiche pour vous inviter à augmenter votre quota.
Pour valider les domaines des modèles d'URL dans votre data store, suivez les instructions de la page Valider les domaines des sites Web.
Pour augmenter votre quota, procédez comme suit:
- Cliquez sur Mettre à niveau le quota. La page IAM et administration de la console Google Cloud s'affiche.
- Suivez les instructions de la section Demander une limite de quota supérieure dans la documentation Google Cloud . Le quota à augmenter est Nombre de documents dans le service de l'API Discovery Engine.
- Après avoir envoyé votre demande d'augmentation de la limite de quota, revenez à la page AI Applications (Applications d'IA) et cliquez sur Data Stores (Datastores) dans le menu de navigation.
- Cliquez sur le nom de votre data store dans la colonne Nom. La colonne État indique que l'indexation est en cours pour les sites Web ayant dépassé le quota. Lorsque la colonne État d'une URL indique Indexée, les fonctionnalités d'indexation avancée des sites Web sont disponibles pour cette URL ou ce format d'URL.
Pour en savoir plus, consultez la section Quota d'indexation des pages Web sur la page "Quotas et limites".
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des sites Web
Étapes suivantes
Pour associer le data store de votre site Web à une application, créez une application avec les fonctionnalités Enterprise activées, puis sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Si vous avez activé l'indexation avancée de votre site Web, vous pouvez utiliser des données structurées pour mettre à jour votre schéma.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer des données depuis BigQuery
Vertex AI Search permet de rechercher des données BigQuery.
Vous pouvez créer des datastores à partir de tables BigQuery de deux manières:
Ingestion unique: vous importez des données d'une table BigQuery dans un data store. Les données du data store ne changent pas, sauf si vous actualisez manuellement les données.
Ingestion périodique: vous importez des données à partir d'une ou de plusieurs tables BigQuery, puis vous définissez une fréquence de synchronisation qui détermine la fréquence à laquelle les magasins de données sont mis à jour avec les données les plus récentes de l'ensemble de données BigQuery.
Le tableau suivant compare les deux méthodes d'importation de données BigQuery dans les datastores Vertex AI Search.
Ingestion unique | Ingestion périodique |
---|---|
Disponibilité générale (DG). | Version Preview publique. |
Les données doivent être actualisées manuellement. | Les données sont mises à jour automatiquement tous les 1, 3 ou 5 jours. Les données ne peuvent pas être actualisées manuellement. |
Vertex AI Search crée un seul data store à partir d'une seule table dans BigQuery. | Vertex AI Search crée un connecteur de données pour un ensemble de données BigQuery et un data store (appelé data store entité) pour chaque table spécifiée. Pour chaque connecteur de données, les tables doivent avoir le même type de données (par exemple, structurées) et se trouver dans le même ensemble de données BigQuery. |
Vous pouvez combiner les données de plusieurs tables dans un même data store en insérant d'abord les données d'une table, puis d'autres données provenant d'une autre source ou d'une autre table BigQuery. | Étant donné que l'importation manuelle de données n'est pas prise en charge, les données d'un data store d'entités ne peuvent provenir que d'une seule table BigQuery. |
Le contrôle des accès aux sources de données est pris en charge. | Le contrôle des accès aux sources de données n'est pas accepté. Les données importées peuvent contenir des contrôles d'accès, mais ces contrôles ne seront pas respectés. |
Vous pouvez créer un data store à l'aide de la consoleGoogle Cloud ou de l'API. | Vous devez utiliser la console pour créer des connecteurs de données et leurs entrepôts de données d'entités. |
Compatible avec CMEK. | Compatible avec CMEK. |
Importer une fois depuis BigQuery
Pour ingérer des données à partir d'une table BigQuery, procédez comme suit pour créer un data store et ingérer des données à l'aide de la Google Cloud console ou de l'API.
Avant d'importer vos données, consultez la section Préparer les données pour l'ingestion.
Console
Pour utiliser la console Google Cloud pour ingérer des données à partir de BigQuery, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur
Créer un datastore.Sur la page Source, sélectionnez BigQuery.
Sélectionnez le type de données que vous allez importer dans la section Quel type de données importez-vous ?.
Sélectionnez Une seule fois dans la section Fréquence de synchronisation.
Dans le champ Chemin d'accès dans BigQuery, cliquez sur Parcourir, sélectionnez une table que vous avez préparée pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement de la table directement dans le champ Chemin d'accès BigQuery.
Cliquez sur Continuer.
Si vous effectuez une importation ponctuelle de données structurées:
Mappez les champs sur les propriétés clés.
Si des champs importants sont manquants dans le schéma, utilisez Ajouter un champ pour les ajouter.
Pour en savoir plus, consultez la section À propos de la détection et de la modification automatiques.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.
REST
Pour créer un data store et importer des données depuis BigQuery à l'aide de la ligne de commande, procédez comme suit.
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google Cloud .DATA_STORE_ID
: ID du data store Vertex AI Search que vous souhaitez créer. Cet identifiant ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DATA_STORE_DISPLAY_NAME
: nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Facultatif: Si vous importez des données non structurées et que vous souhaitez configurer l'analyse des documents ou activer le découpage des documents pour la génération augmentée par récupération, spécifiez l'objet
documentProcessingConfig
et incluez-le dans votre requête de création de data store. Nous vous recommandons de configurer un analyseur OCR pour les PDF si vous ingérez des PDF scannés. Pour savoir comment configurer les options d'analyse ou de segmentation, consultez la section Analyser et segmenter des documents.Importer des données depuis BigQuery
Si vous avez défini un schéma, assurez-vous que les données y sont conformes.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google Cloud .DATA_STORE_ID
: ID du data store Vertex AI Search.DATASET_ID
: ID de l'ensemble de données BigQuery.TABLE_ID
: ID de la table BigQuery.- Si la table BigQuery ne se trouve pas sous PROJECT_ID, vous devez accorder au compte de service
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
l'autorisation "Lecteur de données BigQuery" pour la table BigQuery. Par exemple, si vous importez une table BigQuery du projet source "123" vers le projet de destination "456", attribuez des autorisationsservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
à la table BigQuery dans le projet "123".
- Si la table BigQuery ne se trouve pas sous PROJECT_ID, vous devez accorder au compte de service
DATA_SCHEMA
: Facultatif. Les valeurs sontdocument
etcustom
. La valeur par défaut estdocument
.document
: la table BigQuery que vous utilisez doit respecter le schéma BigQuery par défaut fourni dans la section Préparer les données à l'ingestion. Vous pouvez définir vous-même l'ID de chaque document, tout en encapsulant toutes les données dans la chaîne jsonData.custom
: tout schéma de table BigQuery est accepté, et Vertex AI Search génère automatiquement les ID de chaque document importé.
ERROR_DIRECTORY
: Facultatif. Un répertoire Cloud Storage contenant des informations sur les erreurs d'importation (par exemple,gs://<your-gcs-bucket>/directory/import_errors
). Google recommande de laisser ce champ vide pour permettre à Vertex AI Search de créer automatiquement un répertoire temporaire.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données de BigQuery vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, les documents nouveaux et mis à jour sont ajoutés à votre data store, et les documents qui ne figurent pas dans BigQuery sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.Indiquez
autoGenerateIds
uniquement lorsquebigquerySource.dataSchema
est défini surcustom
. Dans le cas contraire, une erreurINVALID_ARGUMENT
est renvoyée. Si vous ne spécifiez pasautoGenerateIds
ou si vous le définissez surfalse
, vous devez spécifieridField
. Sinon, l'importation des documents échouera.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document. Pour les fichiers sources BigQuery,idField
indique le nom de la colonne de la table BigQuery contenant les ID de document.Spécifiez
idField
uniquement lorsque: (1)bigquerySource.dataSchema
est défini surcustom
et (2)auto_generate_ids
est défini surfalse
ou n'est pas spécifié. Sinon, une erreurINVALID_ARGUMENT
est renvoyée.La valeur du nom de la colonne BigQuery doit être de type chaîne, comporter entre 1 et 63 caractères et être conforme à la norme RFC-1034. Sinon, l'importation des documents échoue.
C#
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA C#.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Go
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Go.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Java
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Java.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Node.js
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Node.js.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Ruby
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Ruby.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Se connecter à BigQuery avec une synchronisation périodique
Avant d'importer vos données, consultez la section Préparer les données pour l'ingestion.
La procédure suivante décrit comment créer un connecteur de données qui associe un ensemble de données BigQuery à un connecteur de données Vertex AI Search, et comment spécifier une table sur l'ensemble de données pour chaque data store que vous souhaitez créer. Les data stores enfants de connecteurs de données sont appelés data stores d'entité.
Les données du jeu de données sont synchronisées régulièrement avec les datastores d'entités. Vous pouvez spécifier une synchronisation quotidienne, toutes les trois jours ou toutes les cinq jours.
Console
Pour créer un connecteur qui synchronise régulièrement les données d'un ensemble de données BigQuery avec Vertex AI Search à l'aide de la console Google Cloud , procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Data Stores (Espaces de stockage de données).
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez BigQuery.
Sélectionnez le type de données que vous importez.
Cliquez sur Périodique.
Sélectionnez la fréquence de synchronisation, c'est-à-dire la fréquence à laquelle vous souhaitez que le connecteur Vertex AI Search se synchronise avec l'ensemble de données BigQuery. Vous pourrez modifier la fréquence ultérieurement.
Dans le champ Chemin de l'ensemble de données BigQuery, cliquez sur Parcourir, puis sélectionnez l'ensemble de données contenant les tables que vous avez préparées à l'ingestion. Vous pouvez également saisir l'emplacement de la table directement dans le champ Chemin d'accès BigQuery. Le format du chemin d'accès est
projectname.datasetname
.Dans le champ Tables à synchroniser, cliquez sur Parcourir, puis sélectionnez une table contenant les données souhaitées pour votre data store.
Si l'ensemble de données contient d'autres tables que vous souhaitez utiliser pour les magasins de données, cliquez sur Ajouter un tableau et spécifiez-les également.
Cliquez sur Continuer.
Choisissez une région pour votre data store, saisissez un nom pour votre connecteur de données, puis cliquez sur Créer.
Vous avez maintenant créé un connecteur de données, qui synchronisera régulièrement les données avec l'ensemble de données BigQuery. Vous avez également créé un ou plusieurs datastores d'entités. Les magasins de données portent les mêmes noms que les tables BigQuery.
Pour vérifier l'état de votre ingestion, accédez à la page Data stores (Data stores) et cliquez sur le nom de votre connecteur de données pour afficher des informations à son sujet sur la page Data (Données) > onglet Data ingestion activity (Activité d'ingestion des données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Réussie, la première ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.
Une fois que vous avez configuré votre source de données et importé des données pour la première fois, le data store synchronise les données de cette source à une fréquence que vous sélectionnez lors de la configuration. La première synchronisation a lieu environ une heure après la création du connecteur de données. La prochaine synchronisation a ensuite lieu environ 24, 72 ou 120 heures plus tard.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis Cloud Storage
Vous pouvez créer des entrepôts de données à partir de tables Cloud Storage de deux manières:
Ingestion unique: vous importez des données à partir d'un dossier ou d'un fichier Cloud Storage dans un data store. Les données du data store ne changent pas, sauf si vous actualisez manuellement les données.
Ingestion périodique: vous importez des données à partir d'un dossier ou d'un fichier Cloud Storage, puis vous définissez une fréquence de synchronisation qui détermine la fréquence à laquelle le magasin de données est mis à jour avec les données les plus récentes de cet emplacement Cloud Storage.
Le tableau suivant compare les deux méthodes d'importation de données Cloud Storage dans des data stores Vertex AI Search.
Ingestion unique | Ingestion périodique |
---|---|
Disponibilité générale (DG). | Version Preview publique. |
Les données doivent être actualisées manuellement. | Les données sont mises à jour automatiquement tous les un, trois ou cinq jours. Les données ne peuvent pas être actualisées manuellement. |
Vertex AI Search crée un seul data store à partir d'un dossier ou d'un fichier dans Cloud Storage. | Vertex AI Search crée un connecteur de données et lui associe un data store (appelé data store entité) pour le fichier ou le dossier spécifié. Chaque connecteur de données Cloud Storage peut avoir un seul data store d'entité. |
Vous pouvez combiner les données de plusieurs fichiers, dossiers et buckets dans un même data store en ingurgitant d'abord les données d'un emplacement Cloud Storage, puis d'un autre. | Étant donné que l'importation manuelle de données n'est pas prise en charge, les données d'un data store d'entité ne peuvent provenir que d'un seul fichier ou dossier Cloud Storage. |
Le contrôle des accès aux sources de données est pris en charge. Pour en savoir plus, consultez la section Contrôle des accès aux sources de données. | Le contrôle des accès aux sources de données n'est pas accepté. Les données importées peuvent contenir des contrôles d'accès, mais ces contrôles ne seront pas respectés. |
Vous pouvez créer un data store à l'aide de la consoleGoogle Cloud ou de l'API. | Vous devez utiliser la console pour créer des connecteurs de données et leurs entrepôts de données d'entités. |
Compatible avec CMEK. | Compatible avec CMEK. |
Importer une seule fois depuis Cloud Storage
Pour ingérer des données à partir de Cloud Storage, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.
Avant d'importer vos données, consultez la section Préparer les données pour l'ingestion.
Console
Pour utiliser la console pour ingérer des données à partir d'un bucket Cloud Storage, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur
Créer un datastore.Sur la page Source, sélectionnez Cloud Storage.
Dans la section Sélectionner un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.
Cliquez sur Parcourir, puis sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ
gs://
.Sélectionnez le type de données que vous importez.
Cliquez sur Continuer.
Si vous effectuez une importation ponctuelle de données structurées:
Mappez les champs sur les propriétés clés.
Si des champs importants sont manquants dans le schéma, utilisez Ajouter un champ pour les ajouter.
Pour en savoir plus, consultez la section À propos de la détection et de la modification automatiques.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Facultatif: Si vous avez sélectionné des documents non structurés, vous pouvez sélectionner des options d'analyse et de segmentation pour vos documents. Pour comparer les analyseurs, consultez la section Analyser des documents. Pour en savoir plus sur le découpage, consultez Diviser les documents pour RAG.
L'analyseur OCR et l'analyseur de mise en page peuvent entraîner des coûts supplémentaires. Consultez les tarifs des fonctionnalités Document AI.
Pour sélectionner un analyseur, développez Options de traitement des documents, puis spécifiez les options d'analyseur que vous souhaitez utiliser.
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.
REST
Pour créer un data store et ingérer des données à partir de Cloud Storage à l'aide de la ligne de commande, procédez comme suit.
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google Cloud .DATA_STORE_ID
: ID du data store Vertex AI Search que vous souhaitez créer. Cet identifiant ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DATA_STORE_DISPLAY_NAME
: nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Facultatif: Si vous importez des données non structurées et que vous souhaitez configurer l'analyse des documents ou activer le découpage des documents pour la génération augmentée par récupération, spécifiez l'objet
documentProcessingConfig
et incluez-le dans votre requête de création de data store. Nous vous recommandons de configurer un analyseur OCR pour les PDF si vous ingérez des PDF scannés. Pour savoir comment configurer les options d'analyse ou de segmentation, consultez la section Analyser et segmenter des documents.Importez des données depuis Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google Cloud .DATA_STORE_ID
: ID du data store Vertex AI Search.INPUT_FILE_PATTERN
: modèle de fichier dans Cloud Storage contenant vos documents.Pour les données structurées ou les données non structurées avec des métadonnées, un exemple de modèle de fichier d'entrée est
gs://<your-gcs-bucket>/directory/object.json
, et un exemple de modèle correspondant à un ou plusieurs fichiers estgs://<your-gcs-bucket>/directory/*.json
.Pour les documents non structurés,
gs://<your-gcs-bucket>/directory/*.pdf
est un exemple. Chaque fichier correspondant au modèle devient un document.Si
<your-gcs-bucket>
ne se trouve pas sous PROJECT_ID, vous devez accorder au compte de serviceservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
les autorisations "Lecteur des objets de l'espace de stockage" pour le bucket Cloud Storage. Par exemple, si vous importez un bucket Cloud Storage du projet source "123" vers le projet de destination "456", accordez des autorisationsservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
au bucket Cloud Storage dans le projet "123".DATA_SCHEMA
: Facultatif. Les valeurs sontdocument
,custom
,csv
etcontent
. La valeur par défaut estdocument
.document
: importez des données non structurées avec des métadonnées pour les documents non structurés. Chaque ligne du fichier doit respecter l'un des formats suivants. Vous pouvez définir l'ID de chaque document:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: importez un fichier JSON pour les documents structurés. Les données sont organisées selon un schéma. Vous pouvez spécifier le schéma. Sinon, il est détecté automatiquement. Vous pouvez mettre la chaîne JSON du document dans un format cohérent directement dans chaque ligne, et Vertex AI Search génère automatiquement les ID pour chaque document importé.content
: importez des documents non structurés (PDF, HTML, DOC, TXT, PPTX). L'ID de chaque document est généré automatiquement en tant que premiers 128 bits de SHA256(GCS_URI) encodés en tant que chaîne hexadécimale. Vous pouvez spécifier plusieurs formats de fichiers d'entrée, à condition que les fichiers correspondants ne dépassent pas la limite de 100 000 fichiers.csv
: incluez une ligne d'en-tête dans votre fichier CSV, chaque en-tête étant mappé à un champ de document. Spécifiez le chemin d'accès au fichier CSV à l'aide du champinputUris
.
ERROR_DIRECTORY
: Facultatif. Un répertoire Cloud Storage contenant des informations sur les erreurs d'importation (par exemple,gs://<your-gcs-bucket>/directory/import_errors
). Google recommande de laisser ce champ vide pour permettre à Vertex AI Search de créer automatiquement un répertoire temporaire.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données de Cloud Storage vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre data store, et les documents qui ne figurent pas dans Cloud Storage sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.Spécifiez
autoGenerateIds
uniquement lorsquegcsSource.dataSchema
est défini surcustom
oucsv
. Sinon, une erreurINVALID_ARGUMENT
est renvoyée. Si vous ne spécifiez pasautoGenerateIds
ou si vous le définissez surfalse
, vous devez spécifieridField
. Sinon, l'importation des documents échoue.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document. Pour les documents sources Cloud Storage,idField
spécifie le nom dans les champs JSON qui sont des ID de document. Par exemple, si{"my_id":"some_uuid"}
est le champ d'ID de document dans l'un de vos documents, spécifiez"idField":"my_id"
. Tous les champs JSON portant le nom"my_id"
sont identifiés comme des ID de document.Ne spécifiez ce champ que lorsque: (1)
gcsSource.dataSchema
est défini surcustom
oucsv
, et (2)auto_generate_ids
est défini surfalse
ou n'est pas spécifié. Sinon, une erreurINVALID_ARGUMENT
est renvoyée.Notez que la valeur du champ JSON Cloud Storage doit être de type chaîne, comporter entre 1 et 63 caractères et être conforme à la norme RFC-1034. Sinon, l'importation des documents échoue.
Notez que le nom de champ JSON spécifié par
id_field
doit être de type chaîne, comporter entre 1 et 63 caractères et être conforme à la norme RFC-1034. Sinon, l'importation des documents échoue.
C#
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA C#.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Go
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Go.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Java
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Java.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Node.js
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Node.js.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Ruby
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Ruby.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Se connecter à Cloud Storage avec une synchronisation périodique
Avant d'importer vos données, consultez la section Préparer les données pour l'ingestion.
La procédure suivante décrit comment créer un connecteur de données qui associe un emplacement Cloud Storage à un connecteur de données Vertex AI Search, et comment spécifier un dossier ou un fichier à cet emplacement pour le data store que vous souhaitez créer. Les data stores qui sont enfants de connecteurs de données sont appelés data stores d'entité.
Les données sont synchronisées régulièrement avec le data store d'entité. Vous pouvez spécifier une synchronisation quotidienne, toutes les trois jours ou toutes les cinq jours.
Console
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Cloud Storage.
Sélectionnez le type de données que vous importez.
Cliquez sur Périodique.
Sélectionnez la fréquence de synchronisation, c'est-à-dire la fréquence à laquelle vous souhaitez que le connecteur de recherche Vertex AI se synchronise avec l'emplacement Cloud Storage. Vous pourrez modifier la fréquence ultérieurement.
Dans la section Sélectionner un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.
Cliquez sur Parcourir, puis sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ
gs://
.Cliquez sur Continuer.
Choisissez une région pour votre connecteur de données.
Attribuez un nom à votre connecteur de données.
Facultatif: Si vous avez sélectionné des documents non structurés, vous pouvez sélectionner des options d'analyse et de segmentation pour vos documents. Pour comparer les analyseurs, consultez la section Analyser des documents. Pour en savoir plus sur le découpage, consultez Diviser les documents pour RAG.
L'analyseur OCR et l'analyseur de mise en page peuvent entraîner des coûts supplémentaires. Consultez les tarifs des fonctionnalités Document AI.
Pour sélectionner un analyseur, développez Options de traitement des documents, puis spécifiez les options d'analyseur que vous souhaitez utiliser.
Cliquez sur Créer.
Vous avez maintenant créé un connecteur de données, qui synchronisera régulièrement les données avec l'emplacement Cloud Storage. Vous avez également créé un data store d'entité nommé
gcs_store
.Pour vérifier l'état de votre ingestion, accédez à la page Data Stores (Datastores), puis cliquez sur le nom de votre connecteur de données pour en afficher les détails sur la page Data (Données).
Onglet Activité d'ingestion de données Lorsque la colonne d'état de l'onglet Activité d'ingestion de données passe de En cours à Réussie, la première ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.
Une fois que vous avez configuré votre source de données et importé des données pour la première fois, les données sont synchronisées à partir de cette source à une fréquence que vous sélectionnez lors de la configuration. La première synchronisation a lieu environ une heure après la création du connecteur de données. La prochaine synchronisation a ensuite lieu environ 24, 72 ou 120 heures plus tard.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Se connecter à Google Drive
Pour rechercher des données dans Google Drive, utilisez l'une des méthodes suivantes pour créer un connecteur à l'aide de la console Google Cloud :
- Utiliser la fédération de données: permet d'obtenir les informations requises directement à partir de la source de données spécifiée. Les données ne sont pas copiées dans l'index Vertex AI Search.
- Utiliser l'indexation des données: copie les données dans l'index Vertex AI Search. Vous bénéficiez ainsi d'une meilleure qualité de recherche. Le connecteur est natif du cloud, car il copie les données, comme l'option Utiliser l'indexation avancée des disques.
Avant de commencer :
- Vous devez être connecté à la console Google Cloud avec le même compte que celui que vous utilisez pour l'instance Google Drive que vous prévoyez de connecter. Les applications d'IA utilisent votre ID client Google Workspace pour se connecter à Google Drive.
- Déterminez le fournisseur d'identité permettant aux utilisateurs de se connecter à l'application. Si vous utilisez un fournisseur d'identité tiers, un administrateur doit le fédérer avec Google Workspace. La fédération nécessite une planification et une configuration. Pour en savoir plus, consultez Utiliser le contrôle des accès aux sources de données.
- La recherche avancée dans Google Drive est en version preview privée. Cette fonctionnalité est un prérequis pour utiliser la synthèse de la recherche et la recherche avec questions complémentaires avec un data store Google Drive. Pour utiliser cette fonctionnalité, suivez plutôt les étapes de la section Utiliser l'indexation avancée de Drive.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données dans Google Drive, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Drive, consultez les consignes et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes de Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Drive. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Utiliser la fédération de données
Si vous créez un data store sans activer l'indexation avancée, le système accède directement au contenu du disque que vous avez spécifié et l'affiche, sans créer de copie.
Console
Pour utiliser la console afin de rendre les données Google Drive disponibles pour la recherche, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Datastores (Datastores).
Cliquez sur
Créer un datastore.Créez un data store. Sur la page Sélectionner une source de données, sélectionnez Google Drive.
Sélectionnez une source de données. Spécifiez la source Drive de votre data store.
- Tout: pour ajouter l'intégralité de votre Drive au data store.
- Drive partagé(s) spécifique(s): pour ajouter un ou plusieurs Drive partagés.
Ajoutez les ID de Drive partagés. Pour trouver l'ID du Drive partagé, accédez au Drive partagé et copiez l'ID à partir de l'URL. L'URL suit le format suivant :
https://drive.google.com/corp/drive/DRIVE_ID
.Dossier(s) partagé(s) spécifique(s): pour ajouter un ou plusieurs dossiers partagés.
- Ajoutez les ID des dossiers partagés. Pour trouver l'ID du dossier partagé, accédez au dossier partagé et copiez l'ID à partir de l'URL. L'URL suit le format suivant:
https://drive.google.com/corp/drive/folders/FOLDER_ID
.
- Ajoutez les ID des dossiers partagés. Pour trouver l'ID du dossier partagé, accédez au dossier partagé et copiez l'ID à partir de l'URL. L'URL suit le format suivant:
Spécifiez la source de Drive. Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Configurez le connecteur de données.
Utiliser l'indexation des données (version Preview privée)
Suivez cette procédure si vous prévoyez d'utiliser Google Drive avec la synthèse de recherche et la recherche avec suivis.
Avant de commencer :
- Vous devez être un super-administrateur Google Workspace pour activer l'indexation avancée de Drive. En effet, avec l'indexation de disque avancée, les applications d'IA indexent les données Google Drive.
Console
Pour créer un data store Google Drive avec une indexation Google Drive avancée à l'aide de la console, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Datastores (Datastores).
Cliquez sur
Créer un datastore.Sur la page Sélectionner une source de données, sélectionnez Google Drive.
Sélectionnez Indexation de disque avancée.
Saisissez l'adresse e-mail de votre super-administrateur Google Workspace.
- Veillez à noter l'ID client dans la section Configurer la délégation au niveau du domaine, troisième étape, car vous en aurez besoin plus tard.
Spécifiez la source de disque pour l'indexation avancée. Configurez la délégation au niveau du domaine:
- Accédez à la page Délégation au niveau du domaine de la console d'administration Google Workspace et connectez-vous avec votre compte super-administrateur.
Cliquez sur Ajouter.
Ajoutez une délégation au niveau du domaine. Saisissez l'ID client que vous avez noté précédemment.
Saisissez les habilitations OAuth suivantes.
https://www.googleapis.com/auth/drive.readonly, https://www.googleapis.com/auth/admin.directory.user.readonly, https://www.googleapis.com/auth/admin.directory.group.readonly, https://www.googleapis.com/auth/admin.directory.domain.readonly, https://www.googleapis.com/auth/admin.reports.audit.readonly
Saisissez les habilitations OAuth. Cliquez sur Autoriser.
Revenez à la console Google Cloud . Dans la section Choisir les disques à synchroniser, spécifiez la source de disque pour votre data store.
- Tout: pour ajouter l'intégralité de votre Drive au data store.
Drive partagé(s) spécifique(s): pour ajouter un ou plusieurs Drive partagés.
- Ajoutez les ID de Drive partagés. Pour trouver l'ID de Drive partagé, accédez au Drive partagé et copiez l'ID à partir de l'URL. L'URL suit le format suivant :
https://drive.google.com/corp/drive/DRIVE_ID
.
Sélectionnez les Drive à synchroniser. - Ajoutez les ID de Drive partagés. Pour trouver l'ID de Drive partagé, accédez au Drive partagé et copiez l'ID à partir de l'URL. L'URL suit le format suivant :
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Facultatif: Pour modifier les configurations d'analyse ou de segmentation des documents, dans la section Options de traitement des documents, sélectionnez Activer la configuration de traitement des documents.
Cliquez sur Créer. Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures. Attendez au moins une heure avant d'utiliser votre data store pour effectuer des recherches.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour obtenir vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Associer Google Pay à votre compte Gmail
Pour rechercher des données dans Gmail, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud .
Avant de commencer :
Vous devez être connecté à la console Google Cloud avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez de connecter. Vertex AI Search utilise votre ID client Google Workspace pour se connecter à Gmail.
Configurez le contrôle des accès pour Gmail. Pour en savoir plus sur la configuration du contrôle des accès, consultez la page Utiliser le contrôle des accès des sources de données.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données dans Gmail, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Gmail, consultez les consignes et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes Cloud Key Management Service ne s'appliquent pas aux données stockées dans Gmail. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Console
Pour utiliser la console afin de rendre les données Gmail disponibles pour la recherche, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Datastores (Datastores).
Cliquez sur
Créer un datastore.Créez un data store. Sur la page Sélectionner une source de données, sélectionnez Google Gmail.
Sélectionnez la source Google Gmail. Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Configurez le nouveau connecteur.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour voir à quoi ressembleront vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.
Associer Data Studio à Google Sites
Pour rechercher des données dans Google Sites, procédez comme suit pour créer un connecteur à l'aide de la console Google Cloud .
Avant de commencer :
Vous devez être connecté à la console Google Cloud avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez de connecter. Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Sites.
Configurez le contrôle des accès pour Google Sites. Pour en savoir plus sur la configuration du contrôle des accès, consultez la page Utiliser le contrôle des accès des sources de données.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données dans Google Sites, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Sites, consultez les consignes et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Sites. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Console
Pour utiliser la console afin de rendre les données Google Sites disponibles pour la recherche, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Google Sites.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Associer à Google Agenda
Pour rechercher des données dans Google Agenda, procédez comme suit pour créer un connecteur à l'aide de la console Google Cloud .
Avant de commencer :
Vous devez être connecté à la console Google Cloud avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez de connecter. Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Agenda.
Configurez le contrôle des accès pour Google Agenda. Pour en savoir plus, consultez la section Utiliser le contrôle des accès aux sources de données.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données de Google Agenda, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Agenda, consultez les consignes et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes du service Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Agenda. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Console
Pour utiliser la console afin de rendre les données Google Agenda disponibles pour la recherche, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Datastores (Datastores).
Cliquez sur
Créer un datastore.Créez un data store. Sur la page Sélectionner une source de données, sélectionnez Google Agenda.
Sélectionnez la source de données Google Agenda. Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Configurez le connecteur de données.
Étapes suivantes
Pour associer votre data store à une application, créez l'application, puis sélectionnez votre data store en suivant les instructions de la section Créer une application de recherche.
Pour obtenir vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Se connecter à Google Groups
Pour rechercher des données dans Google Groups, procédez comme suit pour créer un connecteur à l'aide de la console Google Cloud .
Avant de commencer :
Vous devez être connecté à la console Google Cloud avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez de connecter. Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Groups.
Configurez le contrôle des accès pour Google Groupes. Pour en savoir plus sur la configuration du contrôle des accès, consultez la page Utiliser le contrôle des accès des sources de données.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données dans Google Groupes, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Groups, consultez les consignes et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes de Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Groups. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Console
Pour utiliser la console afin de rendre les données Google Groups disponibles pour la recherche, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Google Groups.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer. Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures. Attendez au moins une heure avant d'utiliser votre data store pour effectuer des recherches.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Synchroniser les données sur les personnes depuis Google Workspace
Vous pouvez configurer la recherche de personnes pour votre organisation en synchronisant les données sur les personnes à partir de Google Workspace. Une fois le data store de recherche de contacts configuré et les données ingérées dans l'index Vertex AI Search, vous pouvez rechercher des personnes dans votre répertoire.
Avant de commencer
- Déterminez le fournisseur d'identité permettant aux utilisateurs de se connecter à l'application. Si vous utilisez un fournisseur d'identité tiers, un administrateur doit le fédérer avec Google Workspace. La fédération nécessite une planification et une configuration. Pour en savoir plus, consultez Utiliser le contrôle des accès aux sources de données.
Un administrateur Google Workspace doit activer la recherche de personnes dans les données Google Workspace:
- Connectez-vous à la console d'administration Google avec un compte administrateur.
- Accédez à Directory (Annuaire) > Directory settings (Paramètres de l'annuaire).
- Activez le partage de contacts.
Connectez-vous à la console avec le même compte que celui que vous prévoyez d'utiliser pour connecter Google Workspace. Google Cloud
Connectez-vous à votre fournisseur d'identité en suivant la procédure décrite dans Connecter votre fournisseur d'identité, puis spécifiez Google Identity comme fournisseur. Pour en savoir plus sur l'annuaire Google Workspace, consultez la section Présentation: configurer et gérer l'annuaire dans la documentation Google Workspace.
Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites liées aux données dans Google Workspace, comme indiqué dans le tableau suivant:
Contrôle de sécurité Veuillez noter les points suivants : Résidence des données (DRZ) Les applications d'IA ne garantissent la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Workspace, consultez les conseils et la documentation de conformité Google Workspace, par exemple Choisir la région où les données sont stockées et Souveraineté numérique. Clés de chiffrement gérées par le client (CMEK) Vos clés ne chiffrent que les données de Google Cloud. Les commandes du service Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Workspace. Access Transparency Access Transparency enregistre les actions effectuées par le personnel de Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez la section Événements de journal Access Transparency dans la documentation d'aide Google Workspace Admin.
Avant de créer le data store sur les personnes, vous devez configurer un compte de service et une délégation au niveau du domaine.
Configurer le compte de service
Créez un compte de service dans un projetGoogle Cloud au sein de l'organisation.
Facultatif: Ignorez l'étape Autoriser ce compte de service à accéder au projet (facultatif).
Ignorez l'étape "Autoriser ce compte de service à accéder au projet (facultatif)". Accordez au compte de service Discovery Engine (
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
) l'accès en tant que créateur de jetons de compte de service (roles/iam.serviceAccountTokenCreator
), puis cliquez sur Enregistrer.Accordez l'accès au compte de service Discovery Engine. Une fois le compte de service créé, cliquez sur l'onglet Détails du compte de service, puis sur Paramètres avancés.
Copiez l'ID client pour la délégation au niveau du domaine.
Copiez l'ID client.
Configurer la délégation au niveau du domaine
- Connectez-vous au espace de travail administrateur Google.
- Accédez à Sécurité > Contrôle des accès et des données > Commandes des API.
Cliquez sur Gérer la délégation au niveau du domaine.
Cliquez sur "Gérer la délégation au niveau du domaine". Cliquez sur Ajouter.
Cliquez sur "Ajouter". Dans la boîte de dialogue Ajouter un ID client, procédez comme suit:
- ID client: saisissez l'ID client.
- Champs d'application OAuth: saisissez
https://www.googleapis.com/auth/directory.readonly
. - Cliquez sur Autoriser.
Configurez les paramètres de délégation au niveau du domaine. Si vous avez personnalisé des données sur les utilisateurs (également appelées attributs personnalisés) et que vous souhaitez qu'elles s'affichent dans les résultats de recherche, procédez comme suit:
Cliquez sur Directory > Users > More options > Manage custom attributes (Répertoire > Utilisateurs > Autres options > Gérer les attributs personnalisés).
Cliquez sur "Gérer les attributs utilisateur personnalisés". Définissez la visibilité de l'attribut personnalisé sur Visible pour l'organisation pour le rendre consultable.
Définissez la visibilité de l'attribut personnalisé sur "Visible par l'organisation" pour qu'il soit inclus dans l'index de recherche.
Créer un data store de recherche de personnes
Pour utiliser la console et ingérer les données sur les personnes, procédez comme suit:
Console
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur
Créer un datastore.Sur la page Source, cliquez sur Recherche de contacts.
Sélectionnez le datastore de recherche de contacts. Configurez les informations d'authentification:
- Saisissez l'adresse e-mail du compte qui extrait les données sur les personnes. Si vous préférez ne pas utiliser de compte administrateur, vous pouvez utiliser un autre compte ayant accès aux données du répertoire de l'organisation.
- Saisissez l'adresse e-mail du compte de service que vous avez créée dans la section Configurer le compte de service.
- Cliquez sur Continuer.
Configurez les informations d'authentification. Choisissez une région pour votre data store.
Dans le champ Nom de data store datastore, saisissez un nom pour votre data store.
Cliquez sur Créer. La synchronisation peut prendre plusieurs minutes à plusieurs heures, en fonction de la taille des données.
Personnaliser les résultats de recherche
Pour inclure ou exclure des informations personnelles des résultats de recherche, procédez comme suit:
Dans votre data store, cliquez sur l'onglet Entité, puis sur Utilisateurs.
Cliquez sur l'onglet "Entité" du data store. Sur la page Utilisateurs, cliquez sur l'onglet Schéma.
Cliquez sur Modifier.
Modifiez le schéma du data store. Indiquez si les attributs, tels que le pays, peuvent être récupérés, recherchés et indexés.
Cliquez sur Enregistrer.
Enregistrez les modifications apportées au schéma.
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour obtenir vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis Cloud SQL
Pour ingérer des données à partir de Cloud SQL, procédez comme suit pour configurer l'accès à Cloud SQL, créer un data store et ingérer des données.
Configurer l'accès au bucket de préproduction pour les instances Cloud SQL
Lors de l'ingestion de données à partir de Cloud SQL, les données sont d'abord mises en scène dans un bucket Cloud Storage. Suivez ces étapes pour accorder à une instance Cloud SQL l'accès aux buckets Cloud Storage.
Dans la console Google Cloud , accédez à la page SQL.
Cliquez sur l'instance Cloud SQL à partir de laquelle vous prévoyez d'importer.
Copiez l'identifiant du compte de service de l'instance, qui ressemble à une adresse e-mail (par exemple,
p9876-abcd33f@gcp-sa-cloud-sql.iam.gserviceaccount.com
).Accédez à la page IAM et administration.
Cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance, puis sélectionnez le rôle Cloud Storage > Administrateur Storage.
Cliquez sur Enregistrer.
Suivant :
Si vos données Cloud SQL se trouvent dans le même projet que Vertex AI Search, accédez à Importer des données depuis Cloud SQL.
Si vos données Cloud SQL se trouvent dans un projet différent de votre projet de recherche Vertex AI, consultez Configurer l'accès à Cloud SQL à partir d'un autre projet.
Configurer l'accès à Cloud SQL à partir d'un autre projet
Pour accorder à Vertex AI Search l'accès aux données Cloud SQL d'un autre projet, procédez comme suit:
Remplacez la variable
PROJECT_NUMBER
suivante par votre numéro de projet Vertex AI Search, puis copiez le contenu du bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
Accédez à la page IAM et administration.
Basculez vers votre projet Cloud SQL sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service, puis sélectionnez le rôle Cloud SQL > Lecteur Cloud SQL.
Cliquez sur Enregistrer.
Accédez ensuite à Importer des données à partir de Cloud SQL.
Importer des données depuis Cloud SQL
Console
Pour utiliser la console afin d'ingérer des données à partir de Cloud SQL, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Cloud SQL.
Spécifiez l'ID du projet, l'ID de l'instance, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Cliquez sur Parcourir, puis choisissez un emplacement Cloud Storage intermédiaire vers lequel exporter les données, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ
gs://
.Indiquez si vous souhaitez activer l'exportation sans serveur. L'exportation sans serveur entraîne des coûts supplémentaires. Pour en savoir plus sur l'exportation sans serveur, consultez la section Minimiser l'impact des exportations sur les performances dans la documentation Cloud SQL.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.
REST
Pour créer un data store et ingérer des données à partir de Cloud SQL à l'aide de la ligne de commande, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Remplacez les éléments suivants :
PROJECT_ID
: par l'ID du projet.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DISPLAY_NAME
: nom à afficher du data store. Cela peut s'afficher dans la console Google Cloud .
Importer des données depuis Cloud SQL
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "cloudSqlSource": { "projectId": "SQL_PROJECT_ID", "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", "gcsStagingDir": "STAGING_DIRECTORY" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.SQL_PROJECT_ID
: ID de votre projet Cloud SQL.INSTANCE_ID
: ID de votre instance Cloud SQL.DATABASE_ID
: ID de votre base de données Cloud SQL.TABLE_ID
: ID de votre table Cloud SQL.STAGING_DIRECTORY
: Facultatif. Un répertoire Cloud Storage (par exemple,gs://<your-gcs-bucket>/directory/import_errors
).RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données de Cloud SQL vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre magasin de données, et les documents qui ne figurent pas dans Cloud SQL sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis Spanner
Pour ingérer des données à partir de Spanner, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.
Configurer l'accès à Spanner à partir d'un autre projet
Si vos données Spanner se trouvent dans le même projet que Vertex AI Search, passez à la section Importer des données depuis Spanner.
Pour accorder à Vertex AI Search l'accès aux données Spanner d'un autre projet, procédez comme suit:
Remplacez la variable
PROJECT_NUMBER
suivante par votre numéro de projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Accédez à la page IAM et administration.
Basculez vers votre projet Spanner sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service, puis sélectionnez l'une des options suivantes:
- Si vous n'utilisez pas Data Boost lors de l'importation, sélectionnez le rôle Cloud Spanner > Lecteur de base de données Cloud Spanner.
- Si vous prévoyez d'utiliser Data Boost lors de l'importation, sélectionnez le rôle Cloud Spanner > Administrateur de bases de données Cloud Spanner ou un rôle personnalisé avec les autorisations de Lecteur de bases de données Cloud Spanner et spanner.databases.useDataBoost. Pour en savoir plus sur Data Boost, consultez la section Présentation de Data Boost dans la documentation Spanner.
Cliquez sur Enregistrer.
Accédez ensuite à Importer des données depuis Spanner.
Importer des données depuis Spanner
Console
Pour utiliser la console pour ingérer des données à partir de Spanner, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Cloud Spanner.
Spécifiez l'ID du projet, l'ID de l'instance, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Indiquez si vous souhaitez activer Data Boost. Pour en savoir plus sur Data Boost, consultez la section Présentation de Data Boost dans la documentation Spanner.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.
REST
Pour créer un data store et ingérer des données à partir de Spanner à l'aide de la ligne de commande, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], "contentConfig": "CONTENT_REQUIRED", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DISPLAY_NAME
: nom à afficher du data store. Cela peut s'afficher dans la console Google Cloud .
Importez des données depuis Spanner.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "cloudSpannerSource": { "projectId": "SPANNER_PROJECT_ID", "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", "enableDataBoost": "DATA_BOOST_BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store.SPANNER_PROJECT_ID
: ID de votre projet Spanner.INSTANCE_ID
: ID de votre instance Spanner.DATABASE_ID
: ID de votre base de données Spanner.TABLE_ID
: ID de votre table Spanner.DATA_BOOST_BOOLEAN
: Facultatif. Indique si Data Boost doit être activé. Pour en savoir plus sur Data Boost, consultez la présentation de Data Boost dans la documentation Spanner.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données de Spanner vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre data store, et les documents qui ne figurent pas dans Spanner sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis Firestore
Pour ingérer des données à partir de Firestore, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.
Si vos données Firestore se trouvent dans le même projet que Vertex AI Search, accédez à Importer des données depuis Firestore.
Si vos données Firestore se trouvent dans un projet différent de votre projet Vertex AI Search, consultez Configurer l'accès à Firestore.
Configurer l'accès à Firestore à partir d'un autre projet
Pour accorder à Vertex AI Search l'accès aux données Firestore d'un autre projet, procédez comme suit:
Remplacez la variable
PROJECT_NUMBER
suivante par votre numéro de projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Accédez à la page IAM et administration.
Basculez vers votre projet Firestore sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance, puis sélectionnez le rôle Datastore > Cloud Datastore Import Export Admin (Datastore > Administrateur d'importation et d'exportation Cloud Datastore).
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.
Accédez ensuite à Importer des données depuis Firestore.
Importer des données depuis Firestore
Console
Pour utiliser la console pour ingérer des données à partir de Firestore, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Firestore.
Spécifiez l'ID du projet, l'ID de la base de données et l'ID de la collection des données que vous prévoyez d'importer.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.
REST
Pour créer un data store et ingérer des données à partir de Firestore à l'aide de la ligne de commande, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Remplacez les éléments suivants :
PROJECT_ID
: par l'ID du projet.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DISPLAY_NAME
: nom à afficher du data store. Cela peut s'afficher dans la console Google Cloud .
Importer des données depuis Firestore
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "firestoreSource": { "projectId": "FIRESTORE_PROJECT_ID", "databaseId": "DATABASE_ID", "collectionId": "COLLECTION_ID", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.FIRESTORE_PROJECT_ID
: ID de votre projet Firestore.DATABASE_ID
: ID de votre base de données Firestore.COLLECTION_ID
: ID de votre collection Firestore.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
provoque une actualisation incrémentielle des données de Firestore vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre datastore, et les documents qui ne figurent pas dans Firestore sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis Bigtable
Pour ingérer des données à partir de Bigtable, procédez comme suit pour créer un data store et ingérer des données à l'aide de l'API.
Configurer l'accès à Bigtable
Pour accorder à Vertex AI Search l'accès aux données Bigtable d'un autre projet, procédez comme suit:
Remplacez la variable
PROJECT_NUMBER
suivante par votre numéro de projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
Accédez à la page IAM et administration.
Basculez vers votre projet Bigtable sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance, puis sélectionnez le rôle Bigtable > Lecteur Bigtable.
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.
Accédez ensuite à Importer des données depuis Bigtable.
Importer des données depuis Bigtable
REST
Pour créer un data store et ingérer des données à partir de Bigtable à l'aide de la ligne de commande, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Remplacez les éléments suivants :
PROJECT_ID
: par l'ID du projet.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DISPLAY_NAME
: nom à afficher du data store. Cela peut s'afficher dans la console Google Cloud .
Importez des données depuis Bigtable.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigtableSource ": { "projectId": "BIGTABLE_PROJECT_ID", "instanceId": "INSTANCE_ID", "tableId": "TABLE_ID", "bigtableOptions": { "keyFieldName": "KEY_FIELD_NAME", "families": { "key": "KEY", "value": { "fieldName": "FIELD_NAME", "encoding": "ENCODING", "type": "TYPE", "columns": [ { "qualifier": "QUALIFIER", "fieldName": "FIELD_NAME", "encoding": "COLUMN_ENCODING", "type": "COLUMN_VALUES_TYPE" } ] } } ... } }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.BIGTABLE_PROJECT_ID
: ID de votre projet Bigtable.INSTANCE_ID
: ID de votre instance Bigtable.TABLE_ID
: ID de votre table Bigtable.KEY_FIELD_NAME
: facultatif, mais recommandé. Nom du champ à utiliser pour la valeur de clé de ligne après l'ingestion dans Vertex AI Search.KEY
: Obligatoire. Valeur de chaîne pour la clé de famille de colonnes.ENCODING
: Facultatif. Mode d'encodage des valeurs lorsque le type n'est pas STRING.Vous pouvez remplacer ce paramètre pour une colonne spécifique en la listant danscolumns
et en spécifiant un encodage.COLUMN_TYPE
: Facultatif. Type de valeurs de cette famille de colonnes.QUALIFIER
: Obligatoire. Qualificatif de la colonne.FIELD_NAME
: facultatif, mais recommandé. Nom du champ à utiliser pour cette colonne après l'ingestion dans Vertex AI Search.COLUMN_ENCODING
: Facultatif. Mode d'encodage des valeurs pour une colonne spécifique lorsque le type n'est pas STRING.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données de Bigtable vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre data store, et les documents qui ne figurent pas dans Bigtable sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.Indiquez
autoGenerateIds
uniquement lorsquebigquerySource.dataSchema
est défini surcustom
. Sinon, une erreurINVALID_ARGUMENT
est renvoyée. Si vous ne spécifiez pasautoGenerateIds
ou si vous le définissez surfalse
, vous devez spécifieridField
. Sinon, l'importation des documents échoue.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer depuis AlloyDB pour PostgreSQL
Pour ingérer des données à partir d'AlloyDB pour PostgreSQL, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.
Si vos données AlloyDB pour PostgreSQL se trouvent dans le même projet que le projet de recherche Vertex AI, accédez à Importer des données depuis AlloyDB pour PostgreSQL.
Si vos données AlloyDB pour PostgreSQL se trouvent dans un projet différent de votre projet de recherche Vertex AI, consultez Configurer l'accès à AlloyDB pour PostgreSQL.
Configurer l'accès à AlloyDB pour PostgreSQL à partir d'un autre projet
Pour accorder à la recherche Vertex AI l'accès aux données AlloyDB pour PostgreSQL d'un autre projet, procédez comme suit:
Remplacez la variable
PROJECT_NUMBER
suivante par votre numéro de projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Passez au projet Google Cloud où se trouvent vos données AlloyDB pour PostgreSQL.
Accédez à la page IAM.
Cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service Vertex AI Search, puis sélectionnez le rôle Cloud AlloyDB > Administrateur Cloud AlloyDB.
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.
Accédez ensuite à Importer des données depuis AlloyDB pour PostgreSQL.
Importer des données depuis AlloyDB pour PostgreSQL
Console
Pour utiliser la console afin d'ingérer des données à partir d'AlloyDB pour PostgreSQL, procédez comme suit:
Dans la console Google Cloud , accédez à la page AI Applications.
Dans le menu de navigation, cliquez sur Data Stores (Espaces de stockage de données).
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez AlloyDB.
Spécifiez l'ID du projet, l'ID de l'emplacement, l'ID du cluster, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Cliquez sur Continuer.
Choisissez une région pour votre data store.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores (Data stores), puis cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données). Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.
REST
Pour créer un data store et ingérer des données à l'aide de la ligne de commande à partir d'AlloyDB pour PostgreSQL, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Remplacez les éléments suivants :
PROJECT_ID
: par l'ID du projet.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DISPLAY_NAME
: nom à afficher du data store. Cela peut s'afficher dans la console Google Cloud .
Importer des données depuis AlloyDB pour PostgreSQL
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "alloydbSource": { "projectId": "ALLOYDB_PROJECT_ID", "locationId": "LOCATION_ID", "clusterId": "CLUSTER_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Vertex AI Search.DATA_STORE_ID
: ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.ALLOYDB_PROJECT_ID
: ID de votre projet AlloyDB pour PostgreSQL.LOCATION_ID
: ID de votre emplacement AlloyDB pour PostgreSQL.CLUSTER_ID
: ID de votre cluster AlloyDB pour PostgreSQL.DATABASE_ID
: ID de votre base de données AlloyDB pour PostgreSQL.TABLE_ID
: ID de votre table AlloyDB pour PostgreSQL.RECONCILIATION_MODE
: Facultatif. Les valeurs sontFULL
etINCREMENTAL
. La valeur par défaut estINCREMENTAL
. SpécifierINCREMENTAL
entraîne une actualisation incrémentielle des données d'AlloyDB pour PostgreSQL vers votre data store. Une opération d'insertion et de mise à jour est effectuée, qui ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. SpécifierFULL
entraîne une rebase complète des documents de votre data store. En d'autres termes, des documents nouveaux et mis à jour sont ajoutés à votre magasin de données, et les documents qui ne figurent pas dans AlloyDB pour PostgreSQL sont supprimés de votre data store. Le modeFULL
est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.AUTO_GENERATE_IDS
: Facultatif. Indique si les ID de document doivent être générés automatiquement. Si ce paramètre est défini surtrue
, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID pour plusieurs importations, Google vous recommande vivement de définirreconciliationMode
surFULL
afin de maintenir la cohérence des ID de document.ID_FIELD
: Facultatif. Spécifie les champs correspondant aux ID de document.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Applications d'IA Python.
Pour vous authentifier auprès des applications d'IA, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Créer un datastore
Importer des documents
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Importer des données JSON structurées avec l'API
Pour importer directement un document ou un objet JSON à l'aide de l'API, procédez comme suit.
Avant d'importer vos données, préparez-les pour l'ingestion.
REST
Pour créer un data store et importer des données JSON structurées à l'aide de la ligne de commande, procédez comme suit.
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google Cloud .DATA_STORE_ID
: ID du data store Vertex AI Search que vous souhaitez créer. Cet identifiant ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DATA_STORE_DISPLAY_NAME
: nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Importer des données structurées
Vous pouvez importer des données de plusieurs façons:
Importez un document JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Remplacez les éléments suivants :
DOCUMENT_ID
: ID unique du document. Cet ID peut comporter jusqu'à 63 caractères et ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.JSON_DOCUMENT_STRING
: document JSON sous forme de chaîne unique. Il doit respecter le schéma JSON que vous avez fourni à l'étape précédente, par exemple:{ \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"}
Importez un objet JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Remplacez
JSON_DOCUMENT_OBJECT
par le document JSON en tant qu'objet JSON. Il doit respecter le schéma JSON que vous avez fourni à l'étape précédente, par exemple:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Mettez à jour avec un document JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Mettez à jour avec un objet JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Étapes suivantes
Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant la procédure décrite dans la section Créer une application de recherche.
Pour prévisualiser l'affichage de vos résultats de recherche une fois votre application et votre data store configurés, consultez la section Obtenir des résultats de recherche.
Résoudre les problèmes liés à l'ingestion de données
Si vous rencontrez des problèmes d'ingestion de données, consultez ces conseils:
Si vous utilisez des clés de chiffrement gérées par le client et que l'importation de données échoue (avec le message d'erreur
The caller does not have permission
), assurez-vous que le rôle IAM de chiffreur/déchiffreur de clés cryptographiques (roles/cloudkms.cryptoKeyEncrypterDecrypter
) sur la clé a été attribué à l'agent de service Cloud Storage. Pour en savoir plus, consultez la section Avant de commencer dans "Clés de chiffrement gérées par le client".Si vous utilisez l'indexation avancée de votre site Web et que l'utilisation des documents pour le data store est beaucoup plus faible que prévu, examinez les formats d'URL que vous avez spécifiés pour l'indexation et assurez-vous qu'ils couvrent les pages que vous souhaitez indexer, et développez-les si nécessaire. Par exemple, si vous avez utilisé
*.en.example.com/*
, vous devrez peut-être ajouter*.example.com/*
aux sites que vous souhaitez indexer.
Créer un data store à l'aide de Terraform
Vous pouvez utiliser Terraform pour créer un data store vide. Une fois le data store vide créé, vous pouvez y insérer des données à l'aide de la Google Cloud console ou des commandes de l'API.
Pour savoir comment appliquer ou supprimer une configuration Terraform, consultez la page Commandes Terraform de base.
Pour créer un data store vide à l'aide de Terraform, consultez
google_discovery_engine_data_store
.