Cette page a été traduite par l'API Cloud Translation.

Créer un data store de recherche

Pour créer un data store et ingérer des données pour la recherche, accédez à la section correspondant à la source que vous prévoyez d'utiliser :

Créer un data store à l'aide du contenu d'un site Web
Importer depuis BigQuery
Importer depuis Cloud Storage
Synchroniser depuis Google Drive
Synchroniser depuis Gmail (aperçu public)
Synchroniser à partir de Google Sites (version Preview publique)
Synchroniser depuis Google Agenda (aperçu public)
Synchroniser depuis Google Groupes (version Preview publique)
Importer depuis Cloud SQL
Importer depuis Spanner (version bêta publique)
Importer depuis Firestore
Importer depuis Bigtable (version Preview publique)
Importer depuis AlloyDB pour PostgreSQL (aperçu public)
Importer des données JSON structurées avec l'API
Créer un data store à l'aide de Terraform

Pour synchroniser des données à partir d'une source de données tierce, consultez Connecter une source de données tierce.

Pour en savoir plus, consultez Résoudre les problèmes d'ingestion de données.

Créer un data store à l'aide du contenu d'un site Web

Utilisez la procédure suivante pour créer un data store et indexer des sites Web.

Pour utiliser un data store de site Web après l'avoir créé, vous devez l'associer à une application dont les fonctionnalités Enterprise sont activées. Vous pouvez activer l'édition Enterprise pour une application lorsque vous la créez. Cela entraîne des coûts supplémentaires. Consultez Créer une application de recherche et À propos des fonctionnalités avancées.

Avant de commencer

Si vous utilisez le fichier robots.txt sur votre site Web, mettez-le à jour. Pour en savoir plus, consultez Préparer le fichier robots.txt de votre site Web.

Procédure

Console

Pour créer un data store et indexer des sites Web à l'aide de la console Google Cloud , procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Contenu de site Web.
Indiquez si vous souhaitez activer l'indexation avancée de site Web pour ce data store. Vous ne pourrez pas activer ni désactiver cette option par la suite.

L'indexation avancée de site Web offre des fonctionnalités supplémentaires telles que la synthèse de recherche, la recherche avec questions complémentaires et les réponses extractives. L'indexation avancée de site Web entraîne des coûts supplémentaires et nécessite que vous validiez la propriété du domaine pour tout site Web que vous indexez. Pour en savoir plus, consultez Indexation avancée de sites Web et Tarifs.
Dans le champ Sites à inclure, saisissez les formats d'URL correspondant aux sites Web que vous souhaitez inclure dans votre data store. Incluez un format d'URL par ligne, sans les séparer par une virgule. Exemple : example.com/docs/*.
Facultatif : Dans le champ Sites à exclure, saisissez les modèles d'URL que vous souhaitez exclure de votre data store.

Les sites exclus sont prioritaires par rapport aux sites inclus. Par exemple, si vous incluez example.com/docs/*, mais excluez example.com, aucun site Web ne sera indexé. Pour en savoir plus, consultez Données de site Web.
Cliquez sur Continuer.
Sélectionnez un emplacement pour votre data store.
- Lorsque vous créez un data store de recherche de site Web de base, cette valeur est toujours définie sur global (Global).
- Lorsque vous créez un data store avec l'indexation avancée de sites Web, vous pouvez sélectionner un emplacement. Étant donné que les sites Web indexés doivent être publics, Google vous recommande vivement de sélectionner global (Global) comme emplacement. Cela garantit une disponibilité maximale de tous les services de recherche et de réponse, et élimine les limites des datastores régionaux.
Attribuez un nom à votre datastore
Cliquez sur Créer. Vertex AI Search crée votre data store et l'affiche sur la page Datastores.
Pour afficher des informations sur votre data store, cliquez sur son nom dans la colonne Nom. La page de votre data store s'affiche.
- Si vous avez activé l'indexation avancée de sites Web, un avertissement s'affiche pour vous inviter à valider les domaines de votre data store.
- Si vous avez un quota insuffisant (le nombre de pages des sites Web que vous avez spécifiés dépasse le quota "Nombre de documents par projet" pour votre projet), un avertissement supplémentaire s'affiche pour vous inviter à augmenter votre quota.
Pour valider les domaines des modèles d'URL dans votre data store, suivez les instructions de la page Valider les domaines de sites Web.
Pour augmenter votre quota, procédez comme suit :
1. Cliquez sur Mettre à niveau le quota. La page IAM et administration de la console Google Cloud s'affiche.
2. Suivez les instructions de la section Demander un ajustement de quota dans la documentation Google Cloud . Le quota à augmenter est Nombre de documents dans le service API Discovery Engine.
3. Après avoir envoyé votre demande de quota plus élevé, revenez à la page Applications d'IA et cliquez sur Datastores dans le menu de navigation.
4. Cliquez sur le nom de votre data store dans la colonne Nom. La colonne État indique que l'indexation est en cours pour les sites Web qui ont dépassé le quota. Lorsque la colonne État d'une URL indique Indexée, les fonctionnalités avancées d'indexation de sites Web sont disponibles pour cette URL ou ce modèle d'URL.
Pour en savoir plus, consultez la section Quota pour l'indexation des pages Web sur la page "Quotas et limites".

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Pour vous authentifier auprès de Vertex AI Search, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des sites Web

#     from google.api_core.client_options import ClientOptions
#
#     from google.cloud import discoveryengine_v1 as discoveryengine
#
#     # TODO(developer): Uncomment these variables before running the sample.
#     # project_id = "YOUR_PROJECT_ID"
#     # location = "YOUR_LOCATION" # Values: "global"
#     # data_store_id = "YOUR_DATA_STORE_ID"
#     # NOTE: Do not include http or https protocol in the URI pattern
#     # uri_pattern = "cloud.google.com/generative-ai-app-builder/docs/*"
#
#     #  For more information, refer to:
#     # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
#     client_options = (
#         ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
#         if location != "global"
#         else None
#     )
#
#     # Create a client
#     client = discoveryengine.SiteSearchEngineServiceClient(
#         client_options=client_options
#     )
#
#     # The full resource name of the data store
#     # e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}
#     site_search_engine = client.site_search_engine_path(
#         project=project_id, location=location, data_store=data_store_id
#     )
#
#     # Target Site to index
#     target_site = discoveryengine.TargetSite(
#         provided_uri_pattern=uri_pattern,
#         # Options: INCLUDE, EXCLUDE
#         type_=discoveryengine.TargetSite.Type.INCLUDE,
#         exact_match=False,
#     )
#
#     # Make the request
#     operation = client.create_target_site(
#         parent=site_search_engine,
#         target_site=target_site,
#     )
#
#     print(f"Waiting for operation to complete: {operation.operation.name}")
#     response = operation.result()
#
#     # After the operation is complete,
#     # get information from operation metadata
#     metadata = discoveryengine.CreateTargetSiteMetadata(operation.metadata)
#
#     # Handle the response
#     print(response)
#     print(metadata)

Étapes suivantes

Pour associer votre data store de site Web à une application, créez une application avec les fonctionnalités Enterprise activées et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Si vous avez activé l'indexation avancée de sites Web, vous pouvez utiliser des données structurées pour mettre à jour votre schéma.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer des données depuis BigQuery

Vertex AI Search permet d'effectuer des recherches dans les données BigQuery.

Vous pouvez créer des data stores à partir de tables BigQuery de deux manières :

Ingestion ponctuelle : vous importez des données d'une table BigQuery dans un data store. Les données du data store ne changent pas, sauf si vous les actualisez manuellement.
Ingestion périodique : vous importez des données à partir d'une ou de plusieurs tables BigQuery, et vous définissez une fréquence de synchronisation qui détermine la fréquence à laquelle les data stores sont mis à jour avec les données les plus récentes de l'ensemble de données BigQuery.

Le tableau suivant compare les deux méthodes d'importation de données BigQuery dans les datastores Vertex AI Search.

Ingestion unique	Ingestion périodique
Disponibilité générale	Version Preview publique
Les données doivent être actualisées manuellement.	Les données sont automatiquement mises à jour tous les jours, tous les trois jours ou tous les cinq jours. Les données ne peuvent pas être actualisées manuellement.
Vertex AI Search crée un seul data store à partir d'une table dans BigQuery.	Vertex AI Search crée un connecteur de données pour un ensemble de données BigQuery et un data store (appelé datastore data store;entités) pour chaque table spécifiée. Pour chaque connecteur de données, les tables doivent avoir le même type de données (structurées, par exemple) et se trouver dans le même ensemble de données BigQuery.
Vous pouvez combiner les données de plusieurs tables dans un seul data store en ingérant d'abord les données d'une table, puis d'autres données provenant d'une autre source ou table BigQuery.	Étant donné que l'importation manuelle de données n'est pas prise en charge, les données d'un data store d'entités ne peuvent provenir que d'une seule table BigQuery.
Le contrôle des accès aux sources de données est disponible.	Le contrôle des accès aux sources de données n'est pas disponible. Les données importées peuvent contenir des contrôles d'accès, mais ceux-ci ne seront pas respectés.
Vous pouvez créer un data store à l'aide de la consoleGoogle Cloud ou de l'API.	Vous devez utiliser la console pour créer des connecteurs de données et leurs data stores d'entités.
compatible avec les CMEK.	compatible avec les CMEK.

Importer des données depuis BigQuery une seule fois

Pour ingérer des données à partir d'une table BigQuery, procédez comme suit pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.

Avant d'importer vos données, consultez Préparer les données pour l'ingestion.

Console

Pour ingérer des données depuis BigQuery à l'aide de la console Google Cloud , procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez BigQuery.
Sélectionnez le type de données que vous allez importer dans la section Quel type de données importez-vous ?.
Sélectionnez Une seule fois dans la section Fréquence de synchronisation.
Dans le champ Chemin d'accès dans BigQuery, cliquez sur Parcourir, sélectionnez une table que vous avez préparée pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement de la table directement dans le champ Chemin d'accès BigQuery.
Cliquez sur Continuer.
Si vous effectuez un import ponctuel de données structurées :
1. Mappez les champs sur les propriétés clés.
2. Si des champs importants manquent dans le schéma, utilisez Ajouter un champ pour les ajouter.
  
  Pour en savoir plus, consultez À propos de la détection et de la modification automatiques.
3. Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.

REST

Pour créer un data store et importer des données depuis BigQuery à l'aide de la ligne de commande, procédez comme suit.

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.

Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATA_STORE_ID : ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Facultatif : Si vous importez des données non structurées et que vous souhaitez configurer l'analyse des documents ou activer le découpage des documents pour la RAG, spécifiez l'objet documentProcessingConfig et incluez-le dans votre demande de création de data store. Nous vous recommandons de configurer un analyseur OCR pour les PDF si vous ingérez des PDF numérisés. Pour savoir comment configurer les options d'analyse ou de segmentation, consultez Analyser et segmenter des documents.
Importez des données depuis BigQuery.

Si vous avez défini un schéma, assurez-vous que les données le respectent.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
-d '{
  "bigquerySource": {
    "projectId": "PROJECT_ID",
    "datasetId":"DATASET_ID",
    "tableId": "TABLE_ID",
    "dataSchema": "DATA_SCHEMA",
    "aclEnabled": "BOOLEAN"
  },
  "reconciliationMode": "RECONCILIATION_MODE",
  "autoGenerateIds": "AUTO_GENERATE_IDS",
  "idField": "ID_FIELD",
  "errorConfig": {
    "gcsPrefix": "ERROR_DIRECTORY"
  }
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATA_STORE_ID : ID du data store Vertex AI Search.
- DATASET_ID : ID de l'ensemble de données BigQuery.
- TABLE_ID : ID de la table BigQuery.
  - Si la table BigQuery ne se trouve pas sous PROJECT_ID, vous devez accorder au compte de service service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com l'autorisation "Lecteur de données BigQuery" pour la table BigQuery. Par exemple, si vous importez une table BigQuery du projet source "123" vers le projet de destination "456", accordez les autorisations service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com pour la table BigQuery sous le projet "123".
- DATA_SCHEMA (facultatif) : Les valeurs sont document et custom. La valeur par défaut est document.
  - document : la table BigQuery que vous utilisez doit être conforme au schéma BigQuery par défaut fourni dans Préparer les données à ingérer. Vous pouvez définir l'ID de chaque document vous-même, tout en encapsulant toutes les données dans la chaîne jsonData.
  - custom : tout schéma de table BigQuery est accepté, et Vertex AI Search génère automatiquement les ID pour chaque document importé.
- ERROR_DIRECTORY (facultatif) : Un répertoire Cloud Storage contenant des informations sur les erreurs d'importation (par exemple, gs://<your-gcs-bucket>/directory/import_errors). Google recommande de laisser ce champ vide pour permettre à Vertex AI Search de créer automatiquement un répertoire temporaire.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données de BigQuery sont actualisées de manière incrémentielle dans votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, cela entraîne un rebasage complet des documents de votre data store. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne sont pas dans BigQuery en sont supprimés. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Spécifie si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
  
  Spécifiez autoGenerateIds uniquement lorsque bigquerySource.dataSchema est défini sur custom. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée. Si vous ne spécifiez pas autoGenerateIds ou si vous le définissez sur false, vous devez spécifier idField. Sinon, l'importation des documents échouera.
- ID_FIELD (facultatif) : Spécifie les champs qui sont les ID de document. Pour les fichiers sources BigQuery, idField indique le nom de la colonne de la table BigQuery qui contient les ID de document.
  
  Spécifiez idField uniquement lorsque (1) bigquerySource.dataSchema est défini sur custom et (2) auto_generate_ids est défini sur false ou n'est pas spécifié. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée.
  
  La valeur du nom de colonne BigQuery doit être de type chaîne, comporter entre 1 et 63 caractères, et être conforme à la norme RFC-1034. Sinon, l'importation des documents échouera.

C#

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour C#.

Créer un datastore

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataStoreServiceClientSnippets
{
    /// <summary>Snippet for CreateDataStore</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataStoreRequestObject()
    {
        // Create client
        DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.Create();
        // Initialize request argument(s)
        CreateDataStoreRequest request = new CreateDataStoreRequest
        {
            ParentAsCollectionName = CollectionName.FromProjectLocationCollection("[PROJECT]", "[LOCATION]", "[COLLECTION]"),
            DataStore = new DataStore(),
            DataStoreId = "",
            CreateAdvancedSiteSearch = false,
            CmekConfigNameAsCmekConfigName = CmekConfigName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            SkipDefaultSchemaCreation = false,
        };
        // Make the request
        Operation<DataStore, CreateDataStoreMetadata> response = dataStoreServiceClient.CreateDataStore(request);

        // Poll until the returned long-running operation is complete
        Operation<DataStore, CreateDataStoreMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataStore result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataStore, CreateDataStoreMetadata> retrievedResponse = dataStoreServiceClient.PollOnceCreateDataStore(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataStore retrievedResult = retrievedResponse.Result;
        }
    }
}

Importer des documents

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDocumentServiceClientSnippets
{
    /// <summary>Snippet for ImportDocuments</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ImportDocumentsRequestObject()
    {
        // Create client
        DocumentServiceClient documentServiceClient = DocumentServiceClient.Create();
        // Initialize request argument(s)
        ImportDocumentsRequest request = new ImportDocumentsRequest
        {
            ParentAsBranchName = BranchName.FromProjectLocationDataStoreBranch("[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]"),
            InlineSource = new ImportDocumentsRequest.Types.InlineSource(),
            ErrorConfig = new ImportErrorConfig(),
            ReconciliationMode = ImportDocumentsRequest.Types.ReconciliationMode.Unspecified,
            UpdateMask = new FieldMask(),
            AutoGenerateIds = false,
            IdField = "",
            ForceRefreshContent = false,
        };
        // Make the request
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> response = documentServiceClient.ImportDocuments(request);

        // Poll until the returned long-running operation is complete
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        ImportDocumentsResponse result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> retrievedResponse = documentServiceClient.PollOnceImportDocuments(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            ImportDocumentsResponse retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Go.

Créer un datastore


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDataStoreClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.CreateDataStoreRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#CreateDataStoreRequest.
	}
	op, err := c.CreateDataStore(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Importer des documents


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDocumentClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.ImportDocumentsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#ImportDocumentsRequest.
	}
	op, err := c.ImportDocuments(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Java.

Créer un datastore

import com.google.cloud.discoveryengine.v1.CollectionName;
import com.google.cloud.discoveryengine.v1.CreateDataStoreRequest;
import com.google.cloud.discoveryengine.v1.DataStore;
import com.google.cloud.discoveryengine.v1.DataStoreServiceClient;

public class SyncCreateDataStore {

  public static void main(String[] args) throws Exception {
    syncCreateDataStore();
  }

  public static void syncCreateDataStore() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.create()) {
      CreateDataStoreRequest request =
          CreateDataStoreRequest.newBuilder()
              .setParent(CollectionName.of("[PROJECT]", "[LOCATION]", "[COLLECTION]").toString())
              .setDataStore(DataStore.newBuilder().build())
              .setDataStoreId("dataStoreId929489618")
              .setCreateAdvancedSiteSearch(true)
              .setSkipDefaultSchemaCreation(true)
              .build();
      DataStore response = dataStoreServiceClient.createDataStoreAsync(request).get();
    }
  }
}

Importer des documents

import com.google.cloud.discoveryengine.v1.BranchName;
import com.google.cloud.discoveryengine.v1.DocumentServiceClient;
import com.google.cloud.discoveryengine.v1.ImportDocumentsRequest;
import com.google.cloud.discoveryengine.v1.ImportDocumentsResponse;
import com.google.cloud.discoveryengine.v1.ImportErrorConfig;
import com.google.protobuf.FieldMask;

public class SyncImportDocuments {

  public static void main(String[] args) throws Exception {
    syncImportDocuments();
  }

  public static void syncImportDocuments() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DocumentServiceClient documentServiceClient = DocumentServiceClient.create()) {
      ImportDocumentsRequest request =
          ImportDocumentsRequest.newBuilder()
              .setParent(
                  BranchName.ofProjectLocationDataStoreBranchName(
                          "[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]")
                      .toString())
              .setErrorConfig(ImportErrorConfig.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setAutoGenerateIds(true)
              .setIdField("idField1629396127")
              .setForceRefreshContent(true)
              .build();
      ImportDocumentsResponse response = documentServiceClient.importDocumentsAsync(request).get();
    }
  }
}

Node.js

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Node.js.

Créer un datastore

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  Resource name of the CmekConfig to use for protecting this DataStore.
 */
// const cmekConfigName = 'abc123'
/**
 *  DataStore without CMEK protections. If a default CmekConfig is set for
 *  the project, setting this field will override the default CmekConfig as
 *  well.
 */
// const disableCmek = true
/**
 *  Required. The parent resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}`.
 */
// const parent = 'abc123'
/**
 *  Required. The DataStore google.cloud.discoveryengine.v1.DataStore  to
 *  create.
 */
// const dataStore = {}
/**
 *  Required. The ID to use for the
 *  DataStore google.cloud.discoveryengine.v1.DataStore, which will become
 *  the final component of the
 *  DataStore google.cloud.discoveryengine.v1.DataStore's resource name.
 *  This field must conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  standard with a length limit of 63 characters. Otherwise, an
 *  INVALID_ARGUMENT error is returned.
 */
// const dataStoreId = 'abc123'
/**
 *  A boolean flag indicating whether user want to directly create an advanced
 *  data store for site search.
 *  If the data store is not configured as site
 *  search (GENERIC vertical and PUBLIC_WEBSITE content_config), this flag will
 *  be ignored.
 */
// const createAdvancedSiteSearch = true
/**
 *  A boolean flag indicating whether to skip the default schema creation for
 *  the data store. Only enable this flag if you are certain that the default
 *  schema is incompatible with your use case.
 *  If set to true, you must manually create a schema for the data store before
 *  any documents can be ingested.
 *  This flag cannot be specified if `data_store.starting_schema` is specified.
 */
// const skipDefaultSchemaCreation = true

// Imports the Discoveryengine library
const {DataStoreServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DataStoreServiceClient();

async function callCreateDataStore() {
  // Construct request
  const request = {
    parent,
    dataStore,
    dataStoreId,
  };

  // Run request
  const [operation] = await discoveryengineClient.createDataStore(request);
  const [response] = await operation.promise();
  console.log(response);
}

callCreateDataStore();

Importer des documents

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  The Inline source for the input content for documents.
 */
// const inlineSource = {}
/**
 *  Cloud Storage location for the input content.
 */
// const gcsSource = {}
/**
 *  BigQuery input source.
 */
// const bigquerySource = {}
/**
 *  FhirStore input source.
 */
// const fhirStoreSource = {}
/**
 *  Spanner input source.
 */
// const spannerSource = {}
/**
 *  Cloud SQL input source.
 */
// const cloudSqlSource = {}
/**
 *  Firestore input source.
 */
// const firestoreSource = {}
/**
 *  AlloyDB input source.
 */
// const alloyDbSource = {}
/**
 *  Cloud Bigtable input source.
 */
// const bigtableSource = {}
/**
 *  Required. The parent branch resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}/dataStores/{data_store}/branches/{branch}`.
 *  Requires create/update permission.
 */
// const parent = 'abc123'
/**
 *  The desired location of errors incurred during the Import.
 */
// const errorConfig = {}
/**
 *  The mode of reconciliation between existing documents and the documents to
 *  be imported. Defaults to
 *  ReconciliationMode.INCREMENTAL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL.
 */
// const reconciliationMode = {}
/**
 *  Indicates which fields in the provided imported documents to update. If
 *  not set, the default is to update all fields.
 */
// const updateMask = {}
/**
 *  Whether to automatically generate IDs for the documents if absent.
 *  If set to `true`,
 *  Document.id google.cloud.discoveryengine.v1.Document.id s are
 *  automatically generated based on the hash of the payload, where IDs may not
 *  be consistent during multiple imports. In which case
 *  ReconciliationMode.FULL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.FULL 
 *  is highly recommended to avoid duplicate contents. If unset or set to
 *  `false`, Document.id google.cloud.discoveryengine.v1.Document.id s have
 *  to be specified using
 *  id_field google.cloud.discoveryengine.v1.ImportDocumentsRequest.id_field,
 *  otherwise, documents without IDs fail to be imported.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const autoGenerateIds = true
/**
 *  The field indicates the ID field or column to be used as unique IDs of
 *  the documents.
 *  For GcsSource google.cloud.discoveryengine.v1.GcsSource  it is the key of
 *  the JSON field. For instance, `my_id` for JSON `{"my_id": "some_uuid"}`.
 *  For others, it may be the column name of the table where the unique ids are
 *  stored.
 *  The values of the JSON field or the table column are used as the
 *  Document.id google.cloud.discoveryengine.v1.Document.id s. The JSON field
 *  or the table column must be of string type, and the values must be set as
 *  valid strings conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  with 1-63 characters. Otherwise, documents without valid IDs fail to be
 *  imported.
 *  Only set this field when
 *  auto_generate_ids google.cloud.discoveryengine.v1.ImportDocumentsRequest.auto_generate_ids 
 *  is unset or set as `false`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  If it is unset, a default value `_id` is used when importing from the
 *  allowed data sources.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const idField = 'abc123'
/**
 *  Optional. Whether to force refresh the unstructured content of the
 *  documents.
 *  If set to `true`, the content part of the documents will be refreshed
 *  regardless of the update status of the referencing content.
 */
// const forceRefreshContent = true

// Imports the Discoveryengine library
const {DocumentServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DocumentServiceClient();

async function callImportDocuments() {
  // Construct request
  const request = {
    parent,
  };

  // Run request
  const [operation] = await discoveryengineClient.importDocuments(request);
  const [response] = await operation.promise();
  console.log(response);
}

callImportDocuments();

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# bigquery_dataset = "YOUR_BIGQUERY_DATASET"
# bigquery_table = "YOUR_BIGQUERY_TABLE"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    bigquery_source=discoveryengine.BigQuerySource(
        project_id=project_id,
        dataset_id=bigquery_dataset,
        table_id=bigquery_table,
        data_schema="custom",
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Ruby

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Ruby.

Créer un datastore

require "google/cloud/discovery_engine/v1"

##
# Snippet for the create_data_store call in the DataStoreService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client#create_data_store.
#
def create_data_store
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::CreateDataStoreRequest.new

  # Call the create_data_store method.
  result = client.create_data_store request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Importer des documents

require "google/cloud/discovery_engine/v1"

##
# Snippet for the import_documents call in the DocumentService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DocumentService::Client#import_documents.
#
def import_documents
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DocumentService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::ImportDocumentsRequest.new

  # Call the import_documents method.
  result = client.import_documents request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Se connecter à BigQuery avec une synchronisation périodique

Remarque : Cette fonctionnalité est une offre en version bêta soumise aux conditions des offres avant disponibilité générale des Conditions spécifiques du service GCP. Les fonctionnalités et produits pré-DG sont susceptibles de présenter une compatibilité limitée, et les modifications apportées à ces fonctionnalités ou produits peuvent ne pas être compatibles avec d'autres versions pré-DG. Pour en savoir plus, consultez les descriptions des étapes de lancement. En outre, en utilisant cette fonctionnalité, vous acceptez les Conditions d'utilisation de la version bêta de l'IA générative ("Conditions d'utilisation de la version bêta"). Pour cette fonctionnalité, vous pouvez traiter les données à caractère personnel comme indiqué dans l'avenant relatif au traitement des données dans le cloud, sous réserve des restrictions et obligations applicables dans le contrat (tel que défini dans les Conditions d'aperçu).

Avant d'importer vos données, consultez Préparer les données pour l'ingestion.

La procédure suivante décrit comment créer un connecteur de données qui associe un ensemble de données BigQuery à un connecteur de données Vertex AI Search, et comment spécifier une table dans l'ensemble de données pour chaque data store que vous souhaitez créer. Les data stores enfants des connecteurs de données sont appelés data stores d'entités.

Les données de l'ensemble de données sont synchronisées périodiquement avec les data stores d'entités. Vous pouvez spécifier une synchronisation quotidienne, tous les trois jours ou tous les cinq jours.

Console

Pour utiliser la console Google Cloud afin de créer un connecteur qui synchronise régulièrement les données d'un ensemble de données BigQuery avec Vertex AI Search, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez BigQuery.
Sélectionnez le type de données que vous importez.
Cliquez sur Périodique.
Sélectionnez la fréquence de synchronisation, c'est-à-dire la fréquence à laquelle vous souhaitez que le connecteur Vertex AI Search se synchronise avec l'ensemble de données BigQuery. Vous pourrez modifier la fréquence ultérieurement.
Dans le champ Chemin d'accès à l'ensemble de données BigQuery, cliquez sur Parcourir, puis sélectionnez l'ensemble de données contenant les tables que vous avez préparées pour l'ingestion. Vous pouvez également saisir directement l'emplacement de la table dans le champ Chemin d'accès BigQuery. Le format du chemin d'accès est projectname.datasetname.
Dans le champ Tables à synchroniser, cliquez sur Parcourir, puis sélectionnez une table contenant les données que vous souhaitez utiliser pour votre data store.
Remarque
: Assurez-vous que les données des tables correspondent au type de données que vous avez sélectionné à l'étape 5.
En cas d'incohérence, vous ne le saurez que lorsque l'un des événements suivants se produira :
- Vous recevez des erreurs lorsque le connecteur tente d'importer des données.
- Vous obtenez des résultats inattendus. Cela se produit si le type sélectionné était structuré, mais aurait dû être non structuré ou structuré avec des métadonnées. Les données sont importées, mais l'URL du contenu ou les métadonnées ne sont pas reconnues et sont traitées comme une chaîne.
Si l'ensemble de données contient d'autres tables que vous souhaitez utiliser pour les data stores, cliquez sur Ajouter une table et spécifiez également ces tables.
Cliquez sur Continuer.
Choisissez une région pour votre data store, saisissez un nom pour votre connecteur de données, puis cliquez sur Créer.

Vous avez créé un connecteur de données qui synchronisera régulièrement les données avec l'ensemble de données BigQuery. Vous avez créé un ou plusieurs datastores d'entités. Les magasins de données portent le même nom que les tables BigQuery.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre connecteur de données pour afficher des informations détaillées sur la page Données > onglet Activité d'ingestion de données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Réussie, la première ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.

Une fois que vous avez configuré votre source de données et importé des données pour la première fois, le datastore synchronise les données de cette source à la fréquence que vous avez sélectionnée lors de la configuration. La première synchronisation a lieu environ une heure après la création du connecteur de données. La prochaine synchronisation a lieu environ 24, 72 ou 120 heures plus tard.

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer depuis Cloud Storage

Vous pouvez créer des data stores à partir de tables Cloud Storage de deux manières :

Ingestion ponctuelle : vous importez des données depuis un dossier ou un fichier Cloud Storage dans un data store. Les données du data store ne changent pas, sauf si vous les actualisez manuellement.
Ingestion périodique : vous importez des données à partir d'un dossier ou d'un fichier Cloud Storage, et vous définissez une fréquence de synchronisation qui détermine la fréquence à laquelle le data store est mis à jour avec les données les plus récentes de cet emplacement Cloud Storage.

Le tableau suivant compare les deux méthodes permettant d'importer des données Cloud Storage dans des data stores Vertex AI Search.

Ingestion unique	Ingestion périodique
Disponibilité générale	Version Preview publique
Les données doivent être actualisées manuellement.	Les données sont automatiquement mises à jour tous les jours, tous les trois jours ou tous les cinq jours. Les données ne peuvent pas être actualisées manuellement.
Vertex AI Search crée un seul data store à partir d'un dossier ou d'un fichier dans Cloud Storage.	Vertex AI Search crée un connecteur de données et lui associe un data store (appelé data store d'entités) pour le fichier ou le dossier spécifié. Chaque connecteur de données Cloud Storage ne peut comporter qu'un seul data store'entités.
Vous pouvez combiner les données de plusieurs fichiers, dossiers et buckets dans un seul data store en ingérant d'abord les données d'un emplacement Cloud Storage, puis d'un autre.	Étant donné que l'importation manuelle de données n'est pas prise en charge, les données d'un data store d'entités ne peuvent provenir que d'un seul fichier ou dossier Cloud Storage.
Le contrôle des accès aux sources de données est disponible. Pour en savoir plus, consultez Contrôle des accès aux sources de données.	Le contrôle des accès aux sources de données n'est pas disponible. Les données importées peuvent contenir des contrôles d'accès, mais ceux-ci ne seront pas respectés.
Vous pouvez créer un data store à l'aide de la consoleGoogle Cloud ou de l'API.	Vous devez utiliser la console pour créer des connecteurs de données et leurs data stores d'entités.
compatible avec les CMEK.	compatible avec les CMEK.

Importer une seule fois depuis Cloud Storage

Pour ingérer des données depuis Cloud Storage, suivez la procédure ci-dessous pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.

Avant d'importer vos données, consultez Préparer les données pour l'ingestion.

Console

Pour ingérer des données à partir d'un bucket Cloud Storage à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Cloud Storage.
Dans la section Sélectionnez un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.
Cliquez sur Parcourir, sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ gs://.
Sélectionnez le type de données que vous importez.
Cliquez sur Continuer.
Si vous effectuez un import ponctuel de données structurées :
1. Mappez les champs sur les propriétés clés.
2. Si des champs importants manquent dans le schéma, utilisez Ajouter un champ pour les ajouter.
  
  Pour en savoir plus, consultez À propos de la détection et de la modification automatiques.
3. Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Facultatif : Si vous avez sélectionné des documents non structurés, vous pouvez choisir des options d'analyse et de segmentation pour vos documents. Pour comparer les analyseurs, consultez Analyser des documents. Pour en savoir plus sur le découpage, consultez Découper les documents pour la RAG.

L'analyseur OCR et l'analyseur de mise en page peuvent entraîner des coûts supplémentaires. Consultez les tarifs des fonctionnalités Document AI.

Pour sélectionner un analyseur, développez Options de traitement des documents et spécifiez les options d'analyseur que vous souhaitez utiliser.
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

REST

Pour créer un data store et ingérer des données depuis Cloud Storage à l'aide de la ligne de commande, procédez comme suit.

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.

Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATA_STORE_ID : ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Facultatif : Si vous importez des données non structurées et que vous souhaitez configurer l'analyse des documents ou activer le découpage des documents pour la RAG, spécifiez l'objet documentProcessingConfig et incluez-le dans votre demande de création de data store. Nous vous recommandons de configurer un analyseur OCR pour les PDF si vous ingérez des PDF numérisés. Pour savoir comment configurer les options d'analyse ou de segmentation, consultez Analyser et segmenter des documents.
Importez des données depuis Cloud Storage.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "gcsSource": {
      "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
      "dataSchema": "DATA_SCHEMA",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
    "errorConfig": {
      "gcsPrefix": "ERROR_DIRECTORY"
    }
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATA_STORE_ID : ID du data store Vertex AI Search.
- INPUT_FILE_PATTERN : modèle de fichier dans Cloud Storage contenant vos documents.
  
  Pour les données structurées ou non structurées avec métadonnées, un exemple de modèle de fichier d'entrée est gs://<your-gcs-bucket>/directory/object.json, et un exemple de modèle correspondant à un ou plusieurs fichiers est gs://<your-gcs-bucket>/directory/*.json.
  
  Pour les documents non structurés, un exemple est gs://<your-gcs-bucket>/directory/*.pdf. Chaque fichier correspondant au modèle devient un document.
  
  Si <your-gcs-bucket> ne se trouve pas sous PROJECT_ID, vous devez accorder au compte de service service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com les autorisations "Lecteur des objets Storage" pour le bucket Cloud Storage. Par exemple, si vous importez un bucket Cloud Storage du projet source "123" vers le projet de destination "456", accordez les autorisations service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com sur le bucket Cloud Storage du projet "123".
- DATA_SCHEMA (facultatif) : Les valeurs sont document, custom, csv et content. La valeur par défaut est document.
  - document : importez des données non structurées avec des métadonnées pour les documents non structurés. Chaque ligne du fichier doit respecter l'un des formats suivants. Vous pouvez définir l'ID de chaque document :
    - { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    - { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  - custom : importez le fichier JSON pour les documents structurés. Les données sont organisées selon un schéma. Vous pouvez spécifier le schéma. Sinon, il est détecté automatiquement. Vous pouvez placer la chaîne JSON du document dans un format cohérent directement sur chaque ligne. Vertex AI Search génère automatiquement les ID pour chaque document importé.
  - content : importez des documents non structurés (PDF, HTML, DOC, TXT, PPTX). L'ID de chaque document est généré automatiquement et correspond aux 128 premiers bits de SHA256(GCS_URI) encodés sous forme de chaîne hexadécimale. Vous pouvez spécifier plusieurs modèles de fichiers d'entrée, à condition que les fichiers correspondants ne dépassent pas la limite de 100 000 fichiers.
  - csv : incluez une ligne d'en-tête dans votre fichier CSV, chaque en-tête étant associé à un champ de document. Spécifiez le chemin d'accès au fichier CSV à l'aide du champ inputUris.
- ERROR_DIRECTORY (facultatif) : Un répertoire Cloud Storage contenant des informations sur les erreurs d'importation (par exemple, gs://<your-gcs-bucket>/directory/import_errors). Google recommande de laisser ce champ vide pour permettre à Vertex AI Search de créer automatiquement un répertoire temporaire.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données seront actualisées de manière incrémentielle depuis Cloud Storage vers votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne se trouvent pas dans Cloud Storage en sont supprimés. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Indique si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
  
  Spécifiez autoGenerateIds uniquement lorsque gcsSource.dataSchema est défini sur custom ou csv. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée. Si vous ne spécifiez pas autoGenerateIds ou si vous le définissez sur false, vous devez spécifier idField. Sinon, l'importation des documents échouera.
- ID_FIELD (facultatif) : Spécifie les champs qui correspondent aux ID de document. Pour les documents sources Cloud Storage, idField spécifie le nom dans les champs JSON qui sont des ID de document. Par exemple, si {"my_id":"some_uuid"} est le champ d'ID de document dans l'un de vos documents, spécifiez "idField":"my_id". Cela identifie tous les champs JSON portant le nom "my_id" comme ID de document.
  
  Spécifiez ce champ uniquement lorsque (1) gcsSource.dataSchema est défini sur custom ou csv, et (2) auto_generate_ids est défini sur false ou n'est pas spécifié. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée.
  
  Notez que la valeur du champ JSON Cloud Storage doit être de type chaîne, comporter entre 1 et 63 caractères, et être conforme à la norme RFC-1034. Sinon, l'importation des documents échouera.
  
  Notez que le nom du champ JSON spécifié par id_field doit être de type chaîne, doit comporter entre 1 et 63 caractères, et doit être conforme à la norme RFC-1034. Sinon, l'importation des documents échouera.

C#

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour C#.

Créer un datastore

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataStoreServiceClientSnippets
{
    /// <summary>Snippet for CreateDataStore</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataStoreRequestObject()
    {
        // Create client
        DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.Create();
        // Initialize request argument(s)
        CreateDataStoreRequest request = new CreateDataStoreRequest
        {
            ParentAsCollectionName = CollectionName.FromProjectLocationCollection("[PROJECT]", "[LOCATION]", "[COLLECTION]"),
            DataStore = new DataStore(),
            DataStoreId = "",
            CreateAdvancedSiteSearch = false,
            CmekConfigNameAsCmekConfigName = CmekConfigName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            SkipDefaultSchemaCreation = false,
        };
        // Make the request
        Operation<DataStore, CreateDataStoreMetadata> response = dataStoreServiceClient.CreateDataStore(request);

        // Poll until the returned long-running operation is complete
        Operation<DataStore, CreateDataStoreMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataStore result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataStore, CreateDataStoreMetadata> retrievedResponse = dataStoreServiceClient.PollOnceCreateDataStore(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataStore retrievedResult = retrievedResponse.Result;
        }
    }
}

Importer des documents

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDocumentServiceClientSnippets
{
    /// <summary>Snippet for ImportDocuments</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ImportDocumentsRequestObject()
    {
        // Create client
        DocumentServiceClient documentServiceClient = DocumentServiceClient.Create();
        // Initialize request argument(s)
        ImportDocumentsRequest request = new ImportDocumentsRequest
        {
            ParentAsBranchName = BranchName.FromProjectLocationDataStoreBranch("[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]"),
            InlineSource = new ImportDocumentsRequest.Types.InlineSource(),
            ErrorConfig = new ImportErrorConfig(),
            ReconciliationMode = ImportDocumentsRequest.Types.ReconciliationMode.Unspecified,
            UpdateMask = new FieldMask(),
            AutoGenerateIds = false,
            IdField = "",
            ForceRefreshContent = false,
        };
        // Make the request
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> response = documentServiceClient.ImportDocuments(request);

        // Poll until the returned long-running operation is complete
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        ImportDocumentsResponse result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> retrievedResponse = documentServiceClient.PollOnceImportDocuments(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            ImportDocumentsResponse retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Go.

Créer un datastore


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDataStoreClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.CreateDataStoreRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#CreateDataStoreRequest.
	}
	op, err := c.CreateDataStore(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Importer des documents


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDocumentClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.ImportDocumentsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#ImportDocumentsRequest.
	}
	op, err := c.ImportDocuments(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Java.

Créer un datastore

import com.google.cloud.discoveryengine.v1.CollectionName;
import com.google.cloud.discoveryengine.v1.CreateDataStoreRequest;
import com.google.cloud.discoveryengine.v1.DataStore;
import com.google.cloud.discoveryengine.v1.DataStoreServiceClient;

public class SyncCreateDataStore {

  public static void main(String[] args) throws Exception {
    syncCreateDataStore();
  }

  public static void syncCreateDataStore() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.create()) {
      CreateDataStoreRequest request =
          CreateDataStoreRequest.newBuilder()
              .setParent(CollectionName.of("[PROJECT]", "[LOCATION]", "[COLLECTION]").toString())
              .setDataStore(DataStore.newBuilder().build())
              .setDataStoreId("dataStoreId929489618")
              .setCreateAdvancedSiteSearch(true)
              .setSkipDefaultSchemaCreation(true)
              .build();
      DataStore response = dataStoreServiceClient.createDataStoreAsync(request).get();
    }
  }
}

Importer des documents

import com.google.cloud.discoveryengine.v1.BranchName;
import com.google.cloud.discoveryengine.v1.DocumentServiceClient;
import com.google.cloud.discoveryengine.v1.ImportDocumentsRequest;
import com.google.cloud.discoveryengine.v1.ImportDocumentsResponse;
import com.google.cloud.discoveryengine.v1.ImportErrorConfig;
import com.google.protobuf.FieldMask;

public class SyncImportDocuments {

  public static void main(String[] args) throws Exception {
    syncImportDocuments();
  }

  public static void syncImportDocuments() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DocumentServiceClient documentServiceClient = DocumentServiceClient.create()) {
      ImportDocumentsRequest request =
          ImportDocumentsRequest.newBuilder()
              .setParent(
                  BranchName.ofProjectLocationDataStoreBranchName(
                          "[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]")
                      .toString())
              .setErrorConfig(ImportErrorConfig.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setAutoGenerateIds(true)
              .setIdField("idField1629396127")
              .setForceRefreshContent(true)
              .build();
      ImportDocumentsResponse response = documentServiceClient.importDocumentsAsync(request).get();
    }
  }
}

Node.js

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Node.js.

Créer un datastore

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  Resource name of the CmekConfig to use for protecting this DataStore.
 */
// const cmekConfigName = 'abc123'
/**
 *  DataStore without CMEK protections. If a default CmekConfig is set for
 *  the project, setting this field will override the default CmekConfig as
 *  well.
 */
// const disableCmek = true
/**
 *  Required. The parent resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}`.
 */
// const parent = 'abc123'
/**
 *  Required. The DataStore google.cloud.discoveryengine.v1.DataStore  to
 *  create.
 */
// const dataStore = {}
/**
 *  Required. The ID to use for the
 *  DataStore google.cloud.discoveryengine.v1.DataStore, which will become
 *  the final component of the
 *  DataStore google.cloud.discoveryengine.v1.DataStore's resource name.
 *  This field must conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  standard with a length limit of 63 characters. Otherwise, an
 *  INVALID_ARGUMENT error is returned.
 */
// const dataStoreId = 'abc123'
/**
 *  A boolean flag indicating whether user want to directly create an advanced
 *  data store for site search.
 *  If the data store is not configured as site
 *  search (GENERIC vertical and PUBLIC_WEBSITE content_config), this flag will
 *  be ignored.
 */
// const createAdvancedSiteSearch = true
/**
 *  A boolean flag indicating whether to skip the default schema creation for
 *  the data store. Only enable this flag if you are certain that the default
 *  schema is incompatible with your use case.
 *  If set to true, you must manually create a schema for the data store before
 *  any documents can be ingested.
 *  This flag cannot be specified if `data_store.starting_schema` is specified.
 */
// const skipDefaultSchemaCreation = true

// Imports the Discoveryengine library
const {DataStoreServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DataStoreServiceClient();

async function callCreateDataStore() {
  // Construct request
  const request = {
    parent,
    dataStore,
    dataStoreId,
  };

  // Run request
  const [operation] = await discoveryengineClient.createDataStore(request);
  const [response] = await operation.promise();
  console.log(response);
}

callCreateDataStore();

Importer des documents

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  The Inline source for the input content for documents.
 */
// const inlineSource = {}
/**
 *  Cloud Storage location for the input content.
 */
// const gcsSource = {}
/**
 *  BigQuery input source.
 */
// const bigquerySource = {}
/**
 *  FhirStore input source.
 */
// const fhirStoreSource = {}
/**
 *  Spanner input source.
 */
// const spannerSource = {}
/**
 *  Cloud SQL input source.
 */
// const cloudSqlSource = {}
/**
 *  Firestore input source.
 */
// const firestoreSource = {}
/**
 *  AlloyDB input source.
 */
// const alloyDbSource = {}
/**
 *  Cloud Bigtable input source.
 */
// const bigtableSource = {}
/**
 *  Required. The parent branch resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}/dataStores/{data_store}/branches/{branch}`.
 *  Requires create/update permission.
 */
// const parent = 'abc123'
/**
 *  The desired location of errors incurred during the Import.
 */
// const errorConfig = {}
/**
 *  The mode of reconciliation between existing documents and the documents to
 *  be imported. Defaults to
 *  ReconciliationMode.INCREMENTAL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL.
 */
// const reconciliationMode = {}
/**
 *  Indicates which fields in the provided imported documents to update. If
 *  not set, the default is to update all fields.
 */
// const updateMask = {}
/**
 *  Whether to automatically generate IDs for the documents if absent.
 *  If set to `true`,
 *  Document.id google.cloud.discoveryengine.v1.Document.id s are
 *  automatically generated based on the hash of the payload, where IDs may not
 *  be consistent during multiple imports. In which case
 *  ReconciliationMode.FULL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.FULL 
 *  is highly recommended to avoid duplicate contents. If unset or set to
 *  `false`, Document.id google.cloud.discoveryengine.v1.Document.id s have
 *  to be specified using
 *  id_field google.cloud.discoveryengine.v1.ImportDocumentsRequest.id_field,
 *  otherwise, documents without IDs fail to be imported.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const autoGenerateIds = true
/**
 *  The field indicates the ID field or column to be used as unique IDs of
 *  the documents.
 *  For GcsSource google.cloud.discoveryengine.v1.GcsSource  it is the key of
 *  the JSON field. For instance, `my_id` for JSON `{"my_id": "some_uuid"}`.
 *  For others, it may be the column name of the table where the unique ids are
 *  stored.
 *  The values of the JSON field or the table column are used as the
 *  Document.id google.cloud.discoveryengine.v1.Document.id s. The JSON field
 *  or the table column must be of string type, and the values must be set as
 *  valid strings conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  with 1-63 characters. Otherwise, documents without valid IDs fail to be
 *  imported.
 *  Only set this field when
 *  auto_generate_ids google.cloud.discoveryengine.v1.ImportDocumentsRequest.auto_generate_ids 
 *  is unset or set as `false`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  If it is unset, a default value `_id` is used when importing from the
 *  allowed data sources.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const idField = 'abc123'
/**
 *  Optional. Whether to force refresh the unstructured content of the
 *  documents.
 *  If set to `true`, the content part of the documents will be refreshed
 *  regardless of the update status of the referencing content.
 */
// const forceRefreshContent = true

// Imports the Discoveryengine library
const {DocumentServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DocumentServiceClient();

async function callImportDocuments() {
  // Construct request
  const request = {
    parent,
  };

  // Run request
  const [operation] = await discoveryengineClient.importDocuments(request);
  const [response] = await operation.promise();
  console.log(response);
}

callImportDocuments();

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"

# Examples:
# - Unstructured documents
#   - `gs://bucket/directory/file.pdf`
#   - `gs://bucket/directory/*.pdf`
# - Unstructured documents with JSONL Metadata
#   - `gs://bucket/directory/file.json`
# - Unstructured documents with CSV Metadata
#   - `gs://bucket/directory/file.csv`
# gcs_uri = "YOUR_GCS_PATH"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    gcs_source=discoveryengine.GcsSource(
        # Multiple URIs are supported
        input_uris=[gcs_uri],
        # Options:
        # - `content` - Unstructured documents (PDF, HTML, DOC, TXT, PPTX)
        # - `custom` - Unstructured documents with custom JSONL metadata
        # - `document` - Structured documents in the discoveryengine.Document format.
        # - `csv` - Unstructured documents with CSV metadata
        data_schema="content",
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Ruby

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Ruby.

Créer un datastore

require "google/cloud/discovery_engine/v1"

##
# Snippet for the create_data_store call in the DataStoreService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client#create_data_store.
#
def create_data_store
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::CreateDataStoreRequest.new

  # Call the create_data_store method.
  result = client.create_data_store request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Importer des documents

require "google/cloud/discovery_engine/v1"

##
# Snippet for the import_documents call in the DocumentService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DocumentService::Client#import_documents.
#
def import_documents
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DocumentService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::ImportDocumentsRequest.new

  # Call the import_documents method.
  result = client.import_documents request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Se connecter à Cloud Storage avec une synchronisation périodique

Avant d'importer vos données, consultez Préparer les données pour l'ingestion.

La procédure suivante décrit comment créer un connecteur de données qui associe un emplacement Cloud Storage à un connecteur de données Vertex AI Search, et comment spécifier un dossier ou un fichier dans cet emplacement pour le data store que vous souhaitez créer. Les data stores enfants des connecteurs de données sont appelés data stores d'entités.

Les données sont synchronisées périodiquement avec le data store d'entités. Vous pouvez spécifier une synchronisation quotidienne, tous les trois jours ou tous les cinq jours.

Console

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Cloud Storage.
Sélectionnez le type de données que vous importez.
Cliquez sur Périodique.
Sélectionnez la fréquence de synchronisation, c'est-à-dire la fréquence à laquelle vous souhaitez que le connecteur Vertex AI Search se synchronise avec l'emplacement Cloud Storage. Vous pourrez modifier la fréquence ultérieurement.
Dans la section Sélectionnez un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.
Cliquez sur Parcourir, sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ gs://.
Cliquez sur Continuer.
Choisissez une région pour votre connecteur de données.
Attribuez un nom à votre connecteur de données.
Facultatif : Si vous avez sélectionné des documents non structurés, vous pouvez choisir des options d'analyse et de segmentation pour vos documents. Pour comparer les analyseurs, consultez Analyser des documents. Pour en savoir plus sur le découpage, consultez Découper les documents pour la RAG.

L'analyseur OCR et l'analyseur de mise en page peuvent entraîner des coûts supplémentaires. Consultez les tarifs des fonctionnalités Document AI.

Pour sélectionner un analyseur, développez Options de traitement des documents et spécifiez les options d'analyseur que vous souhaitez utiliser.
Cliquez sur Créer.

Vous avez créé un connecteur de données qui synchronise régulièrement les données avec l'emplacement Cloud Storage. Vous avez également créé un data store d'entités nommé gcs_store.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre connecteur de données pour afficher des informations détaillées sur la page Données.

Onglet Activité d'ingestion de données Lorsque la colonne "État" de l'onglet Activité d'ingestion de données passe de En cours à Réussie, la première ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.

Une fois que vous avez configuré votre source de données et importé des données pour la première fois, les données de cette source sont synchronisées à la fréquence que vous avez sélectionnée lors de la configuration. La première synchronisation a lieu environ une heure après la création du connecteur de données. La prochaine synchronisation a lieu environ 24, 72 ou 120 heures plus tard.

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Associer à Google Drive

Vertex AI Search peut rechercher des données dans Google Drive à l'aide de la fédération de données, qui récupère directement les informations à partir de la source de données spécifiée. Étant donné que les données ne sont pas copiées dans l'index Vertex AI Search, vous n'avez pas à vous soucier du stockage des données.

Avant de commencer

Vous devez être connecté avec le même compte que celui que vous utilisez pour l'instance Google Drive que vous prévoyez d'associer dans la console Google Cloud . Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Drive.

Pour appliquer le contrôle des accès aux sources de données et sécuriser les données dans Vertex AI Search, assurez-vous d'avoir configuré votre fournisseur d'identité.

Vérifiez que tous les documents sont accessibles, soit en les plaçant dans un Drive partagé appartenant au domaine, soit en attribuant la propriété à un utilisateur du domaine.
Activez les fonctionnalités intelligentes Google Workspace dans d'autres produits Google pour connecter les données Google Drive à Vertex AI Search. Pour en savoir plus, consultez Activer ou désactiver les fonctionnalités intelligentes de Google Workspace.

Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites concernant les données dans Google Drive, comme indiqué dans le tableau suivant :

Contrôle de sécurité	Points à noter
Résidence des données (DRZ)	Vertex AI Search ne garantit la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Drive, consultez les conseils et la documentation sur la conformité de Google Workspace, par exemple Choisir l'emplacement de stockage des données et Souveraineté numérique.
Clés de chiffrement gérées par le client (CMEK)	Vos clés ne chiffrent que les données dans Google Cloud. Les contrôles Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Drive.
Access Transparency	Access Transparency enregistre les actions effectuées par le personnel Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez Événements de journaux Access Transparency dans la documentation d'aide pour les administrateurs Google Workspace.

créer un datastore Google Drive ;

Console

Pour inclure les données Google Drive dans l'index de recherche à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Sélectionner une source de données, sélectionnez Google Drive.
Spécifiez la source Drive de votre datastore.
- Tout : pour ajouter l'intégralité de votre Drive au data store.
- Drive partagé spécifique : ajoutez l'ID du dossier du Drive partagé.
- Dossier(s) partagé(s) spécifique(s) : ajoutez l'ID des dossiers partagés.
Pour trouver l'ID d'un Drive partagé ou d'un dossier spécifique, accédez au Drive partagé ou au dossier, puis copiez l'ID à partir de l'URL. L'URL est au format suivant : https://drive.google.com/corp/drive/folders/ID.

Par exemple, https://drive.google.com/corp/drive/folders/123456789012345678901.
Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Facultatif : Pour empêcher l'utilisation des données de ce datastore pour le contenu d'IA générative lorsque vous interrogez des données à l'aide de l'application, cliquez sur Options d'IA générative, puis sélectionnez Exclure des fonctionnalités d'IA générative.
Cliquez sur Créer.

Messages d'erreur

Le tableau suivant décrit les messages d'erreur que vous pouvez rencontrer lors de l'utilisation de cette source de données Google, y compris les codes d'erreur HTTP et les étapes de dépannage suggérées.

Code d'erreur	Message d'erreur	Description	Dépannage
403 (Autorisation refusée)	La recherche à l'aide des identifiants de compte de service n'est pas compatible avec les datastores Google Workspace.	Le moteur dans lequel la recherche est effectuée comporte des datastores Google Workspace, et les identifiants transmis sont ceux d'un compte de service. La recherche à l'aide des identifiants de compte de service dans les datastores Google Workspace n'est pas prise en charge.	Appelez le service de recherche à l'aide des identifiants utilisateur ou supprimez les datastores Google Workspace du moteur.
403 (Autorisation refusée)	Les comptes personnels ne sont pas compatibles avec les datastores Google Workspace.	Le service de recherche est appelé à l'aide d'un identifiant de compte personnel (@gmail.com), qui n'est pas compatible avec les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou utilisez un compte Google géré.
403 (Autorisation refusée)	Non-concordance du numéro client pour le datastore	La recherche n'est autorisée que pour les utilisateurs appartenant à la même organisation que les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou contactez l'assistance si l'utilisateur et les datastores Google Workspace sont censés se trouver dans des organisations différentes.
400 (Argument non valide)	Le moteur ne peut pas contenir à la fois des datastores Google Drive par défaut et partagés.	Vous ne pouvez pas associer à la même application un datastore qui contient tous vos Drive (par défaut) et un datastore qui contient des Drive partagés spécifiques.	Pour associer une nouvelle source de données Google Drive à votre application, dissociez d'abord le datastore inutile, puis ajoutez le nouveau datastore que vous souhaitez utiliser.

Dépannage

Si votre recherche ne renvoie pas le fichier que vous recherchez, cela peut être dû aux limites de l'index de recherche suivantes :

Seules 1 Mo de données de texte et de mise en forme peuvent être extraites de votre fichier pour le rendre consultable.
Pour la plupart des types de fichiers, la taille ne doit pas dépasser 10 Mo. Voici quelques exceptions :
- Les fichiers XLSX (.xlsx) ne doivent pas dépasser 20 Mo.
- Les fichiers PDF (.pdf) ne doivent pas dépasser 30 Mo.
- Les fichiers texte (.txt) ne doivent pas dépasser 100 Mo.
Remarque : Les fichiers qui dépassent la taille limite ne peuvent pas être recherchés et n'apparaissent pas dans vos résultats de recherche.
La reconnaissance optique des caractères dans les fichiers PDF est limitée à 80 pages. Les PDF de plus de 50 Mo ou de plus de 80 pages ne sont pas indexés. De plus, les mots clés qui dépassent la limite d'index de 1 Mo ne sont pas indexables.

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour obtenir vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Associer à Gmail

Suivez la procédure ci-dessous pour créer un datastore qui se connecte à Gmail dans la console Google Cloud . Une fois le datastore connecté, vous pouvez l'associer à votre application de recherche et effectuer des recherches dans vos données Gmail.

Avant de commencer

Vous devez être connecté avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez d'associer dans la console Google Cloud . Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Gmail.

Pour appliquer le contrôle des accès aux sources de données et sécuriser les données dans Vertex AI Search, assurez-vous d'avoir configuré votre fournisseur d'identité.

Limites

Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites concernant les données dans Gmail, comme indiqué dans le tableau suivant :

Contrôle de sécurité	Points à noter
Résidence des données (DRZ)	Vertex AI Search ne garantit la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Gmail, consultez les conseils et la documentation sur la conformité de Google Workspace, par exemple Choisir l'emplacement de stockage des données et Souveraineté numérique.
Clés de chiffrement gérées par le client (CMEK)	Vos clés ne chiffrent que les données dans Google Cloud. Les contrôles Cloud Key Management Service ne s'appliquent pas aux données stockées dans Gmail.
Access Transparency	Access Transparency enregistre les actions effectuées par le personnel Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez Événements de journaux Access Transparency dans la documentation d'aide pour les administrateurs Google Workspace.

Créer un datastore Gmail

Console

Pour inclure les données Gmail dans l'index de recherche à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Sélectionner une source de données, sélectionnez Google Gmail.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Suivez la procédure décrite dans Créer une application de recherche et associez le data store créé à une application Vertex AI Search.

Messages d'erreur

Code d'erreur	Message d'erreur	Description	Dépannage
403 (Autorisation refusée)	La recherche à l'aide des identifiants de compte de service n'est pas compatible avec les datastores Google Workspace.	Le moteur dans lequel la recherche est effectuée comporte des datastores Google Workspace, et les identifiants transmis sont ceux d'un compte de service. La recherche à l'aide des identifiants de compte de service dans les datastores Google Workspace n'est pas prise en charge.	Appelez le service de recherche à l'aide des identifiants utilisateur ou supprimez les datastores Google Workspace du moteur.
403 (Autorisation refusée)	Les comptes personnels ne sont pas compatibles avec les datastores Google Workspace.	Le service de recherche est appelé à l'aide d'un identifiant de compte personnel (@gmail.com), qui n'est pas compatible avec les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou utilisez un compte Google géré.
403 (Autorisation refusée)	Non-concordance du numéro client pour le datastore	La recherche n'est autorisée que pour les utilisateurs appartenant à la même organisation que les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou contactez l'assistance si l'utilisateur et les datastores Google Workspace sont censés se trouver dans des organisations différentes.
400 (Argument non valide)	Le moteur ne peut pas contenir à la fois des datastores Google Drive par défaut et partagés.	Vous ne pouvez pas associer à la même application un datastore qui contient tous vos Drive (par défaut) et un datastore qui contient des Drive partagés spécifiques.	Pour associer une nouvelle source de données Google Drive à votre application, dissociez d'abord le datastore inutile, puis ajoutez le nouveau datastore que vous souhaitez utiliser.

Étapes suivantes

Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre datastore configurés, consultez Prévisualiser les résultats de recherche.

Associer un site Google

Pour rechercher des données dans Google Sites, suivez la procédure ci-dessous pour créer un connecteur à l'aide de la console Google Cloud .

Avant de commencer :

Vous devez être connecté avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez d'associer dans la console Google Cloud . Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Sites.
Pour appliquer le contrôle des accès aux sources de données et sécuriser les données dans Vertex AI Search, assurez-vous d'avoir configuré votre fournisseur d'identité.

Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites concernant les données dans Google Sites, comme indiqué dans le tableau suivant :

Contrôle de sécurité	Points à noter
Résidence des données (DRZ)	Vertex AI Search ne garantit la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Sites, consultez les conseils et la documentation sur la conformité de Google Workspace, par exemple Choisir l'emplacement de stockage des données et Souveraineté numérique.
Clés de chiffrement gérées par le client (CMEK)	Vos clés ne chiffrent que les données dans Google Cloud. Les contrôles Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Sites.
Access Transparency	Access Transparency enregistre les actions effectuées par le personnel Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez Événements de journaux Access Transparency dans la documentation d'aide pour les administrateurs Google Workspace.

Console

Pour inclure les données Google Sites dans l'index de recherche à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Google Sites.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Associer Google Agenda

Pour rechercher des données dans Google Agenda, suivez la procédure ci-dessous pour créer un data store à l'aide de la console Google Cloud .

Avant de commencer

Vous devez être connecté avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez d'associer dans la console Google Cloud . Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Agenda.

Pour appliquer le contrôle des accès aux sources de données et sécuriser les données dans Vertex AI Search, assurez-vous d'avoir configuré votre fournisseur d'identité.

Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites concernant les données dans Google Agenda, comme indiqué dans le tableau suivant :

Contrôle de sécurité	Points à noter
Résidence des données (DRZ)	Vertex AI Search ne garantit la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Agenda, consultez les conseils et la documentation sur la conformité de Google Workspace, par exemple Choisir l'emplacement de stockage des données et Souveraineté numérique.
Clés de chiffrement gérées par le client (CMEK)	Vos clés ne chiffrent que les données dans Google Cloud. Les contrôles Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Agenda.
Access Transparency	Access Transparency enregistre les actions effectuées par le personnel Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez Événements de journaux Access Transparency dans la documentation d'aide pour les administrateurs Google Workspace.

Créer un datastore Google Agenda

Pour inclure les données Google Agenda dans l'index de recherche à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Sélectionner une source de données, sélectionnez Google Agenda.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.

Messages d'erreur

Code d'erreur	Message d'erreur	Description	Dépannage
403 (Autorisation refusée)	La recherche à l'aide des identifiants de compte de service n'est pas compatible avec les datastores Google Workspace.	Le moteur dans lequel la recherche est effectuée comporte des datastores Google Workspace, et les identifiants transmis sont ceux d'un compte de service. La recherche à l'aide des identifiants de compte de service dans les datastores Google Workspace n'est pas prise en charge.	Appelez le service de recherche à l'aide des identifiants utilisateur ou supprimez les datastores Google Workspace du moteur.
403 (Autorisation refusée)	Les comptes personnels ne sont pas compatibles avec les datastores Google Workspace.	Le service de recherche est appelé à l'aide d'un identifiant de compte personnel (@gmail.com), qui n'est pas compatible avec les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou utilisez un compte Google géré.
403 (Autorisation refusée)	Non-concordance du numéro client pour le datastore	La recherche n'est autorisée que pour les utilisateurs appartenant à la même organisation que les datastores Google Workspace.	Supprimez les datastores Google Workspace du moteur ou contactez l'assistance si l'utilisateur et les datastores Google Workspace sont censés se trouver dans des organisations différentes.
400 (Argument non valide)	Le moteur ne peut pas contenir à la fois des datastores Google Drive par défaut et partagés.	Vous ne pouvez pas associer à la même application un datastore qui contient tous vos Drive (par défaut) et un datastore qui contient des Drive partagés spécifiques.	Pour associer une nouvelle source de données Google Drive à votre application, dissociez d'abord le datastore inutile, puis ajoutez le nouveau datastore que vous souhaitez utiliser.

Étapes suivantes

Pour associer votre data store à une application, créez l'application, puis sélectionnez votre data store en suivant les instructions décrites dans Créer une application de recherche.
Pour obtenir vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Associer Data Studio à Google Groupes

Pour rechercher des données dans Google Groupes, suivez la procédure ci-dessous pour créer un connecteur à l'aide de la console Google Cloud .

Avant de commencer :

Vous devez être connecté avec le même compte que celui que vous utilisez pour l'instance Google Workspace que vous prévoyez d'associer dans la console Google Cloud . Vertex AI Search utilise votre numéro client Google Workspace pour se connecter à Google Groupes.
Pour appliquer le contrôle des accès aux sources de données et sécuriser les données dans Vertex AI Search, assurez-vous d'avoir configuré votre fournisseur d'identité.

Si vous utilisez des contrôles de sécurité, tenez compte de leurs limites concernant les données dans Google Groupes, comme indiqué dans le tableau suivant :

Contrôle de sécurité	Points à noter
Résidence des données (DRZ)	Vertex AI Search ne garantit la résidence des données que dans Google Cloud. Pour en savoir plus sur la résidence des données et Google Groupes, consultez les conseils et la documentation sur la conformité de Google Workspace, par exemple Choisir l'emplacement de stockage des données et Souveraineté numérique.
Clés de chiffrement gérées par le client (CMEK)	Vos clés ne chiffrent que les données dans Google Cloud. Les contrôles Cloud Key Management Service ne s'appliquent pas aux données stockées dans Google Groupes.
Access Transparency	Access Transparency enregistre les actions effectuées par le personnel Google sur le projet Google Cloud . Vous devrez également consulter les journaux Access Transparency créés par Google Workspace. Pour en savoir plus, consultez Événements de journaux Access Transparency dans la documentation d'aide pour les administrateurs Google Workspace.

Console

Pour inclure les données Google Groupes dans l'index de recherche à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Google Groupes.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer. Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures. Patientez au moins une heure avant d'utiliser votre data store pour la recherche.

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer depuis Cloud SQL

Pour ingérer des données depuis Cloud SQL, suivez les étapes ci-dessous pour configurer l'accès à Cloud SQL, créer un data store et ingérer des données.

Configurer l'accès au bucket intermédiaire pour les instances Cloud SQL

Lorsque vous ingérez des données depuis Cloud SQL, elles sont d'abord transférées vers un bucket Cloud Storage. Suivez ces étapes pour accorder à une instance Cloud SQL l'accès aux buckets Cloud Storage.

Dans la console Google Cloud , accédez à la page SQL.

SQL
Cliquez sur l'instance Cloud SQL à partir de laquelle vous prévoyez d'importer les données.
Copiez l'identifiant du compte de service de l'instance, qui ressemble à une adresse e-mail (par exemple, p9876-abcd33f@gcp-sa-cloud-sql.iam.gserviceaccount.com).
Accédez à la page IAM et administration.

IAM et administration
Cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance et sélectionnez le rôle Cloud Storage > Administrateur Storage.
Cliquez sur Enregistrer.

Si vos données Cloud SQL se trouvent dans le même projet que Vertex AI Search : accédez à Importer des données depuis Cloud SQL.
Si vos données Cloud SQL se trouvent dans un projet différent de votre projet Vertex AI Search, accédez à Configurer l'accès à Cloud SQL depuis un autre projet.

Configurer l'accès à Cloud SQL depuis un autre projet

Pour autoriser Vertex AI Search à accéder aux données Cloud SQL qui se trouvent dans un autre projet, procédez comme suit :

Remplacez la variable PROJECT_NUMBER suivante par le numéro de votre projet Vertex AI Search, puis copiez le contenu du bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search :
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
```
Accédez à la page IAM et administration.

IAM et administration
Basculez vers votre projet Cloud SQL sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service et sélectionnez le rôle Cloud SQL > Lecteur Cloud SQL.
Cliquez sur Enregistrer.

Ensuite, accédez à Importer des données depuis Cloud SQL.

Importer des données depuis Cloud SQL

Console

Pour ingérer des données depuis Cloud SQL à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Cloud SQL.
Spécifiez l'ID du projet, l'ID de l'instance, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Cliquez sur Parcourir, puis sélectionnez un emplacement Cloud Storage intermédiaire vers lequel exporter les données. Cliquez ensuite sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ gs://.
Indiquez si vous souhaitez activer l'exportation sans serveur. L'exportation sans serveur entraîne des coûts supplémentaires. Pour en savoir plus sur l'exportation sans serveur, consultez Minimiser l'impact des exportations sur les performances dans la documentation Cloud SQL.
Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

REST

Pour créer un data store et ingérer des données à partir de Cloud SQL à l'aide de la ligne de commande, procédez comme suit :

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : par l'ID du projet.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DISPLAY_NAME : nom à afficher du data store. Il peut s'afficher dans la console Google Cloud .
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.
Importez des données depuis Cloud SQL.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "cloudSqlSource": {
      "projectId": "SQL_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
      "gcsStagingDir": "STAGING_DIRECTORY"
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- SQL_PROJECT_ID : ID de votre projet Cloud SQL.
- INSTANCE_ID : ID de votre instance Cloud SQL.
- DATABASE_ID : ID de votre base de données Cloud SQL.
- TABLE_ID : ID de votre table Cloud SQL.
- STAGING_DIRECTORY (facultatif) : Un répertoire Cloud Storage, par exemple gs://<your-gcs-bucket>/directory/import_errors.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données de Cloud SQL sont actualisées de manière incrémentielle dans votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne se trouvent pas dans Cloud SQL en sont supprimés. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# sql_project_id = "YOUR_SQL_PROJECT_ID"
# sql_instance_id = "YOUR_SQL_INSTANCE_ID"
# sql_database_id = "YOUR_SQL_DATABASE_ID"
# sql_table_id = "YOUR_SQL_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    cloud_sql_source=discoveryengine.CloudSqlSource(
        project_id=sql_project_id,
        instance_id=sql_instance_id,
        database_id=sql_database_id,
        table_id=sql_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer depuis Spanner

Pour ingérer des données depuis Spanner, suivez la procédure ci-dessous pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.

Configurer l'accès à Spanner depuis un autre projet

Si vos données Spanner se trouvent dans le même projet que Vertex AI Search, passez à Importer des données depuis Spanner.

Pour accorder à Vertex AI Search l'accès aux données Spanner qui se trouvent dans un autre projet, procédez comme suit :

Remplacez la variable PROJECT_NUMBER suivante par le numéro de votre projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search :
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Accédez à la page IAM et administration.

IAM et administration
Basculez vers votre projet Spanner sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service, puis sélectionnez l'une des options suivantes :
- Si vous n'utilisez pas Data Boost lors de l'importation, sélectionnez le rôle Lecteur de base de données Cloud Spanner (Cloud Spanner > Lecteur de base de données Cloud Spanner).
- Si vous prévoyez d'utiliser Data Boost lors de l'importation, sélectionnez le rôle Administrateur de bases de données Cloud Spanner (Cloud Spanner > Administrateur de bases de données Cloud Spanner) ou un rôle personnalisé avec les autorisations Lecteur de bases de données Cloud Spanner et spanner.databases.useDataBoost. Pour en savoir plus sur Data Boost, consultez Présentation de Data Boost dans la documentation Spanner.
Cliquez sur Enregistrer.

Ensuite, accédez à Importer des données depuis Spanner.

Importer des données depuis Spanner

Console

Pour ingérer des données depuis Spanner à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Cloud Spanner.
Spécifiez l'ID du projet, l'ID de l'instance, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Indiquez si vous souhaitez activer Data Boost. Pour en savoir plus sur Data Boost, consultez Présentation de Data Boost dans la documentation Spanner.
Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

REST

Pour créer un data store et ingérer des données à partir de Spanner à l'aide de la ligne de commande, procédez comme suit :

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DISPLAY_NAME : nom à afficher du data store. Il peut s'afficher dans la console Google Cloud .
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.
Importez des données depuis Spanner.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "cloudSpannerSource": {
      "projectId": "SPANNER_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
      "enableDataBoost": "DATA_BOOST_BOOLEAN"
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store.
- SPANNER_PROJECT_ID : ID de votre projet Spanner.
- INSTANCE_ID : ID de votre instance Spanner.
- DATABASE_ID : ID de votre base de données Spanner.
- TABLE_ID : ID de votre table Spanner.
- DATA_BOOST_BOOLEAN (facultatif) : Indique si Data Boost doit être activé. Pour en savoir plus sur Data Boost, consultez la présentation de Data Boost dans la documentation Spanner.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données de Spanner sont actualisées de manière incrémentielle dans votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne figurent pas dans Spanner sont supprimés de votre data store. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Indique si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
- ID_FIELD (facultatif) : Spécifie les champs qui correspondent aux ID de document.

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# spanner_project_id = "YOUR_SPANNER_PROJECT_ID"
# spanner_instance_id = "YOUR_SPANNER_INSTANCE_ID"
# spanner_database_id = "YOUR_SPANNER_DATABASE_ID"
# spanner_table_id = "YOUR_SPANNER_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    spanner_source=discoveryengine.SpannerSource(
        project_id=spanner_project_id,
        instance_id=spanner_instance_id,
        database_id=spanner_database_id,
        table_id=spanner_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer depuis Firestore

Pour ingérer des données depuis Firestore, suivez la procédure ci-dessous pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.

Si vos données Firestore se trouvent dans le même projet que Vertex AI Search, accédez à Importer des données depuis Firestore.

Si vos données Firestore se trouvent dans un projet différent de votre projet Vertex AI Search, accédez à Configurer l'accès à Firestore.

Configurer l'accès à Firestore depuis un autre projet

Pour accorder à Vertex AI Search l'accès aux données Firestore qui se trouvent dans un autre projet, procédez comme suit :

Remplacez la variable PROJECT_NUMBER suivante par le numéro de votre projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search :
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Accédez à la page IAM et administration.

IAM et administration
Basculez vers votre projet Firestore sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance et sélectionnez le rôle Datastore > Administrateur de l'importation et de l'exportation Cloud Datastore.
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.

Ensuite, accédez à Importer des données depuis Firestore.

Importer des données depuis Firestore

Console

Pour ingérer des données depuis Firestore à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Accédez à la page Datastores.
Cliquez sur Nouveau data store.
Sur la page Source, sélectionnez Firestore.
Spécifiez l'ID du projet, l'ID de la base de données et l'ID de la collection des données que vous prévoyez d'importer.
Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

REST

Pour créer un data store et ingérer des données depuis Firestore à l'aide de la ligne de commande, procédez comme suit :

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : par l'ID du projet.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DISPLAY_NAME : nom à afficher du data store. Il peut s'afficher dans la console Google Cloud .
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.
Importez des données depuis Firestore.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "firestoreSource": {
      "projectId": "FIRESTORE_PROJECT_ID",
      "databaseId": "DATABASE_ID",
      "collectionId": "COLLECTION_ID",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- FIRESTORE_PROJECT_ID : ID de votre projet Firestore.
- DATABASE_ID : ID de votre base de données Firestore.
- COLLECTION_ID : ID de votre collection Firestore.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données de Firestore sont actualisées de manière incrémentielle dans votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne se trouvent pas dans Firestore en sont supprimés. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Indique si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
- ID_FIELD (facultatif) : Spécifie les champs qui correspondent aux ID de document.

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# firestore_project_id = "YOUR_FIRESTORE_PROJECT_ID"
# firestore_database_id = "YOUR_FIRESTORE_DATABASE_ID"
# firestore_collection_id = "YOUR_FIRESTORE_COLLECTION_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    firestore_source=discoveryengine.FirestoreSource(
        project_id=firestore_project_id,
        database_id=firestore_database_id,
        collection_id=firestore_collection_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer depuis Bigtable

Pour ingérer des données depuis Bigtable, suivez les étapes ci-dessous pour créer un data store et ingérer des données à l'aide de l'API.

Configurer l'accès à Bigtable

Pour accorder à Vertex AI Search l'accès aux données Bigtable qui se trouvent dans un autre projet, procédez comme suit :

Remplacez la variable PROJECT_NUMBER suivante par le numéro de votre projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search :
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
```
Accédez à la page IAM et administration.

IAM et administration
Basculez vers votre projet Bigtable sur la page IAM et administration, puis cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service de l'instance et sélectionnez le rôle Bigtable > Lecteur Bigtable.
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.

Ensuite, accédez à Importer des données depuis Bigtable.

Importer des données depuis Bigtable

REST

Pour créer un data store et ingérer des données depuis Bigtable à l'aide de la ligne de commande, procédez comme suit :

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : par l'ID du projet.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DISPLAY_NAME : nom à afficher du data store. Il peut s'afficher dans la console Google Cloud .
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.
Importez des données depuis Bigtable.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "bigtableSource ": {
      "projectId": "BIGTABLE_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "tableId": "TABLE_ID",
      "bigtableOptions": {
        "keyFieldName": "KEY_FIELD_NAME",
        "families": {
          "key": "KEY",
          "value": {
            "fieldName": "FIELD_NAME",
            "encoding": "ENCODING",
            "type": "TYPE",
            "columns": [
              {
                "qualifier": "QUALIFIER",
                "fieldName": "FIELD_NAME",
                "encoding": "COLUMN_ENCODING",
                "type": "COLUMN_VALUES_TYPE"
              }
            ]
          }
         }
         ...
      }
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- BIGTABLE_PROJECT_ID : ID de votre projet Bigtable.
- INSTANCE_ID : ID de votre instance Bigtable.
- TABLE_ID : ID de votre table Bigtable.
- KEY_FIELD_NAME : facultatif, mais recommandé. Nom du champ à utiliser pour la valeur de clé de ligne après l'ingestion dans Vertex AI Search.
- KEY : Obligatoire. Valeur de chaîne pour la clé de la famille de colonnes.
- ENCODING (facultatif) : Mode d'encodage des valeurs lorsque le type n'est pas STRING.Vous pouvez remplacer ce mode pour une colonne spécifique en listant cette colonne dans columns et en spécifiant un encodage pour celle-ci.
- COLUMN_TYPE (facultatif) : Type de valeurs dans cette famille de colonnes.
- QUALIFIER : Obligatoire. Qualificatif de la colonne.
- FIELD_NAME : facultatif, mais recommandé. Nom du champ à utiliser pour cette colonne après l'ingestion dans Vertex AI Search.
- COLUMN_ENCODING (facultatif) : Mode d'encodage des valeurs d'une colonne spécifique lorsque le type n'est pas STRING.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données de Bigtable sont actualisées de manière incrémentielle dans votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne figurent pas dans Bigtable sont supprimés de votre data store. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Indique si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
  
  Indiquez autoGenerateIds uniquement lorsque bigquerySource.dataSchema est défini sur custom. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée. Si vous ne spécifiez pas autoGenerateIds ou si vous le définissez sur false, vous devez spécifier idField. Sinon, l'importation des documents échouera.
- ID_FIELD (facultatif) : Spécifie les champs qui correspondent aux ID de document.

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# bigtable_project_id = "YOUR_BIGTABLE_PROJECT_ID"
# bigtable_instance_id = "YOUR_BIGTABLE_INSTANCE_ID"
# bigtable_table_id = "YOUR_BIGTABLE_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

bigtable_options = discoveryengine.BigtableOptions(
    families={
        "family_name_1": discoveryengine.BigtableOptions.BigtableColumnFamily(
            type_=discoveryengine.BigtableOptions.Type.STRING,
            encoding=discoveryengine.BigtableOptions.Encoding.TEXT,
            columns=[
                discoveryengine.BigtableOptions.BigtableColumn(
                    qualifier="qualifier_1".encode("utf-8"),
                    field_name="field_name_1",
                ),
            ],
        ),
        "family_name_2": discoveryengine.BigtableOptions.BigtableColumnFamily(
            type_=discoveryengine.BigtableOptions.Type.INTEGER,
            encoding=discoveryengine.BigtableOptions.Encoding.BINARY,
        ),
    }
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    bigtable_source=discoveryengine.BigtableSource(
        project_id=bigtable_project_id,
        instance_id=bigtable_instance_id,
        table_id=bigtable_table_id,
        bigtable_options=bigtable_options,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer des données depuis AlloyDB pour PostgreSQL

Pour ingérer des données depuis AlloyDB pour PostgreSQL, suivez la procédure ci-dessous pour créer un data store et ingérer des données à l'aide de la console Google Cloud ou de l'API.

Si vos données AlloyDB pour PostgreSQL se trouvent dans le même projet que votre projet Vertex AI Search, accédez à Importer des données depuis AlloyDB pour PostgreSQL.

Si vos données AlloyDB pour PostgreSQL se trouvent dans un projet différent de votre projet Vertex AI Search, accédez à Configurer l'accès à AlloyDB pour PostgreSQL.

Configurer l'accès à AlloyDB pour PostgreSQL depuis un autre projet

Pour autoriser Vertex AI Search à accéder aux données AlloyDB pour PostgreSQL qui se trouvent dans un autre projet, procédez comme suit :

Remplacez la variable PROJECT_NUMBER suivante par le numéro de votre projet Vertex AI Search, puis copiez le contenu de ce bloc de code. Voici l'identifiant de votre compte de service Vertex AI Search :
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Passez au projet Google Cloud dans lequel se trouvent vos données AlloyDB pour PostgreSQL.
Accédez à la page IAM.

IAM
Cliquez sur Accorder l'accès.
Pour Nouveaux comptes principaux, saisissez l'identifiant du compte de service Vertex AI Search et sélectionnez le rôle Cloud AlloyDB > Administrateur Cloud AlloyDB.
Cliquez sur Enregistrer.
Revenez à votre projet Vertex AI Search.

Ensuite, accédez à Importer des données depuis AlloyDB pour PostgreSQL.

Importer des données depuis AlloyDB pour PostgreSQL

Console

Pour ingérer des données depuis AlloyDB pour PostgreSQL à l'aide de la console, procédez comme suit :

Dans la console Google Cloud , accédez à la page Applications d'IA.

AI Applications
Dans le menu de navigation, cliquez sur Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez AlloyDB.
Spécifiez l'ID du projet, l'ID de l'emplacement, l'ID du cluster, l'ID de la base de données et l'ID de la table des données que vous prévoyez d'importer.
Cliquez sur Continuer.
Choisissez une région pour votre datastore.
Attribuez un nom à votre datastore
Cliquez sur Créer.
Pour vérifier l'état de l'ingestion, accédez à la page Datastores, puis cliquez sur le nom de votre datastore pour afficher des informations détaillées sur la page Données. Lorsque la colonne "État" de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

Selon la taille de vos données, l'ingestion peut prendre de quelques minutes ou plusieurs heures.

REST

Pour utiliser la ligne de commande afin de créer un data store et d'ingérer des données depuis AlloyDB pour PostgreSQL, procédez comme suit :

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : par l'ID du projet.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DISPLAY_NAME : nom à afficher du data store. Il peut s'afficher dans la console Google Cloud .
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.
Importez des données depuis AlloyDB pour PostgreSQL.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "alloydbSource": {
      "projectId": "ALLOYDB_PROJECT_ID",
      "locationId": "LOCATION_ID",
      "clusterId": "CLUSTER_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Vertex AI Search.
- DATA_STORE_ID : ID du data store. L'ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- ALLOYDB_PROJECT_ID : ID de votre projet AlloyDB pour PostgreSQL.
- LOCATION_ID : ID de votre emplacement AlloyDB pour PostgreSQL.
- CLUSTER_ID : ID de votre cluster AlloyDB pour PostgreSQL.
- DATABASE_ID : ID de votre base de données AlloyDB pour PostgreSQL.
- TABLE_ID : ID de votre table AlloyDB pour PostgreSQL.
- RECONCILIATION_MODE (facultatif) : Les valeurs sont FULL et INCREMENTAL. La valeur par défaut est INCREMENTAL. Si vous spécifiez INCREMENTAL, les données seront actualisées de manière incrémentielle depuis AlloyDB pour PostgreSQL vers votre data store. Cette opération d'upsert ajoute de nouveaux documents et remplace les documents existants par des documents mis à jour portant le même ID. Si vous spécifiez FULL, les documents de votre data store seront entièrement rebasés. En d'autres termes, les documents nouveaux et modifiés sont ajoutés à votre data store, et les documents qui ne se trouvent pas dans AlloyDB pour PostgreSQL sont supprimés de votre data store. Le mode FULL est utile si vous souhaitez supprimer automatiquement les documents dont vous n'avez plus besoin.
- AUTO_GENERATE_IDS (facultatif) : Indique si les ID de document doivent être générés automatiquement. Si la valeur est définie sur true, les ID de document sont générés en fonction d'un hachage de la charge utile. Notez que les ID de document générés peuvent ne pas rester cohérents lors de plusieurs importations. Si vous générez automatiquement des ID lors de plusieurs importations, Google vous recommande vivement de définir reconciliationMode sur FULL pour conserver des ID de document cohérents.
- ID_FIELD (facultatif) : Spécifie les champs qui correspondent aux ID de document.

Python

Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Search pour Python.

Créer un datastore


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importer des documents

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# alloy_db_project_id = "YOUR_ALLOY_DB_PROJECT_ID"
# alloy_db_location_id = "YOUR_ALLOY_DB_LOCATION_ID"
# alloy_db_cluster_id = "YOUR_ALLOY_DB_CLUSTER_ID"
# alloy_db_database_id = "YOUR_ALLOY_DB_DATABASE_ID"
# alloy_db_table_id = "YOUR_ALLOY_DB_TABLE_ID"

# For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    alloy_db_source=discoveryengine.AlloyDbSource(
        project_id=alloy_db_project_id,
        location_id=alloy_db_location_id,
        cluster_id=alloy_db_cluster_id,
        database_id=alloy_db_database_id,
        table_id=alloy_db_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Importer des données JSON structurées avec l'API

Pour importer directement un document ou un objet JSON à l'aide de l'API, procédez comme suit.

Avant d'importer vos données, préparez-les pour l'ingestion.

REST

Pour créer un data store et importer des données JSON structurées à l'aide de la ligne de commande, procédez comme suit.

Créer un datastore
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATA_STORE_ID : ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
- DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Remarque : Le secteur d'activité GENERIC est utilisé pour créer des datastores de données structurées, non structurées et de sites Web pour les applications de recherche personnalisées.

Importez des données structurées.

Vous pouvez importer des données de plusieurs façons, par exemple :

Importez un document JSON.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \
-d '{
  "jsonData": "JSON_DOCUMENT_STRING"
}'

Remplacez les éléments suivants :

DOCUMENT_ID : ID unique du document. Cet ID peut comporter jusqu'à 63 caractères et ne contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
JSON_DOCUMENT_STRING : document JSON sous forme d'une seule chaîne. Il doit être conforme au schéma JSON que vous avez fourni à l'étape précédente. Par exemple :
```
{ \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"}
```

Importez un objet JSON.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \
-d '{
  "structData": JSON_DOCUMENT_OBJECT
}'

Remplacez JSON_DOCUMENT_OBJECT par le document JSON sous forme d'objet JSON. Il doit être conforme au schéma JSON que vous avez fourni à l'étape précédente. Par exemple :

 {
   "title": "test title",
   "categories": [
     "cat_1",
     "cat_2"
   ],
   "uri": "test uri"
 }

Mettez à jour avec un document JSON.

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \
-d '{
  "jsonData": "JSON_DOCUMENT_STRING"
}'

Mettez à jour avec un objet JSON.

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \
-d '{
  "structData": JSON_DOCUMENT_OBJECT
}'

Étapes suivantes

Pour associer votre data store à une application, créez une application et sélectionnez votre data store en suivant les étapes décrites dans Créer une application de recherche.
Pour prévisualiser l'apparence de vos résultats de recherche une fois votre application et votre data store configurés, consultez Obtenir des résultats de recherche.

Résoudre les problèmes liés à l'ingestion de données

Si vous rencontrez des problèmes d'ingestion de données, consultez ces conseils :

Si vous utilisez des clés de chiffrement gérées par le client et que l'importation de données échoue (avec le message d'erreur The caller does not have permission), assurez-vous que le rôle IAM Chiffreur/Déchiffreur de clés cryptographiques (roles/cloudkms.cryptoKeyEncrypterDecrypter) sur la clé a été accordé à l'agent de service Cloud Storage. Pour en savoir plus, consultez la section Avant de commencer dans "Clés de chiffrement gérées par le client".
Si vous utilisez l'indexation avancée de sites Web et que l'utilisation des documents pour le data store est beaucoup plus faible que prévu, vérifiez les modèles d'URL que vous avez spécifiés pour l'indexation. Assurez-vous qu'ils couvrent les pages que vous souhaitez indexer et développez-les si nécessaire. Par exemple, si vous avez utilisé *.en.example.com/*, vous devrez peut-être ajouter *.example.com/* aux sites que vous souhaitez indexer.

Créer un data store à l'aide de Terraform

Vous pouvez utiliser Terraform pour créer un data store vide. Une fois le data store vide créé, vous pouvez y ingérer des données à l'aide des commandes de la console Google Cloud ou de l'API.

Pour savoir comment appliquer ou supprimer une configuration Terraform, consultez Commandes Terraform de base.

Pour créer un data store vide à l'aide de Terraform, consultez google_discovery_engine_data_store.

Associer une source de données tierce

La connexion de sources de données tierces à Vertex AI Search est une fonctionnalité disponible uniquement sur liste d'autorisation.

Si vous figurez sur la liste d'autorisation fermée pour cette fonctionnalité, consultez les instructions sur la façon de connecter une source de données tierce dans la documentation Gemini Enterprise. Les procédures sont les mêmes, que vous créiez des connecteurs dans Vertex AI Search ou Gemini Enterprise.