Cette page décrit les applications et les datastores Vertex AI Search.
Avec Vertex AI Search, vous créez une application de recherche ou de recommandation et vous l'associez à un data store. Un projet Google Cloud peut contenir plusieurs applications.
Relation entre les applications et les datastores
La relation entre les applications et les datastores dépend du type d'application:
Les applications de recherche personnalisées entretiennent une relation de type plusieurs à plusieurs avec les datastores. Lorsque plusieurs datastores sont connectés à une seule application de recherche personnalisée, on parle de recherche combinée. Pour en savoir plus sur les limites liées à la connexion d'une application de recherche à plusieurs data store, consultez la section À propos de la recherche combinée.
Une application de recommandations personnalisées entretient une relation de type un à un avec son datastore.
Les applications de recherche multimédia entretiennent une relation de type plusieurs à un avec leur datastore. Une application ne peut être associée qu'à un seul data store, mais un data store donné peut être associé à plusieurs applications. Par exemple, une application de recherche multimédia et une application de recommandation multimédia peuvent utiliser le même data store.
Les applications de recherche de données de santé entretiennent une relation de type plusieurs à un avec leur datastore. Une application ne peut être associée qu'à un seul data store, mais un data store donné peut être associé à plusieurs applications. Par exemple, une application destinée aux patients et une application destinée aux prestataires peuvent être associées au même data store.
Pour une importation de données par lot de données de santé, les données sont importées dans un datastore situé dans une application. Pour une importation de données en streaming (Preview) de données de santé, les données sont importées dans une entité, qui est un type de datastore situé dans un connecteur de données. Un connecteur de données est également un type de data store qui se trouve dans une application.
Une fois qu'un datastore est associé à une application, il ne peut plus être dissocié.
Méthode de création d'applications et d'ingestion de données
La manière dont vous créez une application et ingérez des données dépend du type de données dont vous disposez:
Pour les données de site Web, vous pouvez utiliser la console Google Cloud ou l'API. Pour utiliser les données d'un site Web créées avec l'API, vous devez les associer à une application dont les fonctionnalités d'entreprise sont activées dans la console Google Cloud .
Pour les données structurées ou non structurées, vous pouvez utiliser la consoleGoogle Cloud ou l'API.
Pour les données de santé, vous pouvez utiliser la console Google Cloud ou l'API.
Documents
Chaque data store contient un ou plusieurs enregistrements de données, appelés documents. Ce qu'un document représente dépend du type de données du data store:
Site Web Un document est une page Web.
Données structurées Un document est une ligne de table ou un enregistrement JSON qui suit un schéma particulier. Vous pouvez fournir ce schéma vous-même ou laisser les applications d'IA le déduire à partir des données ingérées.
Données structurées pour les contenus multimédias Un document est une ligne de table ou un enregistrement JSON qui suit un schéma spécifique aux contenus multimédias. Les documents sont des enregistrements concernant des contenus multimédias, tels que des vidéos, des articles d'actualité, des fichiers musicaux et des podcasts. Un document contient des informations qui décrivent l'élément multimédia, au minimum: le titre, l'URI menant à l'emplacement du contenu, les catégories, la durée et la date de disponibilité.
Données non structurées Un document correspond à un fichier au format HTML, PDF avec du texte intégré ou TXT. Les formats PPTX et DOCX sont disponibles en version Preview.
Données de santé FHIR Un document est une ressource FHIR R4 acceptée. Pour obtenir la liste des ressources FHIR R4 compatibles avec Vertex AI Search, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé.
Datastores et applications
Dans AI Applications, il existe différents types de datastores. Un data store ne peut contenir qu'un seul type de données.
- Données du site Web
- Données structurées
- Contenu structuré (multimédia)
- Données non structurées
- Données de santé FHIR
Données de site Web
Un data store contenant des données de site Web utilise les données indexées à partir de sites Web publics. Vous pouvez fournir un ensemble de formats d'URL que vous souhaitez inclure dans votre data store. Les pages Web qui correspondent aux formats d'URL sont appelées pages Web incluses. Vous pouvez ensuite configurer la recherche sur les données explorées à partir des pages Web incluses.
Par exemple, vous pouvez fournir des formats d'URL tels que example.com/faq/*
et example.com/events/*
, et activer la recherche sur les données explorées à partir de ces pages Web qui correspondent au format. Ces données incluent le texte, les images taguées avec des métadonnées et d'autres données structurées telles que les balises meta
, les attributs PageMap et les données schema.org.
Vous pouvez également fournir des formats d'URL pour les parties de sites Web que vous souhaitez exclure, par exemple example.com/events/members-only/*
ou example.com/events/past-*
. Les URL exclues ont la priorité sur les URL incluses.
Il existe deux types de datastores pour les sites Web:
Recherche de base sur un site Web:
- Fournit des fonctionnalités de recherche sur l'index de recherche Google existant pour les sites Web inclus.
- Ne nécessite pas de validation de domaine.
Indexation avancée de site Web:
- Fournit des fonctionnalités de recherche avancées sur un indice généré sur la base de l'un des éléments suivants :
- Les propriétaires de l'application Vertex AI Search peuvent contrôler les pages Web qui sont indexées en envoyant et en gérant des sitemaps. Pour en savoir plus, consultez la section Indexer et actualiser des pages Web à l'aide de sitemaps. Ce processus maintient l'index à jour sans intervention manuelle.
- Les propriétaires de l'application Vertex AI Search peuvent effectuer une indexation initiale qui reflète l'index de recherche Google, puis élargir la couverture de l'index en réexplorant les sites Web chaque fois que nécessaire, afin de le maintenir à jour. Pour en savoir plus, consultez Actualiser les pages Web. Les fonctionnalités avancées de l'indexation avancée de sites Web sont listées dans la section Indexation avancée de sites Web.
- Les propriétaires des data stores Vertex AI Search doivent valider les domaines auxquels appartiennent les sites Web inclus. Pour en savoir plus, consultez Valider les domaines de sites Web.
- Permet d'ajouter des données structurées au schéma du data store.
Un site Web contient des données non structurées, mais vous pouvez ajouter des données structurées sous la forme de balises
meta
, d'attributs PageMap et de données schema.org à vos pages Web. Vous pouvez ensuite utiliser ces données structurées pour modifier le schéma du data store, comme expliqué dans la section Utiliser des données structurées pour l'indexation avancée des sites Web.
- Fournit des fonctionnalités de recherche avancées sur un indice généré sur la base de l'un des éléments suivants :
Étapes suivantes
Pour la recherche sur le site Web:
- Pour connaître les conditions préalables à l'indexation, découvrez comment préparer les données pour la recherche sur le site Web.
- Créez un data store à l'aide du contenu de votre site Web.
- Créez une application de recherche.
Données structurées
Un data store avec des données structurées permet la recherche sémantique ou les recommandations basées sur des données structurées. Vous pouvez importer des données depuis BigQuery ou Cloud Storage. Vous pouvez également importer manuellement des données JSON structurées via l'API.
Par exemple, vous pouvez proposer des fonctionnalités de recherche ou de recommandations basées sur un catalogue de produits pour votre expérience d'e-commerce, ou encore proposer un annuaire de praticiens pour les recherches ou les recommandations de prestataires de santé.
Les applications d'IA détectent automatiquement le schéma à partir des données que vous importez. Vous pouvez également fournir un schéma pour vos données. Fournir un schéma pour vos données améliore généralement la qualité des résultats.
Étapes suivantes
Pour la recherche personnalisée:
- Préparez les données structurées pour l'ingestion.
- Créez un data store de recherche à l'aide de l'une des méthodes suivantes :
- Créez une application de recherche.
Pour les recommandations personnalisées:
- Créez un datastore de recommandations personnalisé.
- Créez une application de recommandations personnalisée.
Données structurées pour les contenus multimédias
Les applications multimédias ne peuvent être associées qu'à des data stores de contenus multimédias. Les magasins de données multimédias sont des magasins de données structurées avec un schéma défini par Google ou avec votre propre schéma personnalisé contenant un ensemble spécifique de cinq champs liés aux contenus multimédias. Pour en savoir plus sur le schéma, consultez la section À propos des documents multimédias et des magasins de données.
Par exemple, vous pouvez activer les recommandations en créant une application de recommandations multimédias pour un catalogue de films ou un site d'actualités afin que vos utilisateurs reçoivent des suggestions adaptées et personnalisées.
En plus des documents multimédias, les data stores de contenus multimédias contiennent également les informations sur les événements utilisateur qui permettent à Vertex AI Search de personnaliser les recommandations et de rechercher vos utilisateurs. Les événements utilisateur sont obligatoires pour les applications multimédias. Pour en savoir plus sur les événements utilisateur, consultez Enregistrer des événements utilisateur en temps réel.
Étapes suivantes
Données non structurées
Un data store non structurées permet la recherche sémantique sur des données telles que des documents et des images.
Les datastores de données non structurées acceptent les documents au format HTML, PDF avec du texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.
La recherche fournit des résultats sous la forme de 10 URL et de réponses résumées à des requêtes en langage naturel. Les documents doivent être importés dans un bucket Cloud Storage avec les autorisations d'accès appropriées. Par exemple, une institution financière peut activer la recherche dans son corpus privé de publications de recherche financière, ou une entreprise de biotechnologie peut activer la recherche ou les recommandations dans son dépôt privé de recherches médicales.
Étapes suivantes
Pour la recherche:
- Préparer les données non structurées pour l'ingestion
- Créez un data store de recherche à l'aide de l'une des méthodes suivantes :
- Créez un data store de recherche pour vos données non structurées.
- Créez une application de recherche.
Données de santé FHIR
Une application de recherche dans le domaine de la santé utilise des données FHIR R4 importées à partir d'un store FHIR associé à l'API Cloud Healthcare. Pour obtenir la liste des ressources FHIR R4 compatibles avec Vertex AI Search, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé. Un data store FHIR R4 doit répondre à certaines exigences pour pouvoir être utilisé comme source de données pour le data store Vertex AI Search. Pour en savoir plus, découvrez comment préparer les données FHIR de santé à l'ingestion.
Étapes suivantes
- Préparez les données FHIR R4 pour l'ingestion.
- Créez un datastore de recherche dans le secteur de la santé.
- Créez une application de recherche de données de santé.
À propos de la recherche combinée
Vous pouvez créer une application de recherche combinée, dans laquelle plusieurs datastores peuvent être associés à une seule application de recherche personnalisée. Cette fonctionnalité vous permet d'utiliser une seule application pour effectuer des recherches dans plusieurs sources et types de données.
Pour créer une application de recherche combinée, sélectionnez plusieurs datastores lorsque vous créez une application de recherche personnalisée. Si vous ne sélectionnez pas plusieurs datastores lors de la création, vous ne pourrez pas en ajouter plus tard.
Lorsque vous obtenez des résultats de recherche, vous pouvez effectuer une recherche dans tous les datastores ou filtrer les résultats d'un seul data store.
Les limites suivantes s'appliquent :
- Ajouter et supprimer des magasins de données :
- Pour activer la recherche combinée pour une application, vous devez y associer au moins deux magasins de données lors de la création de l'application.
- Vous pouvez ajouter ou supprimer des datastores d'une application de recherche combinée, mais l'application ne peut pas avoir moins de deux datastores associés à tout moment.
- Si vous associez un seul data store à une application de recherche lors de sa création, vous ne pouvez pas ajouter ni supprimer ce data store.
- L'indexation avancée de sites Web doit être activée pour les data stores de sites Web afin qu'ils puissent être utilisés pour la recherche combinée. Pour en savoir plus, consultez la page Indexation avancée de sites Web.
- Les datastores contenant des données non structurées importées à l'aide de BigQuery ne sont pas acceptés.
- La recherche combinée autorise les champs suivants dans les requêtes de recherche :
boostSpec
contentSearchSpec
dataStoreSpecs
facetSpecs
filter
languageCode
offset
oneBoxPageSize
orderBy
query
pageSize
pageToken
relevanceScoreSpec
relevanceThreshold
session
sessionSpec
spellCorrectionSpec
userInfo
userPseudoId
- La recherche combinée autorise les champs suivants dans
dataStoreSpecs
:dataStore
boostSpec
: si des spécifications de boost sont spécifiées pourSearchRequest
etdataStoreSpecs
, les deux spécifications de boost sont appliquées aux résultats de recherche.filter
: si des filtres sont spécifiés pourSearchRequest
etdataStoreSpecs
, les deux filtres sont appliqués aux résultats de recherche.
- Les opérations CRUD (création, lecture, mise à jour et suppression) sur les configurations de diffusion sont compatibles avec les applications combinées. Seuls les champs suivants peuvent être ajoutés ou mis à jour dans une configuration de diffusion :
boostControlIds
displayName
filterControlIds
genericConfig
:contentSearchSpec
name
solutionType
synonymsControlIds
- Les opérations CRUD sur les commandes suivantes sont acceptées pour les applications de recherche combinée :
boostAction
synonymAction
filterAction
- Le nombre de data stores est limité à 50 par application de recherche.
- Si un data store utilise une configuration CMEK, tous les autres magasins de données doivent également utiliser la même configuration CMEK.