Cette page explique comment créer un data store multimédia et y importer des données.
Avant de commencer
Assurez-vous de procéder comme suit:
Consultez les concepts liés aux données multimédias et au schéma:
Indiquez si vous utilisez le schéma Google prédéfini pour vos données multimédias ou votre propre schéma.
Si vous utilisez votre propre schéma, assurez-vous qu'il comporte des champs qui correspondent bien aux propriétés de clé multimédia:
title
,url
,category
, etc.Placez vos documents multimédias dans le schéma JSON et importez les données dans BigQuery ou Cloud Storage.
Consultez la section À propos des événements utilisateur et préparez vos événements utilisateur à l'importation. Les événements utilisateur sont obligatoires pour les recommandations multimédias et sont recommandés pour la recherche multimédia.
Choisissez la procédure en fonction de votre source de données
Pour créer un data store multimédia et importer des documents, accédez à la section de la source que vous prévoyez d'utiliser:
Importer des données depuis BigQuery
Console
Pour créer un data store multimédias et importer des documents et des événements utilisateur à partir de BigQuery à l'aide de la console Google Cloud, procédez comme suit:
Dans la console Google Cloud, accédez à la page Agent Builder.
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez BigQuery.
Sélectionnez Media : table BigQuery contenant des données multimédias structurées comme type de données que vous importez.
Dans le champ Parcours BigQuery, cliquez sur Parcourir, sélectionnez les données BigQuery que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ Chemin d'accès BigQuery.
Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Schéma Google prédéfini, cliquez sur Continuer, puis passez à l'étape 11.
Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.
Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.
Cliquez sur Continuer.
Vous ne pouvez pas continuer tant que les propriétés de clé requises n'ont pas été mappées, ce qui est indiqué par des coches vertes
au lieu de signaux d'avertissement orange .Attribuez un nom à votre data store, puis cliquez sur Créer.
Importer depuis Cloud Storage
Console
Pour créer un data store multimédias et importer des documents à partir de Cloud Storage à l'aide de la console Google Cloud, procédez comme suit:
Dans la console Google Cloud, accédez à la page Agent Builder.
Accédez à la page Datastores.
Cliquez sur Créer un datastore.
Sur la page Source, sélectionnez Cloud Storage.
Sélectionnez Données multimédias structurées (JSONL contenant des fichiers multimédias) comme type de données que vous importez.
Dans la section Sélectionner un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.
Cliquez sur Parcourir, sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le champ
gs://
.Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Schéma Google prédéfini, cliquez sur Continuer, puis passez à l'étape 11.
Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.
Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.
Cliquez sur Continuer.
Vous ne pouvez pas continuer tant que les propriétés de clé requises n'ont pas été mappées, ce qui est indiqué par des coches vertes
au lieu de signaux d'avertissement orange .Attribuez un nom à votre data store, puis cliquez sur Créer.
Importer des documents à l'aide de l'API
Si vous utilisez le schéma prédéfini de Google, vous pouvez importer vos documents en envoyant une requête POST
à la méthode REST Documents:import
, à l'aide de l'objet InlineSource
pour spécifier vos données.
Pour obtenir un exemple de format de document JSON, consultez la section Format de document JSON.
Exigences d'importation
Voici les conditions requises pour importer des documents multimédias à l'aide de l'API:
Chaque document doit figurer sur une ligne distincte.
Le nombre maximal de documents dans une même importation est de 100.
Procédure
Pour importer des documents multimédias à l'aide de l'API, procédez comme suit:
Créez un data store.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Remplacez les éléments suivants :
PROJECT_ID
: ID de votre projet Google CloudDATA_STORE_ID
: ID du data store Vertex AI Search que vous souhaitez créer. Cet identifiant ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.DATA_STORE_DISPLAY_NAME
: nom à afficher du data store Vertex AI Search que vous souhaitez créer.
Créez le fichier JSON de votre document et appelez-le
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Appelez la méthode POST :
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
- PROJECT_ID : ID de votre projet.
- DATA_STORE_ID: ID de votre data store.
Format de document JSON
Les exemples suivants présentent des entrées Document
au format JSON.
Fournissez l'intégralité du document sur une seule ligne. Chaque document doit figurer sur une ligne distincte.
Champs obligatoires minimum :
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objet complet :
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Surveiller l'importation et afficher les données
Pour vérifier l'état de l'ingestion, accédez à la page Data stores (Data stores) et cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données).
Cliquez sur l'onglet Activité.
Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.
Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.
Cliquez sur Documents pour afficher les données que vous avez importées.
Importer des événements utilisateur
Les événements utilisateur sont obligatoires si vous souhaitez utiliser votre data store avec une application de recommandations multimédias.
Bien que les événements utilisateur ne soient pas obligatoires pour les applications de recherche multimédia, incluez-les pour obtenir des résultats de recherche de meilleure qualité.
Pour importer des événements utilisateur dans votre data store multimédias:
- Suivez les instructions de la section Importer des événements utilisateur historiques.
Étape suivante
Actualisez régulièrement les données de vos documents.
Idéalement, vous devez mettre à jour votre data store quotidiennement en important de nouvelles données. Planifier des importations périodiques empêche la qualité du modèle de se dégrader au fil du temps. Vous pouvez utiliser Google Cloud Scheduler pour automatiser les importations.
Vous ne pouvez mettre à jour que les documents nouveaux ou modifiés, ou importer l'intégralité du data store. Si vous importez des documents qui figurent déjà dans votre data store, ils ne sont pas ajoutés à nouveau. Tous les documents modifiés sont mis à jour.
Maintenez vos données d'événements utilisateur à jour.
Il est particulièrement important de maintenir vos événements utilisateur à jour. L'application de recommandations cesse de fonctionner si le nombre d'événements utilisateur récents n'est pas suffisant pour répondre aux exigences de données.
Pour en savoir plus sur l'importation de données d'événement utilisateur en temps réel, consultez Enregistrer des événements utilisateur en temps réel.
Pour en savoir plus sur la surveillance des exigences concernant les événements utilisateur, consultez Vérifier la qualité des données pour les recommandations multimédias.