En esta página, se explica cómo crear un almacén de datos para contenido multimedia y cómo importar datos a él.
Antes de comenzar
Asegúrate de hacer lo siguiente:
Revisa los conceptos relacionados con los datos de medios y el esquema:
Decide si usarás el esquema predefinido de Google para tus datos de medios o tu propio esquema.
Si usas tu propio esquema, asegúrate de que tenga campos que se asignen bien a las propiedades de medios del esquema personalizado:
title
,url
,category
, etcétera.Coloca tus documentos multimedia en el esquema JSON y sube los datos a BigQuery o Cloud Storage.
Revisa Acerca de los eventos de usuario de medios y prepara tus eventos de usuario para la importación. Los eventos del usuario son obligatorios para todas las apps de contenido multimedia.
Elige el procedimiento según tu fuente de datos
Para crear un almacén de datos multimedia y, luego, importar documentos, ve a la sección de la fuente que planeas usar:
Importa desde BigQuery
Console
Para usar la consola de Google Cloud para crear un almacén de datos de medios y, luego, importar documentos y eventos de usuario desde BigQuery, sigue estos pasos:
En la consola de Google Cloud , ve a la página AI Applications.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona Multimedia: Tabla de BigQuery con datos estructurados de multimedia como el tipo de datos que importas.
En el campo Ruta de acceso de BigQuery, haz clic en Explorar, selecciona los datos de BigQuery que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo Ruta de BigQuery.
Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y salta al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.
Haz clic en Continuar.
No podrás continuar hasta que se asignen las propiedades de clave obligatorias, lo que se indica con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Ingresa un nombre para tu almacén de datos y haz clic en Crear.
Importar desde Cloud Storage
Console
Para usar la consola de Google Cloud para crear un almacén de datos multimedia y, luego, importar documentos desde Cloud Storage, sigue estos pasos:
En la consola de Google Cloud , ve a la página AI Applications.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona Datos estructurados de multimedia (JSONL que contiene archivos multimedia) como el tipo de datos que importas.
En la sección Selecciona una carpeta o un archivo que desees importar, selecciona Carpeta o Archivo.
Haz clic en Explorar, elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. También puedes ingresar la ubicación directamente en el campo
gs://
.Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y salta al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.
Haz clic en Continuar.
No podrás continuar hasta que se asignen las propiedades de clave obligatorias, lo que se indica con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Ingresa un nombre para tu almacén de datos y haz clic en Crear.
Importa documentos con la API
Si usas el esquema predefinido de Google, puedes importar tus documentos con una solicitud POST
al método de REST Documents:import
, con el objeto InlineSource
para especificar tus datos.
Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.
Requisitos de importación
Estos son los requisitos para importar documentos multimedia con la API:
Cada documento debe estar en su propia línea.
La cantidad máxima de documentos en una sola importación es de 100.
Procedimiento
Para importar documentos multimedia con la API, haz lo siguiente:
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: Es el nombre visible del almacén de datos de Vertex AI Search que deseas crear.
Crea el archivo JSON para tu documento y llámalo
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Llama al método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
Reemplaza lo siguiente:
PROJECT_ID
: el ID de tu proyecto.DATA_STORE_ID
: Es el ID de tu almacén de datos.
Formato del documento JSON
En los siguientes ejemplos, se muestran entradas de Document
en formato JSON.
Proporciona un documento completo en una sola línea. Cada documento debe estar en su propia línea.
Campos obligatorios mínimos:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Supervisa la importación y visualiza los datos
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del almacén de datos para ver los detalles en la página Datos.
Haz clic en la pestaña Actividad.
Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Haz clic en Documentos para ver los datos que importaste.
Importar eventos de usuario
Para importar eventos de usuario a tu almacén de datos de medios, sigue estos pasos:
- Sigue las instrucciones en Importa eventos históricos de usuarios.
¿Qué sigue?
Mantén actualizados los datos de tus documentos.
Lo ideal es que actualices tu almacén de datos a diario importando datos nuevos. La programación de importaciones periódicas evita que la calidad del modelo se deteriore con el tiempo. Puedes usar Google Cloud Scheduler para automatizar las importaciones.
Solo puedes actualizar los documentos nuevos o modificados, o puedes importar todo el almacén de datos. Si importas documentos que ya están en tu almacén de datos, no se vuelven a agregar. Se actualiza cualquier documento que haya cambiado.
Mantén actualizados tus datos de eventos de usuario.
Es particularmente importante que mantengas actualizados tus eventos de usuario. La app de recomendaciones deja de funcionar si no hay suficientes eventos de usuarios recientes para cumplir con los requisitos de datos.
Para obtener información sobre cómo importar datos de eventos de usuarios en tiempo real, consulta Registra eventos de usuarios en tiempo real.
Para obtener información sobre cómo supervisar los requisitos de los eventos de usuarios, consulta Verifica la calidad de los datos para las recomendaciones de contenido multimedia.