Para crear un almacén de datos y transferir datos para las recomendaciones personalizadas, ve a la sección de la fuente que planeas usar:
BigQuery
Puedes crear almacenes de datos a partir de tablas de BigQuery de dos maneras:
Transferencia única: Importas datos de una tabla de BigQuery a un almacén de datos. Los datos del almacén de datos no cambian, a menos que actualices los datos de forma manual.
Transferencia periódica: Importas datos de una o más tablas de BigQuery y configuras una frecuencia de sincronización que determina la frecuencia con la que se actualizan los almacenes de datos con los datos más recientes del conjunto de datos de BigQuery.
En la siguiente tabla, se comparan las dos formas en que puedes importar datos de BigQuery a los almacenes de datos de Vertex AI Search.
Transferencia única | Transferencia periódica |
---|---|
Disponibilidad general (DG). | Versión preliminar pública. |
Los datos se deben actualizar de forma manual. | Los datos se actualizan automáticamente cada 1, 3 o 5 días. Los datos no se pueden actualizar manualmente. |
Vertex AI Search crea un solo almacén de datos a partir de una tabla en BigQuery. | Vertex AI Search crea un conector de datos para un conjunto de datos de BigQuery y un almacén de datos (llamado almacén de datos de entidad) para cada tabla especificada. Para cada conector de datos, las tablas deben tener el mismo tipo de datos (por ejemplo, estructurados) y estar en el mismo conjunto de datos de BigQuery. |
Para combinar datos de varias tablas en un almacén de datos, primero debes transferir datos de una tabla y, luego, más datos de otra fuente o tabla de BigQuery. | Debido a que no se admite la importación manual de datos, los datos de un almacén de datos de entidades solo se pueden obtener de una tabla de BigQuery. |
Se admite el control de acceso a la fuente de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos no se respetarán. |
Puedes crear un almacén de datos con la consola deGoogle Cloud o la API. | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades. |
Cumple con CMEK. | Cumple con CMEK. |
Importa una vez desde BigQuery
Para transferir datos de una tabla de BigQuery, sigue los pasos que se indican a continuación para crear un almacén de datos y transferir datos con la Google Cloud consola o la API.
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
Console
Para usar la consola de Google Cloud y transferir datos de BigQuery, sigue estos pasos:
En la consola de Google Cloud , ve a la página AI Applications.
Ve a la página Almacenes de datos.
Haz clic en
Crear almacén de datos.En la página Fuente, selecciona BigQuery.
Selecciona el tipo de datos que importarás en la sección ¿Qué tipo de datos estás importando?.
Selecciona Una vez en la sección Frecuencia de sincronización.
En el campo Ruta de acceso de BigQuery, haz clic en Explorar, selecciona una tabla que hayas preparado para transferir y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery.
Haz clic en Continuar.
Si realizas una importación única de datos estructurados, haz lo siguiente:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.
Para obtener más información, consulta Acerca de la detección automática y la edición.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Ingresa un nombre para tu almacén de datos.
Haz clic en Crear.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu almacén de datos para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Importación completada, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
REST
Para usar la línea de comandos y crear un almacén de datos y, luego, importar datos desde BigQuery, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: El ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: El nombre visible del almacén de datos de Vertex AI Search que deseas crear.
Importa datos de BigQuery.
Si definiste un esquema, asegúrate de que los datos cumplan con ese esquema.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: El ID del almacén de datos de Vertex AI Search.DATASET_ID
: El ID del conjunto de datos de BigQuery.TABLE_ID
: El ID de la tabla de BigQuery.- Si la tabla de BigQuery no está en
PROJECT_ID, debes otorgarle a la cuenta de servicio
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
permiso de "Visualizador de datos de BigQuery" para la tabla de BigQuery. Por ejemplo, si importas una tabla de BigQuery del proyecto de origen "123" al proyecto de destino "456", otorga permisosservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
para la tabla de BigQuery en el proyecto "123".
- Si la tabla de BigQuery no está en
PROJECT_ID, debes otorgarle a la cuenta de servicio
DATA_SCHEMA
: es opcional. Los valores sondocument
ycustom
. El valor predeterminado esdocument
.document
: La tabla de BigQuery que uses debe cumplir con el esquema predeterminado de BigQuery que se proporciona en Cómo preparar los datos para la transferencia. Puedes definir el ID de cada documento por tu cuenta, mientras unes todos los datos en la cadena jsonData.custom
: Se acepta cualquier esquema de tabla de BigQuery, y Vertex AI Search genera automáticamente los IDs de cada documento que se importa.
ERROR_DIRECTORY
: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación (por ejemplo,gs://<your-gcs-bucket>/directory/import_errors
). Google recomienda dejar este campo vacío para permitir que Vertex AI Search cree automáticamente un directorio temporal.RECONCILIATION_MODE
: es opcional. Los valores sonFULL
yINCREMENTAL
. El valor predeterminado esINCREMENTAL
. EspecificarINCREMENTAL
provoca una actualización incremental de los datos de BigQuery a tu almacén de datos. Esto realiza una operación de inserción y actualización, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. EspecificarFULL
causa una rebase completa de los documentos en tu almacén de datos. En otras palabras, los documentos nuevos y actualizados se agregan a tu almacén de datos, y los documentos que no están en BigQuery se quitan de tu almacén de datos. El modoFULL
es útil si quieres borrar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS
: es opcional. Especifica si se deben generar automáticamente los IDs de documento. Si se establece entrue
, los IDs de los documentos se generan en función de un hash de la carga útil. Ten en cuenta que los IDs de documentos generados pueden no mantenerse coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda configurarreconciliationMode
comoFULL
para mantener IDs de documentos coherentes.Especifica
autoGenerateIds
solo cuandobigquerySource.dataSchema
se establece encustom
. De lo contrario, se muestra un errorINVALID_ARGUMENT
. Si no especificasautoGenerateIds
o lo configuras enfalse
, debes especificaridField
. De lo contrario, los documentos no se importarán.ID_FIELD
: es opcional. Especifica qué campos son los IDs de los documentos. En el caso de los archivos de origen de BigQuery,idField
indica el nombre de la columna en la tabla de BigQuery que contiene los IDs de documentos.Especifica
idField
solo cuando: (1)bigquerySource.dataSchema
se establece comocustom
y (2)auto_generate_ids
se establece comofalse
o no se especifica. De lo contrario, se muestra un errorINVALID_ARGUMENT
.El valor del nombre de la columna de BigQuery debe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con RFC-1034. De lo contrario, no se podrán importar los documentos.
C#
Para obtener más información, consulta la documentación de referencia de la API de C# de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Go
Para obtener más información, consulta la documentación de referencia de la API de Go de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Java
Para obtener más información, consulta la documentación de referencia de la API de Java de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Node.js
Para obtener más información, consulta la documentación de referencia de la API de Node.js de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Python
Para obtener más información, consulta la documentación de referencia de la API de Python de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Ruby
Para obtener más información, consulta la documentación de referencia de la API de Ruby de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Conéctate a BigQuery con sincronización periódica
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
En el siguiente procedimiento, se describe cómo crear un conector de datos que asocie un conjunto de datos de BigQuery con un conector de datos de Vertex AI Search y cómo especificar una tabla en el conjunto de datos para cada almacén de datos que desees crear. Los almacenes de datos que son secundarios de los conectores de datos se denominan almacenes de datos de entidad.
Los datos del conjunto de datos se sincronizan periódicamente con los almacenes de datos de la entidad. Puedes especificar la sincronización a diario, cada tres días o cada cinco días.
Console
Para usar la consola de Google Cloud y crear un conector que sincronice periódicamente los datos de un conjunto de datos de BigQuery con Vertex AI Search, sigue estos pasos:
En la consola de Google Cloud , ve a la página AI Applications.
En el menú de navegación, haz clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona el tipo de datos que deseas importar.
Haz clic en Periódico.
Selecciona la frecuencia de sincronización, es decir, la frecuencia con la que deseas que el conector de Vertex AI Search se sincronice con el conjunto de datos de BigQuery. Puedes cambiar la frecuencia más adelante.
En el campo Ruta de acceso del conjunto de datos de BigQuery, haz clic en Explorar, selecciona el conjunto de datos que contiene las tablas que preparaste para la transferencia. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery. El formato de la ruta es
projectname.datasetname
.En el campo Tablas para sincronizar, haz clic en Explorar y, luego, selecciona una tabla que contenga los datos que deseas para tu almacén de datos.
Si hay tablas adicionales en el conjunto de datos que deseas usar para los almacenes de datos, haz clic en Agregar tabla y especifícalas también.
Haz clic en Continuar.
Elige una región para tu almacén de datos, ingresa un nombre para tu conector de datos y, luego, haz clic en Crear.
Ahora creaste un conector de datos, que sincronizará los datos de forma periódica con el conjunto de datos de BigQuery. Además, creaste uno o más almacenes de datos de entidades. Los almacenes de datos tienen los mismos nombres que las tablas de BigQuery.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu conector de datos para ver los detalles en la página Datos > pestaña Actividad de transferencia de datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Correcto, se habrá completado la primera transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Después de configurar tu fuente de datos y de importar datos por primera vez, el almacén de datos sincroniza los datos de esa fuente con la frecuencia que selecciones durante la configuración. La primera sincronización se produce aproximadamente una hora después de crear el conector de datos. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.
Próximos pasos
Para conectar tu almacén de datos a una app, crea una app y selecciona tu almacén de datos siguiendo los pasos que se indican en Cómo crear una app de recomendaciones personalizadas.
Para obtener una vista previa de las recomendaciones o recibirlas después de configurar tu app y el almacén de datos, consulta Obtén recomendaciones.
Cloud Storage
Puedes crear almacenes de datos a partir de tablas de Cloud Storage de dos maneras:
Transferencia única: Importas datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian, a menos que actualices los datos de forma manual.
Transferencia periódica: Importas datos desde un archivo o una carpeta de Cloud Storage y configuras una frecuencia de sincronización que determina la frecuencia con la que se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.
En la siguiente tabla, se comparan las dos formas en que puedes importar datos de Cloud Storage a los almacenes de datos de Vertex AI Search.
Transferencia única | Transferencia periódica |
---|---|
Disponibilidad general (DG). | Versión preliminar pública. |
Los datos se deben actualizar de forma manual. | Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar manualmente. |
Vertex AI Search crea un solo almacén de datos a partir de una carpeta o un archivo en Cloud Storage. | Vertex AI Search crea un conector de datos y lo asocia con un almacén de datos (llamado almacén de datos de entidad) para el archivo o la carpeta que se especifica. Cada conector de datos de Cloud Storage puede tener un almacén de datos de entidad única. |
Para combinar datos de varios archivos, carpetas y buckets en un almacén de datos, primero transfiere datos de una ubicación de Cloud Storage y, luego, más datos de otra ubicación. | Debido a que no se admite la importación manual de datos, los datos de un almacén de datos de la entidad solo se pueden obtener de un archivo o una carpeta de Cloud Storage. |
Se admite el control de acceso a la fuente de datos. Para obtener más información, consulta Control de acceso a la fuente de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos no se respetarán. |
Puedes crear un almacén de datos con la consola deGoogle Cloud o la API. | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades. |
Cumple con CMEK. | Cumple con CMEK. |
Importa una vez desde Cloud Storage
Para transferir datos desde Cloud Storage, sigue los pasos que se indican a continuación para crear un almacén de datos y transferir datos con la consola de Google Cloud o la API.
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
Console
Para usar la consola y transferir datos de un bucket de Cloud Storage, sigue estos pasos:
En la consola de Google Cloud , ve a la página AI Applications.
Ve a la página Almacenes de datos.
Haz clic en
Crear almacén de datos.En la página Fuente, selecciona Cloud Storage.
En la sección Selecciona una carpeta o un archivo que desees importar, selecciona Carpeta o Archivo.
Haz clic en Explorar y elige los datos que preparaste para transferir. Luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo
gs://
.Selecciona el tipo de datos que deseas importar.
Haz clic en Continuar.
Si realizas una importación única de datos estructurados, haz lo siguiente:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.
Para obtener más información, consulta Acerca de la detección automática y la edición.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Ingresa un nombre para tu almacén de datos.
Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Cómo analizar documentos. Para obtener información sobre el corte, consulta Cómo dividir documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costos adicionales. Consulta Documenta los precios de las funciones de IA.
Para seleccionar un analizador, expande Document processing options y especifica las opciones de analizador que deseas usar.
Haz clic en Crear.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu almacén de datos para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Importación completada, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
REST
Para usar la línea de comandos y crear un almacén de datos y transferir datos desde Cloud Storage, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: El ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: El nombre visible del almacén de datos de Vertex AI Search que deseas crear.
Importar datos desde Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: El ID del almacén de datos de Vertex AI Search.INPUT_FILE_PATTERN
: Es un patrón de archivo en Cloud Storage que contiene tus documentos.Para datos estructurados o no estructurados con metadatos, un ejemplo del patrón de archivo de entrada es
gs://<your-gcs-bucket>/directory/object.json
y un ejemplo de coincidencia de patrones con uno o más archivos esgs://<your-gcs-bucket>/directory/*.json
.Para los documentos no estructurados, un ejemplo es
gs://<your-gcs-bucket>/directory/*.pdf
. Cada archivo que coincida con el patrón se convierte en un documento.Si
<your-gcs-bucket>
no está debajo de PROJECT_ID, debes otorgarle a la cuenta de servicioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
los permisos de “Visualizador de objetos de almacenamiento” para el bucket de Cloud Storage. Por ejemplo, si importas un bucket de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", otorga permisosservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
en el bucket de Cloud Storage del proyecto "123".DATA_SCHEMA
: es opcional. Los valores sondocument
,custom
,csv
ycontent
. El valor predeterminado esdocument
.document
: Sube datos no estructurados con metadatos para documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: Sube JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema. De lo contrario, se detectará automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea, y la Búsqueda de Vertex AI genera automáticamente los IDs de cada documento importado.content
: Sube documentos no estructurados (PDF, HTML, DOC, TXT y PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivos de entrada, siempre y cuando los archivos coincidentes no superen el límite de 100,000 archivos.csv
: Incluye una fila de encabezado en el archivo CSV, con cada encabezado asignado a un campo de documento. Especifica la ruta de acceso al archivo CSV con el campoinputUris
.
ERROR_DIRECTORY
: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación (por ejemplo,gs://<your-gcs-bucket>/directory/import_errors
) Google recomienda dejar este campo vacío para permitir que Vertex AI Search cree automáticamente un directorio temporal.RECONCILIATION_MODE
: es opcional. Los valores sonFULL
yINCREMENTAL
. El valor predeterminado esINCREMENTAL
. EspecificarINCREMENTAL
provoca una actualización incremental de los datos de Cloud Storage a tu almacén de datos. Esto realiza una operación de inserción y actualización, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. EspecificarFULL
causa una rebase completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en Cloud Storage. El modoFULL
es útil si quieres borrar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS
: es opcional. Especifica si se deben generar automáticamente los IDs de documento. Si se establece entrue
, los IDs de los documentos se generan en función de un hash de la carga útil. Ten en cuenta que los IDs de documentos generados pueden no mantenerse coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda configurarreconciliationMode
comoFULL
para mantener IDs de documentos coherentes.Especifica
autoGenerateIds
solo cuandogcsSource.dataSchema
se establece comocustom
ocsv
. De lo contrario, se muestra un errorINVALID_ARGUMENT
. Si no especificasautoGenerateIds
o lo configuras enfalse
, debes especificaridField
. De lo contrario, los documentos no se importarán.ID_FIELD
: es opcional. Especifica qué campos son los IDs de los documentos. En el caso de los documentos de origen de Cloud Storage,idField
especifica el nombre en los campos JSON que son IDs de documentos. Por ejemplo, si{"my_id":"some_uuid"}
es el campo de ID de documento en uno de tus documentos, especifica"idField":"my_id"
. Esto identifica todos los campos JSON con el nombre"my_id"
como IDs de documentos.Especifica este campo solo cuando: (1)
gcsSource.dataSchema
esté configurado comocustom
ocsv
, y (2)auto_generate_ids
esté configurado comofalse
o no se especifique. De lo contrario, se muestra un errorINVALID_ARGUMENT
.Ten en cuenta que el valor del campo JSON de Cloud Storage debe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con la RFC-1034. De lo contrario, no se importarán los documentos.
Ten en cuenta que el nombre del campo JSON especificado por
id_field
debe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con la RFC-1034. De lo contrario, no se importarán los documentos.
C#
Para obtener más información, consulta la documentación de referencia de la API de C# de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Go
Para obtener más información, consulta la documentación de referencia de la API de Go de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Java
Para obtener más información, consulta la documentación de referencia de la API de Java de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Node.js
Para obtener más información, consulta la documentación de referencia de la API de Node.js de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Python
Para obtener más información, consulta la documentación de referencia de la API de Python de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Ruby
Para obtener más información, consulta la documentación de referencia de la API de Ruby de aplicaciones de IA.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Crea un almacén de datos
Importar documentos
Cómo conectarse a Cloud Storage con sincronización periódica
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
En el siguiente procedimiento, se describe cómo crear un conector de datos que asocie una ubicación de Cloud Storage con un conector de datos de Vertex AI Search y cómo especificar una carpeta o un archivo en esa ubicación para el almacén de datos que deseas crear. Los almacenes de datos que son secundarios de los conectores de datos se denominan almacenes de datos de entidad.
Los datos se sincronizan periódicamente con el almacén de datos de la entidad. Puedes especificar la sincronización a diario, cada tres días o cada cinco días.
Console
En la consola de Google Cloud , ve a la página AI Applications.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona el tipo de datos que deseas importar.
Haz clic en Periódico.
Selecciona la frecuencia de sincronización, es decir, la frecuencia con la que deseas que el conector de búsqueda de Vertex AI se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.
En la sección Selecciona una carpeta o un archivo que desees importar, selecciona Carpeta o Archivo.
Haz clic en Explorar y elige los datos que preparaste para transferir. Luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo
gs://
.Haz clic en Continuar.
Elige una región para tu conector de datos.
Ingresa un nombre para tu conector de datos.
Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Cómo analizar documentos. Para obtener información sobre el corte, consulta Cómo dividir documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costos adicionales. Consulta Documenta los precios de las funciones de IA.
Para seleccionar un analizador, expande Document processing options y especifica las opciones de analizador que deseas usar.
Haz clic en Crear.
Ahora creaste un conector de datos, que sincronizará los datos de forma periódica con la ubicación de Cloud Storage. También creaste un almacén de datos de entidades, que se llama
gcs_store
.Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu conector de datos para ver los detalles en la página Datos.
Pestaña Actividad de transferencia de datos. Cuando la columna de estado de la pestaña Actividad de transferencia de datos cambie de En curso a Se realizó correctamente, se completará la primera transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Después de configurar tu fuente de datos y de importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que selecciones durante la configuración. La primera sincronización se produce aproximadamente una hora después de crear el conector de datos. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.
Próximos pasos
Para conectar tu almacén de datos a una app, crea una app y selecciona tu almacén de datos siguiendo los pasos que se indican en Cómo crear una app de recomendaciones personalizadas.
Para obtener una vista previa de las recomendaciones o recibirlas después de configurar tu app y el almacén de datos, consulta Obtén recomendaciones.
Sube datos JSON estructurados con la API
Para subir directamente un documento o objeto JSON con la API, sigue estos pasos.
Antes de importar tus datos, prepáralos para la transferencia.
REST
Para usar la línea de comandos y crear un almacén de datos y, luego, importar datos JSON estructurados, sigue estos pasos:
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: Es el ID del almacén de datos de recomendaciones que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: Es el nombre visible del almacén de datos de recomendaciones que deseas crear.
Opcional: Proporciona tu propio esquema. Cuando proporcionas un esquema, por lo general, obtienes mejores resultados. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu Google Cloud proyecto.DATA_STORE_ID
: El ID del almacén de datos de recomendaciones.JSON_SCHEMA_OBJECT
: Tu esquema JSON como objeto JSON, por ejemplo:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importa datos estructurados que se ajusten al esquema definido.
Existen algunos enfoques que puedes usar para subir datos, como los siguientes:
Sube un documento JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Reemplaza
JSON_DOCUMENT_STRING
por el documento JSON como una sola cadena. Debe cumplir con el esquema JSON que proporcionaste en el paso anterior, por ejemplo:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Sube un objeto JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Reemplaza
JSON_DOCUMENT_OBJECT
por el documento JSON como un objeto JSON. Debe cumplir con el esquema JSON que proporcionaste en el paso anterior, por ejemplo:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Actualiza con un documento JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Actualiza con un objeto JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Próximos pasos
Para conectar tu almacén de datos a una app, crea una app y selecciona tu almacén de datos siguiendo los pasos que se indican en Cómo crear una app de recomendaciones personalizadas.
Para obtener una vista previa de cómo aparecen tus recomendaciones después de configurar la app y el almacén de datos, consulta Obtén recomendaciones.
Crea un almacén de datos con Terraform
Puedes usar Terraform para crear un almacén de datos vacío. Después de crear el almacén de datos vacío, puedes transferir datos al almacén con los comandos de la Google Cloud consola o de la API.
Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.
Para crear un almacén de datos vacío con Terraform, consulta
google_discovery_engine_data_store
.