La forma en que preparas los datos depende del tipo de datos que importes y de la forma en que elijas importarlos. Comienza por el tipo de datos que planeas importar:
- Datos del sitio web
- Datos no estructurados
- Datos estructurados
- Datos de medios estructurados
- Datos de FHIR de servicios de salud
Para obtener información sobre la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app de búsqueda personalizada, consulta Información sobre cómo conectar varios almacenes de datos.
Datos de sitio web
Cuando creas un almacén de datos para los datos del sitio web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para la búsqueda o las recomendaciones.
Antes de indexar los datos de tu sitio web, haz lo siguiente:
Decide qué patrones de URL incluir en tu indexación y cuáles excluir.
Excluye los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de la publicación según la solicitud.
Por ejemplo, los patrones de URL de las páginas web que publican los resultados de la búsqueda, como
www.example.com/search/*
. Supongamos que un usuario busca la fraseNobel prize
. La URL de búsqueda dinámica podría ser una URL única:www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Si no se excluye el patrón de URLwww.example.com/search/*
, se indexarán todas las URLs de búsqueda dinámicas y únicas que sigan este patrón. Esto genera un índice sobrecargado y una calidad de búsqueda diluida.Elimina las URLs duplicadas con patrones de URL canónicas. Esto proporciona una sola URL canónica para la Búsqueda de Google cuando rastrea el sitio web y elimina la ambigüedad. Para obtener ejemplos de canonicalización y más información, consulta Qué es la canonicalización de URL y Cómo especificar una URL canónica con rel="canonical" y otros métodos.
Puedes incluir patrones de URL de dominios iguales o diferentes que deban indexarse, y excluir patrones que no deban indexarse. La cantidad de patrones de URL que puedes incluir y excluir difiere de la siguiente manera:
Tipo de indexación Sitios incluidos Sitios excluidos Búsqueda básica en sitios web Se admiten hasta 50 patrones de URL. Se admiten hasta 50 patrones de URL. Indexación avanzada de sitios web Se admiten hasta 500 patrones de URL. Se admiten hasta 500 patrones de URL. Comprueba que las páginas web que planeas proporcionar no usen robots.txt para bloquear la indexación. Para obtener más información, consulta Introducción a robots.txt.
Si planeas usar la indexación avanzada de sitios web, debes poder verificar los dominios de los patrones de URL en tu almacén de datos.
Agrega datos estructurados en forma de etiquetas
meta
y PageMaps al esquema de tu almacén de datos para enriquecer tu indexación, como se explica en Usa datos estructurados para la indexación avanzada de sitios web.
Datos no estructurados
Vertex AI Search admite la búsqueda en documentos en formato HTML, PDF con texto incorporado y TXT. Los formatos PPTX y DOCX están disponibles en versión preliminar.
Importarás tus documentos desde un bucket de Cloud Storage. Puedes importar con la consola de Google Cloud , con el métodoImportDocuments
o con la transmisión de la transferencia a través de los métodos CRUD.
Para obtener información de referencia de la API, consulta DocumentService y documents
.
En la siguiente tabla, se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Cómo analizar y dividir documentos en fragmentos). Puedes importar hasta 100,000 archivos a la vez.
Tipo de archivo | Importación predeterminada | Importa con la división de documentos en fragmentos que tienen en cuenta el diseño | Importa con el analizador de diseño |
---|---|---|---|
Archivos basados en texto, como HTML, TXT, JSON, XHTML y XML | < 2.5 MB | Menos de 10 MB | Menos de 10 MB |
PPTX, DOCX y XLSX | < 200 MB | < 200 MB | < 200 MB |
< 200 MB | < 200 MB | < 40 MB |
Si planeas incluir incorporaciones en tus datos no estructurados, consulta Cómo usar incorporaciones personalizadas.
Si tienes archivos PDF en los que no se puede realizar búsquedas (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el procesamiento de reconocimiento óptico de caracteres (OCR) durante la creación del almacén de datos. Esto permite que Vertex AI Search extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF con capacidad de búsqueda que se componen principalmente de texto legible por máquina y contienen muchas tablas, puedes considerar activar el procesamiento de OCR con la opción de texto legible por máquina habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Cómo analizar y dividir documentos en fragmentos.
Si deseas usar Vertex AI Search para la generación aumentada por recuperación (RAG), activa la división en fragmentos de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Cómo analizar y dividir documentos en fragmentos.
Puedes importar datos no estructurados de las siguientes fuentes:
Cloud Storage
Puedes importar datos desde Cloud Storage con o sin metadatos.
La importación de datos no es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, no se importarán los archivos que se encuentren en esas carpetas.
Si planeas importar documentos desde Cloud Storage sin metadatos, colócalos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadato.
Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.
Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.
El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadato. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:
- Usa
jsonData
de la siguiente manera:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Usa
structData
de la siguiente manera:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usa el campo uri
en cada fila para apuntar a la ubicación del documento en Cloud Storage.
Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData
y las dos segundas usan structData
. Con structData
, no es necesario agregar caracteres de escape a las comillas que aparecen dentro de otras comillas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda.
BigQuery
Si planeas importar metadatos de BigQuery, crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadato.
Coloca tus documentos no estructurados en un bucket de Cloud Storage.
Usa el siguiente esquema de BigQuery. Usa el campo uri
en cada registro para apuntar a la ubicación del documento en Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para obtener más información, consulta Cómo crear y usar tablas en la documentación de BigQuery.
Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda.
Google Drive
La sincronización de datos de Google Drive es compatible con la Búsqueda personalizada.
Si planeas importar datos de Google Drive, debes configurar la identidad de Google como tu proveedor de identidad en las aplicaciones basadas en IA. Para obtener información sobre cómo configurar el control de acceso, consulta Usa el control de acceso a la fuente de datos.
Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda.
Datos estructurados
Prepara tus datos según el método de importación que planeas usar. Si planeas transferir datos de medios, consulta también Datos de medios estructurados.
Puedes importar datos estructurados desde las siguientes fuentes:
Cuando importas datos estructurados desde BigQuery o Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).
BigQuery
Puedes importar datos estructurados de conjuntos de datos de BigQuery.
El esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si realizas la importación con la API en lugar de la consola de Google Cloud , tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.
Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.
Si seleccionas importar datos estructurados con metadatos, debes incluir dos campos en tus tablas de BigQuery:
Un campo
id
para identificar el documento. Si importas datos estructurados sin metadatos, se generará elid
automáticamente. Si incluyes metadatos, puedes especificar el valor deid
.Es un campo
jsonData
que contiene los datos. Para ver ejemplos de cadenas dejsonData
, consulta la sección anterior Cloud Storage.
Usa el siguiente esquema de BigQuery para los datos estructurados con importaciones de metadatos:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para obtener instrucciones sobre cómo crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.
Cloud Storage
Los datos estructurados en Cloud Storage deben estar en formato líneas JSON o NDJSON. Cada archivo debe tener 2 GB o menos. Puedes importar hasta 100 archivos a la vez.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.
Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.
Datos JSON locales
Puedes subir directamente un documento o un objeto JSON con la API.
Para obtener mejores resultados, Google recomienda que proporciones tu propio esquema como un objeto JSON. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.
Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.
Datos de medios estructurados
Si planeas transferir datos estructurados de contenido multimedia, como videos, noticias o música, revisa lo siguiente:
- Información sobre tu método de importación (BigQuery o Cloud Storage): Datos estructurados
- Esquemas y campos obligatorios para los documentos y almacenes de datos de contenido multimedia: Acerca de los documentos y almacenes de datos de contenido multimedia
- Requisitos y esquemas de eventos del usuario: Acerca de los eventos de usuario de medios
- Información sobre los tipos de recomendaciones de contenido multimedia: Acerca de los tipos de recomendaciones de contenido multimedia
Datos de FHIR de servicios de salud
Si planeas transferir datos de FHIR desde la API de Cloud Healthcare, asegúrate de cumplir con los siguientes requisitos:
- Ubicación: El almacén de FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre en la ubicación
us-central1
,us
oeu
. Para obtener más información, consulta Crea y administra conjuntos de datos en la API de Cloud Healthcare. - Tipo de almacén de FHIR: El almacén de FHIR de origen debe ser un almacén de datos R4. Puedes listar los almacenes de FHIR en tu conjunto de datos para verificar sus versiones. Para crear un almacén de FHIR R4, consulta Crea almacenes de FHIR.
- Cuota de importación: El almacén de FHIR de origen debe tener menos de 1 millón de recursos FHIR. Si hay más de 1 millón de recursos de FHIR, el proceso de importación se detiene después de alcanzar este límite. Para obtener más información, consulta Cuotas y límites.
- Los archivos a los que se hace referencia en un recurso
DocumentReference
deben ser archivos PDF, RTF o de imagen almacenados en Cloud Storage. El vínculo a los archivos a los que se hace referencia debe estar en el campocontent[].attachment.url
del recurso en el formato de ruta de acceso estándar de Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
. - Revisa la lista de recursos de FHIR R4 que admite Vertex AI Search. Para obtener más información, consulta la referencia del esquema de datos de FHIR R4 de Healthcare.
- Referencias de recursos: Asegúrate de que las referencias de recursos relativas tengan el formato
Resource/resourceId
. Por ejemplo,subject.reference
debe tener el valorPatient/034AB16
. Para obtener más información sobre cómo la API de Cloud Healthcare admite las referencias de recursos de FHIR, consulta Referencias de recursos de FHIR.