Información acerca de las apps y los almacenes de datos

En esta página, se describen las apps y los almacenes de datos de Vertex AI Search. Para obtener información sobre los almacenes de datos de Vertex AI Agents, consulta Almacenes de datos de Vertex AI Agents.

Con Vertex AI Search, creas una app de búsqueda o recommendaciones y la conectas a un almacén de datos. Un proyecto de Google Cloud puede contener varias apps.

Relación entre las apps y los almacenes de datos

La relación entre las apps y los almacenes de datos depende del tipo de app:

  • Las apps de búsqueda genéricas tienen una relación de varios a varios con los almacenes de datos. Cuando varios almacenes de datos están conectados a una sola app de búsqueda genérica, se denomina búsqueda combinada. Para obtener información sobre las limitaciones de conectar una app de búsqueda a más de un almacén de datos, consulta Acerca de la búsqueda combinada.

  • Una app de recomendaciones genéricas tiene una conexión uno a uno con su almacén de datos.

  • Una app de música tiene una relación de varios a uno con su almacén de datos. Una app solo puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectarse a varias apps. Por ejemplo, una app de búsqueda de contenido multimedia y una app de recomendaciones de contenido multimedia pueden compartir un almacén de datos.

  • Una app de búsqueda de atención médica tiene una relación de muchos a uno con su almacén de datos. Una app solo puede conectarse a un almacén de datos, mientras que un almacén de datos determinado puede conectarse a varias apps. Por ejemplo, una app para pacientes y una app para proveedores pueden conectarse al mismo almacén de datos.

    En el caso de una importación masiva de datos de atención médica, los datos se importan a un almacén de datos que se encuentra dentro de una app. En el caso de la importación de datos de transmisión (versión preliminar) de datos de atención médica, los datos se importan a una entidad, que es un tipo de almacén de datos que se encuentra dentro de un conector de datos. Un conector de datos también es un tipo de almacén de datos que se encuentra dentro de una app.

Una vez que un almacén de datos se conecta a una app, no se puede desconectar.

Método de creación de apps y transferencia de datos

La forma en que crees una app y transfieras datos depende del tipo de datos que tengas:

  • En el caso de los datos de sitios web, debes usar la consola de Google Cloud , no la API, para crear tu app y transferir datos.

  • Para datos estructurados o no estructurados, puedes usar la consola deGoogle Cloud o la API.

  • En el caso de los datos de atención médica, puedes usar la API o la consola de Google Cloud .

Documentos

Cada almacén de datos tiene uno o más registros de datos, llamados documentos. Lo que representa un documento varía según el tipo de datos en el almacén de datos:

  • Sitio web. Un documento es una página web.

  • Datos estructurados. Un documento es una fila en una tabla o un registro JSON que sigue un esquema en particular. Puedes proporcionar este esquema por tu cuenta o permitir que Vertex AI Agent Builder derive el esquema de los datos ingresados.

  • Datos estructurados para contenido multimedia Un documento es una fila en una tabla o un registro JSON que sigue un esquema específico para el contenido multimedia. Los documentos son registros relacionados con el contenido multimedia, como videos, artículos de noticias, archivos de música y podcasts. Un documento contiene información que describe el elemento multimedia, como mínimo, el título, el URI a la ubicación del contenido, las categorías, la duración y la fecha de disponibilidad.

  • Datos estructurados para fuentes de datos de terceros (versión preliminar con lista de entidades permitidas). Un documento es una entidad específica de la fuente de datos de terceros, como un problema de Jira o un espacio de Confluence.

  • Datos no estructurados: Un documento es un archivo en formato HTML, PDF con texto incorporado o TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

  • Datos de FHIR de atención médica Un documento es un recurso FHIR R4 compatible. Para obtener una lista de los recursos de FHIR R4 que admite la búsqueda de Vertex AI, consulta la referencia del esquema de datos de FHIR R4 de atención médica.

Almacenes de datos y apps

En Vertex AI Agent Builder, existen varios tipos de almacenes de datos. Un almacén de datos puede contener solo un tipo de datos.

Datos del sitio web

Un almacén de datos con datos de sitios web usa datos indexados de sitios web públicos. Puedes proporcionar un conjunto de patrones de URL que deseas incluir en tu almacén de datos. Las páginas web que se ajustan a los patrones de URL se denominan páginas web incluidas. Luego, puedes configurar la búsqueda o las recomendaciones en función de los datos rastreados de las páginas web incluidas.

Por ejemplo, puedes proporcionar patrones de URL, como yourexamplewebsite.com/faq/* y yourexamplewebsite.com/events/*, y habilitar la búsqueda o las recomendaciones sobre los datos rastreados de estas páginas web que se ajusten al patrón. Estos datos incluyen texto, imágenes etiquetadas con metadatos y otros datos estructurados, como etiquetas meta, atributos de PageMap y datos de schema.org.

Existen dos tipos de almacenes de datos de sitios web:

  • Búsqueda básica de sitios web:

    • Proporciona funciones de búsqueda en el índice existente de la Búsqueda de Google para los sitios web incluidos.
    • No requiere verificación de dominio.
  • Indexación avanzada de sitios web:

    • Proporciona capacidades de búsqueda avanzadas en un índice que se genera en función de cualquiera de las siguientes opciones: el índice existente de la Búsqueda de Google para los sitios web incluidos.
      • Los propietarios de la app de Vertex AI Search pueden controlar qué páginas web se indexan enviando mapas de sitios y manteniéndolos. Para obtener más información, consulta Cómo indexar y actualizar páginas web con mapas del sitio. Este proceso mantiene el índice actualizado sin intervención manual.
      • Los propietarios de la app de Vertex AI Search pueden realizar una indexación inicial que refleje el índice de la Búsqueda de Google y, luego, expandir la cobertura del índice rastreando los sitios web cada vez que sea necesario para mantenerlo actualizado. Para obtener más información, consulta Cómo actualizar páginas web. Las funciones avanzadas de la indexación avanzada de sitios web se enumeran en Indexación avanzada de sitios web.
    • Requiere que los propietarios de los almacenes de datos de Vertex AI Search verifiquen los dominios a los que pertenecen los sitios web incluidos. Para obtener más información, consulta Cómo verificar los dominios de sitios web.
    • Proporciona la capacidad de agregar datos estructurados al esquema del almacén de datos. Un sitio web contiene datos no estructurados, pero puedes agregar datos estructurados en forma de etiquetas meta, atributos de PageMap y datos de schema.org a tus páginas web. Luego, puedes usar estos datos estructurados para editar el esquema del almacén de datos, como se explica en Cómo usar datos estructurados para la indexación avanzada de sitios web.

¿Qué sigue?

Para la búsqueda en sitios web, sigue estos pasos:

Para obtener recomendaciones, haz lo siguiente:

Datos estructurados

Un almacén de datos con datos estructurados habilita la búsqueda semántica o las recomendaciones sobre datos estructurados. Puedes importar datos desde BigQuery o Cloud Storage. También puedes subir datos JSON estructurados de forma manual a través de la API.

Por ejemplo, puedes habilitar la búsqueda o las recomendaciones en un catálogo de productos para tu experiencia de comercio electrónico o un directorio de médicos para la búsqueda o las recomendaciones de proveedores.

Vertex AI Agent Builder detecta automáticamente el esquema a partir de los datos que importas. De manera opcional, puedes proporcionar un esquema para tus datos. Proporcionar un esquema para tus datos suele mejorar la calidad de los resultados.

¿Qué sigue?

Para la búsqueda genérica:

Para recomendaciones genéricas:

Datos estructurados para contenido multimedia

Las apps de contenido multimedia solo se pueden conectar a almacenes de datos de contenido multimedia. Los almacenes de datos media son almacenes de datos estructurados con un esquema definido por Google o con tu propio esquema personalizado que contiene un conjunto específico de cinco campos relacionados con el contenido multimedia. Para obtener más información sobre el esquema, consulta Acerca de los documentos multimedia y los almacenes de datos.

Por ejemplo, puedes habilitar las recomendaciones creando una app de recomendaciones de contenido multimedia para un catálogo de películas o un sitio de noticias, de modo que tus usuarios tengan sugerencias adecuadas y personalizadas.

Además de los documentos multimedia, los almacenes de datos multimedia también contienen la información de eventos de usuario que permite a Vertex AI Search personalizar las recomendaciones y buscar a tus usuarios. Los eventos del usuario son obligatorios para las apps de recomendaciones de contenido multimedia y se recomiendan para las apps de búsqueda de contenido multimedia. Para obtener información sobre los eventos de usuario, consulta Registra eventos de usuario en tiempo real.

¿Qué sigue?

Datos estructurados para almacenes de datos de terceros

Los siguientes conectores de fuentes de datos de terceros están disponibles en la versión preliminar con la lista de entidades permitidas:

  • Confluence
  • Jira
  • Salesforce
  • Sharepoint en línea
  • Slack

Los datos de estos terceros se consideran datos estructurados.

Cuando configuras un conector nuevo, seleccionas una frecuencia de sincronización. También puedes seleccionar qué entidades sincronizar. Las entidades varían según la fuente, como los problemas de Jira y el contenido y los espacios de Confluence. Se crea un almacén de datos único para cada entidad. Los almacenes de datos de entidades se agrupan por instancia de conector.

¿Qué sigue?

Para la Búsqueda:

Para obtener recomendaciones, haz lo siguiente:

Datos no estructurados

Un almacén de datos no estructurados permite la búsqueda semántica o las recomendaciones sobre datos, como documentos e imágenes.

Los almacenes de datos no estructurados admiten documentos en formato HTML, PDF con texto incorporado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

La búsqueda proporciona resultados en forma de 10 URLs y respuestas resumidas para las consultas en lenguaje natural. Los documentos se deben subir a un bucket de Cloud Storage con los permisos de acceso adecuados. Por ejemplo, una institución financiera puede habilitar la búsqueda o las recomendaciones en su corpus privado de publicaciones de investigación financiera, o una empresa de biotecnología puede habilitar la búsqueda o las recomendaciones en su repositorio privado de investigación médica.

¿Qué sigue?

Para la Búsqueda:

Para recomendaciones genéricas:

Datos de FHIR de atención médica

Una app de búsqueda de atención médica usa datos de FHIR R4 importados de un almacén de FHIR de la API de Cloud Healthcare. Para obtener una lista de los recursos de FHIR R4 que admite la Búsqueda de Vertex AI, consulta la referencia del esquema de datos de FHIR R4 de atención médica. Un almacén de datos de FHIR R4 debe cumplir con algunos requisitos para poder usarse como fuente de datos para el almacén de datos de Vertex AI Search. Para obtener más información, consulta cómo preparar datos de FHIR de atención médica para la transferencia.

¿Qué sigue?

Acerca de la búsqueda combinada

Puedes crear una app de búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app de búsqueda genérica. Esta función te permite usar una app para realizar búsquedas en varias fuentes y tipos de datos.

Para crear una app de búsqueda combinada, selecciona varios almacenes de datos cuando crees una app de búsqueda genérica nueva. Si no seleccionas varios almacenes de datos durante la creación, no podrás agregar almacenes de datos adicionales más adelante.

Cuando obtienes resultados de la búsqueda, puedes buscar en todos los almacenes de datos o filtrar los resultados de un solo almacén de datos.

Se aplica la siguiente limitación:

  • Agrega y quita almacenes de datos:
    • Para activar la búsqueda combinada para una app, debes conectarle al menos dos almacenes de datos durante su creación.
    • Puedes agregar o quitar almacenes de datos de una app de búsqueda combinada, pero la app no puede tener menos de dos almacenes de datos conectados en ningún momento.
    • Si conectas un solo almacén de datos a una app de búsqueda durante su creación, no podrás agregar ni quitar ese almacén de datos.
  • Los almacenes de datos de sitios web deben tener activada la indexación avanzada de sitios web para poder usarse en la búsqueda combinada. Para obtener más información, consulta Indexación avanzada de sitios web.
  • No se admiten los almacenes de datos que contienen datos no estructurados importados con BigQuery.
  • La búsqueda combinada permite los siguientes campos en las solicitudes de búsqueda:
    • query
    • pageSize
    • offset
    • dataStoreSpecs
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • Además de los campos mencionados anteriormente, los siguientes campos solo son compatibles con las apps de búsqueda combinada cuando se filtran las solicitudes de búsqueda para obtener resultados de un solo almacén de datos. No se admiten cuando se obtienen resultados de más de un almacén de datos:
    • facetSpec
  • La búsqueda combinada permite los siguientes campos en dataStoreSpecs:
    • boostSpec
    • filter: Si se especifican filtros para SearchRequest y dataStoreSpecs, ambos se aplican a los resultados de la búsqueda.
  • Las operaciones de creación, lectura, actualización y eliminación (CRUD) en las configuraciones de entrega son compatibles con las apps combinadas. Solo se pueden agregar o actualizar los siguientes campos en una configuración de publicación:
    • name
    • displayName
    • solutionType
    • genericConfig:
      • contentSearchSpec:
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • Las operaciones de CRUD en los siguientes controles son compatibles con las apps de búsqueda combinada:
    • boostAction
    • synonymACtion
  • Las apps de búsqueda combinada no admiten las siguientes funciones:
    • Filtrar, redireccionar, ignorar, reemplazar y disociar controles de publicación
    • Fragmentos que usan contentSearchSpec.snippetSpec en solicitudes de búsqueda o configuraciones de publicación
    • Búsqueda con seguimientos