Almacenes de datos

Los almacenes de datos se utilizan en las herramientas de almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son una colección de sitios web, documentos o datos en sistemas de terceros, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los resultados en una respuesta coherente. También se proporcionan vínculos de apoyo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes del almacén de datos

Puedes proporcionar diferentes fuentes para tus datos:

  • URLs de sitios web: Rastrea automáticamente el contenido de sitios web desde una lista de dominios o páginas web.
  • BigQuery: Importa datos desde tu tabla de BigQuery.
  • Cloud Storage: Importa datos desde tu bucket de Cloud Storage.
  • AlloyDB: Importa datos desde tu clúster de AlloyDB.
  • Bigtable: Importa datos de una tabla de Bigtable.
  • Firestore: Importa datos de tu colección de Firestore.
  • Cloud SQL: Importa datos de una tabla de Cloud SQL.
  • Spanner: Importa datos de una tabla de Spanner.

Fuentes de almacén de datos con acceso restringido

Google ofrece muchas fuentes de almacén de datos de origen y de terceros adicionales como una función de acceso restringido. Para ver una lista de las fuentes disponibles y solicitar acceso, consulta la sección Fuentes de almacén de datos adicionales en esta página.

Contenido de sitios web

Cuando agregues contenido de sitios web como fuente, podrás agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido en HTML y PDF.

Debes verificar tu dominio cuando uses contenido del sitio web como fuente.

Limitaciones:

  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese punto. Se conservará el contenido que ya se haya indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden estar en formato de preguntas frecuentes o ser no estructurados, y pueden incluir metadatos o no incluirlos.

Están disponibles las siguientes Opciones de importación de datos:

  • Add/Update Data: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que uno anterior, el nuevo reemplaza al anterior.
  • Anular datos existentes: Se borran todos los datos antiguos y, luego, se suben los datos nuevos. Esta acción es irreversible.

Almacén de datos de preguntas frecuentes

Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de preguntas y respuestas que muestre el agente.

Los datos se deben subir al almacén de datos en formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, independientemente de la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , causa un error.
  • Las líneas en blanco (incluso al final del archivo) provocan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Es posible (aunque poco común) importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, debes otorgar acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Se pueden proporcionar un título y un URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincularse rápidamente a páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.

Para importar contenido con metadatos, debes proporcionar uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; URIs los vínculos a las rutas de Cloud Storage se proporcionan en el archivo de líneas JSON.

Para proporcionar tus archivos JSON Lines, debes proporcionar una carpeta de Cloud Storage que los contenga. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string URI del documento en Cloud Storage.
structData string Objeto JSON de una sola línea con campos title y url opcionales.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. En su lugar, proporciona vínculos URI a los documentos individuales. El tipo de contenido se determina según la extensión del archivo.

Configuración de análisis y fragmentación

Según la fuente de datos, es posible que puedas configurar los parámetros de configuración de análisis y fragmentación según lo define Vertex AI Search.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos del almacén de datos, proporcionas las URLs de tus objetos de Cloud Storage con el siguiente formato: gs://bucket-name/folder-name. Cada documento de la carpeta se agrega al almacén de datos.

Cuando crees el bucket de Cloud Storage, haz lo siguiente:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un depósito y subir archivos.

Idiomas

Para conocer los idiomas admitidos, consulta la columna del almacén de datos en la referencia de idiomas.

Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para conocer las regiones admitidas, consulta la referencia de regiones.

(Acceso restringido) Fuentes de almacén de datos adicionales

En la siguiente tabla, se enumeran los tipos de almacén de datos adicionales. Están disponibles como funciones de acceso restringido. Puedes completar el formulario de inclusión en la lista de entidades permitidas para solicitar acceso. Una vez que se apruebe tu solicitud, podrás ver estas opciones cuando crees un nuevo almacén de datos en Aplicaciones basadas en IA.

Fuentes de almacén de datos de Google

Fuente del almacén de datos Descripción
Google Drive Vínculo a la unidad de tu organización
(Vista previa) Google Gmail Vínculo a Gmail de tu organización
(Versión preliminar) Google Sites Vínculo al sitio de tu organización
(Vista previa) Calendario de Google Vínculo al Calendario de tu organización
(Vista previa) Grupos de Google Vínculo a los Grupos de tu organización

Fuentes de la almacén de datos de terceros

Fuente del almacén de datos Descripción
(Versión preliminar) AODocs Importa datos desde tu sistema de administración de documentos de AODocs.
Box Importa datos desde el sitio de Box de tu organización.
Confluence Cloud Importa datos desde tu espacio de trabajo de Confluence Cloud.
(Vista previa) Confluence Data Center Importa datos desde tu espacio de trabajo de Confluence Data Center.
Dropbox Importa datos desde tu almacenamiento de Dropbox.
EntraID Importar datos del sistema EntraID de tu organización
(Vista previa) HubSpot Importa datos del sitio de HubSpot de tu organización.
Jira Cloud Importa datos de tu sistema de administración de tareas de Jira.
(Vista previa) Jira Data Center Importa datos desde tu sitio de Jira Data Center.
(Versión preliminar) Marketo Importa datos del sistema de marketing de Marketo de tu organización.
(Vista previa) Notion Importa datos del espacio de trabajo de Notion de tu organización.
OneDrive Importa datos del almacenamiento de OneDrive de tu organización.
Microsoft Outlook Importar datos de Microsoft Outlook
Salesforce Importar datos de Salesforce
ServiceNow Importar datos de ServiceNow
SharePoint Importa datos del sistema de SharePoint de tu organización.
(Vista previa) Shopify Importa datos del sistema de Shopify de tu organización.
Slack Importar datos desde Slack
Microsoft Teams Importar datos de Microsoft Teams
(Vista previa) WordPress Importa datos del sitio de WordPress de tu organización.

Configura un almacén de datos de terceros con un conector

En esta sección, se describe el proceso de configuración de un almacén de datos con datos de terceros. En la documentación sobre IA generativa, se pueden encontrar instrucciones específicas para cada fuente de datos de terceros.

Proveedores de identidades

Los proveedores de identidad te permiten administrar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, tienes la opción de usar un proveedor de identidad de Google o un proveedor de identidad de terceros.

Proveedor de identidad de Google:

  • Todos los usuarios del agente deben acceder con sus credenciales de Google. Puede ser cualquier dirección de correo electrónico de @gmail.com o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Este paso se omite si los usuarios hablan con el agente usando Google Cloud directamente, ya que la identidad de Google se incorpora automáticamente al sistema.
  • Puedes asignar acceso a las cuentas de Google con IAM.

Proveedor de identidad externo:

  • Los usuarios del agente acceden con credenciales que no son de Google, por ejemplo, una dirección de correo electrónico de Microsoft.
  • Debes crear un grupo de trabajadores con Google Cloud que contenga los proveedores de identidad ajenos a Google. Luego, puedes usar IAM para otorgar acceso a todo el grupo o a usuarios individuales dentro de ese grupo.
  • Este método no se puede usar con ningún proyecto de Google Cloud configurado en la organización@google.com.

Conectores

Los almacenes de datos de terceros se implementan con un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema de agentes conversacionales (Dialogflow CX).

  • Antes de crear un almacén de datos, debes configurar cada región con un solo proveedor de identidad en Google Cloud -> Agent Builder -> Settings. Todos los almacenes de datos de esa región usarán el mismo proveedor de identidad. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de personal. La misma credencial de Google se considera una identidad diferente si se encuentra en un grupo de personal. Por ejemplo, test@gmail.com se considera una identidad diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crea un grupo de personal (si es necesario).
    • Ve a Agent Builder Configuración y selecciona Identidad de Google o Identidad de terceros. Haz clic en GUARDAR para guardar la identidad en la región.
    • Ahora puedes crear un almacén de datos en la región.
  • Cada almacén de datos guarda datos de la lista de control de acceso (LCA) con cada documento. Este es un registro de qué usuarios o grupos tienen acceso de lectura a qué entidades. Durante el tiempo de ejecución, un usuario o miembro del grupo solo recibirá respuestas del agente que provengan de entidades a las que tenga acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad en el almacén de datos, el agente devolverá una respuesta vacía.

  • Dado que los datos del almacén de datos son una copia de la instancia de terceros, deben actualizarse periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.

  • Después de configurar tu almacén de datos y hacer clic en Crear, el almacén de datos puede tardar hasta una hora en aparecer en tu lista de almacenes de datos.

Seguimiento del almacén de datos

Esta función incluye dos partes:

  1. Visualización de los registros de ejecución internos del almacén de datos y las latencias de los pasos en el simulador de agentes
  2. Exportación de datos de latencia y registros de seguimiento a Cloud Logging y BigQuery

Cómo ver datos en el simulador

Para mostrar los datos de seguimiento y ejecución en los datos del agente, haz clic en el signo de expansión que se encuentra a la derecha de la respuesta del agente para expandir los detalles sobre un turno de conversación.

En la pestaña Ejecución, se muestran los registros de ejecución del almacén de datos interno, incluida la siguiente información:

  • Es la entrada original del usuario.
  • Es la consulta tal como la reescribió el motor del almacén de datos.
  • Son los indicadores de calidad durante los distintos pasos de ejecución, incluidos el estado de la verificación de seguridad, el estado de la verificación de estabilidad, el resultado de la verificación de fundamentación y el estado de la verificación de seguridad.
  • Son fragmentos de la búsqueda en el almacén de datos.
  • Es la lista de documentos de respaldo de los que se obtuvieron los fragmentos.

En la pestaña Latencia, se muestra un gráfico de tiempo para varios pasos de ejecución del almacén de datos. La lista de pasos puede variar según cómo se configuró el almacén de datos y el flujo de ejecución. Los datos que se muestran pueden incluir lo siguiente:

  • Coincidencia de preguntas frecuentes: El almacén de datos realizó un paso de correlación de preguntas frecuentes.
  • Reescritura de la búsqueda: El almacén de datos reescribió la búsqueda original del usuario.
  • Búsqueda: El almacén de datos realizó una búsqueda de fragmentos.
  • Resumen: El almacén de datos resumió la respuesta.
  • Verificaciones de seguridad: El almacén de datos realizó pasos de verificación de seguridad.

Cómo ver los datos de seguimiento en otras ubicaciones

  • Si el agente conversacional está configurado con el registro del historial de conversaciones, también puedes ver el seguimiento del almacén de datos en el Historial de conversaciones.

  • Si el agente conversacional está configurado con Cloud Logging, también puedes ver los seguimientos y las latencias en el Explorador de registros de Cloud.

  • Si el agente conversacional está configurado con la exportación a BigQuery, también puedes ver los registros y las latencias en una tabla de BigQuery exportada.

¿Qué sigue?

Para obtener instrucciones sobre cómo crear un almacén de datos y usarlo con un agente, consulta la documentación de las herramientas del almacén de datos.