Almacenes de datos

Las herramientas de almacenes de datos usan los almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son una colección de sitios web, documentos o datos en sistemas de terceros, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los resultados en una respuesta coherente. También se proporcionan vínculos de apoyo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes del almacén de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

  • URLs de sitios web: Realiza un rastreo automático del contenido de sitios web a partir de una lista de dominios o páginas web.
  • BigQuery: Importa datos desde tu tabla de BigQuery.
  • Cloud Storage: Importa datos desde tu bucket de Cloud Storage.

Fuentes de almacenamiento de datos de acceso restringido

Google ofrece muchas fuentes adicionales de almacenamiento de datos de origen y de terceros como una función de acceso restringido. Para ver una lista de las fuentes disponibles y solicitar acceso, consulta la sección Fuentes de almacenes de datos adicionales en esta página.

Contenido de sitios web

Cuando agregas contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses el contenido de un sitio web como fuente.

Limitaciones:

  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexan un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese momento. Se conservará todo el contenido que ya esté indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden estar en forma de preguntas frecuentes o ser no estructurados, y pueden tener metadatos o no tenerlos.

Las siguientes opciones de importación de datos están disponibles:

  • Agregar o actualizar datos: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que uno anterior, el nuevo reemplaza al anterior.
  • Anular datos existentes: Se borran todos los datos anteriores y, luego, se suben los nuevos. Esta acción es irreversible.

Almacén de datos de Preguntas frecuentes

Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas del usuario coinciden con una pregunta subida con alta confianza, el agente muestra la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestre el agente.

Los datos se deben subir al almacén de datos en formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, independientemente de la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , genera un error.
  • Las líneas en blanco (incluso al final del archivo) generan un error.

Almacenamiento de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Es posible (pero poco común) importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, debes otorgar acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Se pueden proporcionar un título y URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincular rápidamente páginas web internas a las que el indexador de la Búsqueda de Google no puede acceder.

Para importar contenido con metadatos, debes proporcionar uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; los URIs que vinculan a las rutas de acceso de Cloud Storage se proporcionan en el archivo de líneas JSON.

Para proporcionar tus archivos de líneas JSON, debes proporcionar una carpeta de Cloud Storage que los contenga. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string Es el URI del documento en Cloud Storage.
structData string Objeto JSON de una sola línea con campos title y url opcionales.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. En su lugar, proporcionas vínculos de URI a los documentos individuales. El tipo de contenido se determina según la extensión del archivo.

Configuración de análisis y división

Según la fuente de datos, es posible que puedas configurar la configuración de análisis y división como la define Vertex AI Search.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos de almacén de datos, proporcionas las URLs de tus objetos de Cloud Storage en el formato: gs://bucket-name/folder-name. Cada documento de la carpeta se agrega al almacén de datos.

Cuando crees el bucket de Cloud Storage, haz lo siguiente:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un depósito y subir archivos.

Idiomas

Para conocer los idiomas admitidos, consulta la columna del almacén de datos en la referencia de idiomas.

Para obtener un mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo lenguaje.

Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para conocer las regiones compatibles, consulta la referencia de regiones.

(Acceso restringido) Fuentes adicionales de almacenes de datos

En la siguiente tabla, se enumeran los tipos de almacenes de datos adicionales. Están disponibles como funciones de acceso restringido. Puedes completar el formulario de inclusión en lista de entidades permitidas para solicitar acceso. Una vez que se apruebe, podrás ver estas opciones cuando crees un almacén de datos nuevo en Agent Builder.

Fuentes del almacén de datos de Google

Fuente del almacén de datos Descripción
Cloud SQL Importa datos de una tabla de Cloud SQL.
Spanner(versión preliminar) Importa datos desde una tabla de Spanner.
Bigtable(versión preliminar) Importa datos desde una tabla de Bigtable.
Firestore Importa datos de tu colección de Firestore.
AlloyDB(versión preliminar) Importa datos desde tu clúster de AlloyDB.
Google Drive Vínculo a la unidad de Drive de tu organización
(Versión preliminar) Gmail de Google Vínculo a Gmail de tu organización
Google Sites(versión preliminar) Vínculo a los Sites de tu organización
Calendario de Google (versión preliminar) Vínculo al Calendario de tu organización
Grupos de Google(versión preliminar) Vínculo a los Grupos de tu organización

Fuentes de almacenes de datos de terceros

Fuente del almacén de datos Descripción
(Versión preliminar) AODocs Importa datos desde tu sistema de administración de documentos de AODocs.
Box Importa datos desde el sitio de Box de tu organización.
Confluence Cloud Importa datos desde tu espacio de trabajo de Confluence Cloud.
Confluence Data Center(versión preliminar) Importa datos desde tu espacio de trabajo de Confluence Data Center.
Dropbox Importa datos desde tu almacenamiento de Dropbox.
HubSpot(versión preliminar) Importa datos desde el sitio de HubSpot de tu organización.
Jira Cloud Importa datos desde tu sistema de administración de tareas de Jira.
Jira Data Center(versión preliminar) Importa datos desde tu sitio de Jira Data Center.
Marketo(versión preliminar) Importa datos del sistema de marketing de Marketo de tu organización.
Notion(versión preliminar) Importa datos desde el espacio de trabajo de Notion de tu organización.
OneDrive Importa datos desde el almacenamiento de OneDrive de tu organización.
Microsoft Outlook Importa datos desde Microsoft Outlook.
Salesforce Importa datos desde Salesforce.
ServiceNow Importa datos desde ServiceNow.
SharePoint Importa datos desde el sistema de SharePoint de tu organización.
Shopify(versión preliminar) Importa datos desde el sistema de Shopify de tu organización.
Slack Importa datos desde Slack.
Microsoft Teams Importa datos de Microsoft Teams.
WordPress(versión preliminar) Importa datos desde el sitio de WordPress de tu organización.

Configura un almacén de datos de terceros con un conector

En esta sección, se describe el proceso de configuración de un almacén de datos con datos de terceros. Las instrucciones específicas de cada fuente de datos de terceros se pueden encontrar en la documentación de IA generativa.

Proveedores de identidades

Los proveedores de identidad te permiten administrar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, tienes la opción de usar un proveedor de identidad de Google o un proveedor de identidad de terceros.

Proveedor de identidad de Google:

  • Todos los usuarios del agente deben acceder con sus credenciales de Google. Puede ser cualquier dirección de correo electrónico de @gmail.com o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Este paso se omite si los usuarios hablan directamente con el agente a través de Google Cloud , ya que la identidad de Google se integra automáticamente en el sistema.
  • Puedes asignar acceso a las Cuentas de Google con IAM.

Proveedor de identidad de terceros:

  • Los usuarios del agente acceden con credenciales que no son de Google, por ejemplo, una dirección de correo electrónico de Microsoft.
  • Debes crear un grupo de trabajadores con Google Cloud que contenga los proveedores de identidad que no sean de Google. Luego, puedes usar la IAM para otorgar acceso a todo el grupo o a usuarios individuales dentro de él.
  • Este método no se puede usar con ningún proyecto Google Cloud configurado en la organización@google.com.

Conectores

Los almacenes de datos de terceros se implementan con un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema de agentes conversacionales (Dialogflow CX).

  • Antes de crear un almacén de datos, debes configurar cada región con un solo proveedor de identidad en Google Cloud -> Agent Builder -> Settings. Todos los almacenes de datos de esa región usarán el mismo proveedor de identidad. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de personal. La misma credencial de Google se considera una identidad diferente si está en un grupo de trabajadores. Por ejemplo, test@gmail.com se considera una identidad diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crea un grupo de personal (si es necesario).
    • Ve a Agent Builder Configuración y selecciona Identidad de Google o Identidad de terceros. Haz clic en GUARDAR para guardar la identidad en la región.
    • Ahora puedes crear un almacén de datos en la región.
  • Cada almacén de datos guarda datos de la lista de control de acceso (LCA) con cada documento. Este es un registro de qué usuarios o grupos tienen acceso de lectura a qué entidades. Durante el tiempo de ejecución, un usuario o miembro del grupo solo recibirá respuestas del agente que se obtiene de las entidades a las que tiene acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad del almacén de datos, el agente mostrará una respuesta vacía.

  • Debido a que los datos del almacén de datos son una copia de la instancia de terceros, se deben actualizar periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.

  • Después de configurar tu almacén de datos y hacer clic en Crear, puede tardar hasta una hora en aparecer en la lista de almacenes de datos.

¿Qué sigue?

Para obtener instrucciones sobre cómo crear un almacén de datos y usarlo con un agente, consulta la documentación de las herramientas de almacén de datos.