Los almacenes de datos se utilizan en las herramientas de almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son una colección de sitios web, documentos o datos en sistemas de terceros, cada uno de los cuales hace referencia a tus datos.
Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los resultados en una respuesta coherente. También se proporcionan vínculos de apoyo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.
Fuentes del almacén de datos
Puedes proporcionar diferentes fuentes para tus datos:
- URLs de sitios web: Rastrea automáticamente el contenido de sitios web desde una lista de dominios o páginas web.
- BigQuery: Importa datos desde tu tabla de BigQuery.
- Cloud Storage: Importa datos desde tu bucket de Cloud Storage.
- AlloyDB: Importa datos desde tu clúster de AlloyDB.
- Bigtable: Importa datos de una tabla de Bigtable.
- Firestore: Importa datos de tu colección de Firestore.
- Cloud SQL: Importa datos de una tabla de Cloud SQL.
- Spanner: Importa datos de una tabla de Spanner.
Fuentes de almacén de datos con acceso restringido
Google ofrece muchas fuentes de almacén de datos de origen y de terceros adicionales como una función de acceso restringido. Para ver una lista de las fuentes disponibles y solicitar acceso, consulta la sección Fuentes de almacén de datos adicionales en esta página.
Contenido de sitios web
Cuando agregues contenido de sitios web como fuente, podrás agregar y excluir varios sitios.
Cuando especificas un sitio, puedes usar páginas individuales o *
como comodín para un patrón.
Se procesará todo el contenido en HTML y PDF.
Debes verificar tu dominio cuando uses contenido del sitio web como fuente.
Limitaciones:
- Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
- Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese punto. Se conservará el contenido que ya se haya indexado.
Importar datos
Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden estar en formato de preguntas frecuentes o ser no estructurados, y pueden incluir metadatos o no incluirlos.
Están disponibles las siguientes Opciones de importación de datos:
- Add/Update Data: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que uno anterior, el nuevo reemplaza al anterior.
- Anular datos existentes: Se borran todos los datos antiguos y, luego, se suben los datos nuevos. Esta acción es irreversible.
Almacén de datos de preguntas frecuentes
Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de preguntas y respuestas que muestre el agente.
Los datos se deben subir al almacén de datos en formato CSV
. Cada archivo debe tener una fila de encabezado que describa las columnas.
Por ejemplo:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Las columnas title
y url
son opcionales y se pueden omitir:
"answer","question"
"42","What is the meaning of life?"
Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV
, independientemente de la extensión.
Limitaciones:
- Un carácter de espacio adicional después de
,
causa un error. - Las líneas en blanco (incluso al final del archivo) provocan un error.
Almacén de datos no estructurados
Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:
HTML
PDF
TXT
CSV
Es posible (aunque poco común) importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, debes otorgar acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.
Limitaciones:
- El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.
Almacén de datos con metadatos
Se pueden proporcionar un título y un URL
como metadatos.
Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información.
Esto puede ayudar a los usuarios a vincularse rápidamente a páginas web internas a las que no puede acceder el indexador de la Búsqueda de Google.
Para importar contenido con metadatos, debes proporcionar uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; URIs
los vínculos a las rutas de Cloud Storage se proporcionan en el archivo de líneas JSON.
Para proporcionar tus archivos JSON Lines, debes proporcionar una carpeta de Cloud Storage que los contenga. No coloques ningún otro archivo en esta carpeta.
Descripciones de los campos:
Campo | Tipo | Descripción |
---|---|---|
id | string | Es el identificador único del documento. |
content.mimeType | string | Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html". |
content.uri | string | URI del documento en Cloud Storage. |
structData | string | Objeto JSON de una sola línea con campos title y url opcionales. |
Por ejemplo:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Almacén de datos sin metadatos
Este tipo de contenido no tiene metadatos. En su lugar, proporciona vínculos URI a los documentos individuales. El tipo de contenido se determina según la extensión del archivo.
Configuración de análisis y fragmentación
Según la fuente de datos, es posible que puedas configurar los parámetros de configuración de análisis y fragmentación según lo define Vertex AI Search.
Usa Cloud Storage para un documento de almacén de datos
Si el contenido no es público, se recomienda almacenarlo en Cloud Storage.
Cuando creas documentos del almacén de datos, proporcionas las URLs de tus objetos de Cloud Storage con el siguiente formato: gs://bucket-name/folder-name
.
Cada documento de la carpeta se agrega al almacén de datos.
Cuando crees el bucket de Cloud Storage, haz lo siguiente:
- Asegúrate de haber seleccionado el proyecto que usas para el agente.
- Usa la clase Standard Storage.
- Como ubicación de bucket, selecciona la misma ubicación que tu agente.
Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un depósito y subir archivos.
Idiomas
Para conocer los idiomas admitidos, consulta la columna del almacén de datos en la referencia de idiomas.
Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.
Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.
Regiones admitidas
Para conocer las regiones admitidas, consulta la referencia de regiones.
(Acceso restringido) Fuentes de almacén de datos adicionales
En la siguiente tabla, se enumeran los tipos de almacén de datos adicionales. Están disponibles como funciones de acceso restringido. Puedes completar el formulario de inclusión en la lista de entidades permitidas para solicitar acceso. Una vez que se apruebe tu solicitud, podrás ver estas opciones cuando crees un nuevo almacén de datos en Aplicaciones basadas en IA.
Fuentes de almacén de datos de Google
Fuente del almacén de datos | Descripción |
---|---|
Google Drive | Vínculo a la unidad de tu organización |
(Vista previa) Google Gmail | Vínculo a Gmail de tu organización |
(Versión preliminar) Google Sites | Vínculo al sitio de tu organización |
(Vista previa) Calendario de Google | Vínculo al Calendario de tu organización |
(Vista previa) Grupos de Google | Vínculo a los Grupos de tu organización |
Fuentes de la almacén de datos de terceros
Fuente del almacén de datos | Descripción |
---|---|
(Versión preliminar) AODocs | Importa datos desde tu sistema de administración de documentos de AODocs. |
Box | Importa datos desde el sitio de Box de tu organización. |
Confluence Cloud | Importa datos desde tu espacio de trabajo de Confluence Cloud. |
(Vista previa) Confluence Data Center | Importa datos desde tu espacio de trabajo de Confluence Data Center. |
Dropbox | Importa datos desde tu almacenamiento de Dropbox. |
EntraID | Importar datos del sistema EntraID de tu organización |
(Vista previa) HubSpot | Importa datos del sitio de HubSpot de tu organización. |
Jira Cloud | Importa datos de tu sistema de administración de tareas de Jira. |
(Vista previa) Jira Data Center | Importa datos desde tu sitio de Jira Data Center. |
(Versión preliminar) Marketo | Importa datos del sistema de marketing de Marketo de tu organización. |
(Vista previa) Notion | Importa datos del espacio de trabajo de Notion de tu organización. |
OneDrive | Importa datos del almacenamiento de OneDrive de tu organización. |
Microsoft Outlook | Importar datos de Microsoft Outlook |
Salesforce | Importar datos de Salesforce |
ServiceNow | Importar datos de ServiceNow |
SharePoint | Importa datos del sistema de SharePoint de tu organización. |
(Vista previa) Shopify | Importa datos del sistema de Shopify de tu organización. |
Slack | Importar datos desde Slack |
Microsoft Teams | Importar datos de Microsoft Teams |
(Vista previa) WordPress | Importa datos del sitio de WordPress de tu organización. |
Configura un almacén de datos de terceros con un conector
En esta sección, se describe el proceso de configuración de un almacén de datos con datos de terceros. En la documentación sobre IA generativa, se pueden encontrar instrucciones específicas para cada fuente de datos de terceros.
Proveedores de identidades
Los proveedores de identidad te permiten administrar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, tienes la opción de usar un proveedor de identidad de Google o un proveedor de identidad de terceros.
Proveedor de identidad de Google:
- Todos los usuarios del agente deben acceder con sus credenciales de Google. Puede ser cualquier dirección de correo electrónico de
@gmail.com
o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Este paso se omite si los usuarios hablan con el agente usando Google Cloud directamente, ya que la identidad de Google se incorpora automáticamente al sistema. - Puedes asignar acceso a las cuentas de Google con IAM.
Proveedor de identidad externo:
- Los usuarios del agente acceden con credenciales que no son de Google, por ejemplo, una dirección de correo electrónico de Microsoft.
- Debes crear un grupo de trabajadores con Google Cloud que contenga los proveedores de identidad ajenos a Google. Luego, puedes usar IAM para otorgar acceso a todo el grupo o a usuarios individuales dentro de ese grupo.
- Este método no se puede usar con ningún proyecto de Google Cloud configurado en la organización
@google.com
.
Conectores
Los almacenes de datos de terceros se implementan con un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema de agentes conversacionales (Dialogflow CX).
Antes de crear un almacén de datos, debes configurar cada región con un solo proveedor de identidad en Google Cloud -> Agent Builder -> Settings. Todos los almacenes de datos de esa región usarán el mismo proveedor de identidad. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de personal. La misma credencial de Google se considera una identidad diferente si se encuentra en un grupo de personal. Por ejemplo,
test@gmail.com
se considera una identidad diferente deworkforcePools/test-pool/subject/test@gmail.com
.- Crea un grupo de personal (si es necesario).
- Ve a Agent Builder Configuración y selecciona Identidad de Google o Identidad de terceros. Haz clic en GUARDAR para guardar la identidad en la región.
- Ahora puedes crear un almacén de datos en la región.
Cada almacén de datos guarda datos de la lista de control de acceso (LCA) con cada documento. Este es un registro de qué usuarios o grupos tienen acceso de lectura a qué entidades. Durante el tiempo de ejecución, un usuario o miembro del grupo solo recibirá respuestas del agente que provengan de entidades a las que tenga acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad en el almacén de datos, el agente devolverá una respuesta vacía.
Dado que los datos del almacén de datos son una copia de la instancia de terceros, deben actualizarse periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.
Después de configurar tu almacén de datos y hacer clic en Crear, el almacén de datos puede tardar hasta una hora en aparecer en tu lista de almacenes de datos.
Seguimiento del almacén de datos
Esta función incluye dos partes:
- Visualización de los registros de ejecución internos del almacén de datos y las latencias de los pasos en el simulador de agentes
- Exportación de datos de latencia y registros de seguimiento a Cloud Logging y BigQuery
Cómo ver datos en el simulador
Para mostrar los datos de seguimiento y ejecución en los datos del agente, haz clic en el signo de expansión que se encuentra a la derecha de la respuesta del agente para expandir los detalles sobre un turno de conversación.
En la pestaña Ejecución, se muestran los registros de ejecución del almacén de datos interno, incluida la siguiente información:
- Es la entrada original del usuario.
- Es la consulta tal como la reescribió el motor del almacén de datos.
- Son los indicadores de calidad durante los distintos pasos de ejecución, incluidos el estado de la verificación de seguridad, el estado de la verificación de estabilidad, el resultado de la verificación de fundamentación y el estado de la verificación de seguridad.
- Son fragmentos de la búsqueda en el almacén de datos.
- Es la lista de documentos de respaldo de los que se obtuvieron los fragmentos.
En la pestaña Latencia, se muestra un gráfico de tiempo para varios pasos de ejecución del almacén de datos. La lista de pasos puede variar según cómo se configuró el almacén de datos y el flujo de ejecución. Los datos que se muestran pueden incluir lo siguiente:
- Coincidencia de preguntas frecuentes: El almacén de datos realizó un paso de correlación de preguntas frecuentes.
- Reescritura de la búsqueda: El almacén de datos reescribió la búsqueda original del usuario.
- Búsqueda: El almacén de datos realizó una búsqueda de fragmentos.
- Resumen: El almacén de datos resumió la respuesta.
- Verificaciones de seguridad: El almacén de datos realizó pasos de verificación de seguridad.
Cómo ver los datos de seguimiento en otras ubicaciones
Si el agente conversacional está configurado con el registro del historial de conversaciones, también puedes ver el seguimiento del almacén de datos en el Historial de conversaciones.
Si el agente conversacional está configurado con Cloud Logging, también puedes ver los seguimientos y las latencias en el Explorador de registros de Cloud.
Si el agente conversacional está configurado con la exportación a BigQuery, también puedes ver los registros y las latencias en una tabla de BigQuery exportada.
¿Qué sigue?
Para obtener instrucciones sobre cómo crear un almacén de datos y usarlo con un agente, consulta la documentación de las herramientas del almacén de datos.