Repositórios de dados

Os repositórios de dados são usados pelas ferramentas de repositório de dados para encontrar respostas às perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites, documentos ou dados em sistemas de terceiros, cada um deles referenciando seus dados.

Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte e resume as descobertas em uma resposta coerente. Além disso, ele disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco trechos de resposta para uma determinada pergunta.

Fontes de repositórios de dados

Você pode fornecer dados de diferentes fontes:

  • URLs de sites: rastreie automaticamente o conteúdo do site de uma lista de domínios ou páginas da Web.
  • BigQuery: Importe dados da sua tabela do BigQuery.
  • Cloud Storage: Importe dados do seu bucket do Cloud Storage.
  • AlloyDB: importe dados do cluster do AlloyDB.
  • Bigtable: importe dados de uma tabela do Bigtable.
  • Firestore: importe dados da sua coleção do Firestore.
  • Cloud SQL: importe dados de uma tabela do Cloud SQL.
  • Spanner: importe dados de uma tabela do Spanner.

Fontes de repositório de dados de acesso restrito

O Google oferece muitas outras fontes repositório de dados próprios e de terceiros como um recurso de acesso restrito. Para conferir uma lista de fontes disponíveis e solicitar acesso, consulte a seção outras fontes de repositório de dados nesta página.

Conteúdo do site

Ao adicionar conteúdo de sites como uma fonte, é possível incluir e excluir vários sites. Ao especificar um site, você pode usar páginas individuais ou * como um caractere curinga para um padrão. Todo o conteúdo em HTML e PDF será processado.

Você precisa verificar seu domínio ao usar conteúdo do site como fonte.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador do Google Search para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo,200.000 páginas são indexadas. Se o repositório de dados tiver mais páginas, a indexação vai falhar nesse ponto. Todo o conteúdo já indexado será mantido.

Importar dados

É possível importar dados do BigQuery ou do Cloud Storage. Esses dados podem estar em formato de perguntas frequentes ou não estruturados, e podem ter metadados ou não ter metadados.

As seguintes Opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, ele vai substituir o antigo.
  • Substituir dados atuais: todos os dados antigos são excluídos e os novos são enviados. Essa ação é irreversível.

Repositório de dados de perguntas frequentes

Os repositórios de dados de perguntas frequentes podem conter respostas para perguntas frequentes. Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta sem modificação. Você pode fornecer um título e um URL para cada par de pergunta e resposta que é exibido pelo agente.

Os dados precisam ser enviados para o repositório de dados no formato CSV. Cada arquivo precisa ter uma linha de cabeçalho descrevendo as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, você pode selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

É possível (mas incomum) importar arquivos do bucket do Cloud Storage de outro projeto. Para isso, conceda acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do usuário que precisa de acesso de leitura ao bucket para realizar a importação.

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e de 100 MB para outros formatos.

Repositório de dados com metadados

Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações. Isso pode ajudar os usuários a vincular rapidamente páginas da Web internas que não podem ser acessadas pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, você precisa fornecer um ou mais arquivos de linhas JSON. Cada linha desse arquivo descreve um documento. Você não faz upload direto dos documentos reais. Os URIs que vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Para fornecer seus arquivos JSON Lines, você precisa informar uma pasta do Cloud Storage que os contenha. Não coloque outros arquivos nessa pasta.

Descrições dos campos:

Campo Tipo Descrição
ID string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são compatíveis.
content.uri string URI do documento no Cloud Storage.
structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Em vez disso, forneça links de URI para os documentos individuais. O tipo de conteúdo é determinado pela extensão do arquivo.

Configuração de análise e divisão

Dependendo da fonte de dados, é possível configurar as definições de análise e divisão em partes, conforme definido pela Vertex AI para Pesquisa.

Usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de repositório de dados, você fornece os URLs dos seus objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para conferir os idiomas disponíveis, consulte a coluna de repositório de dados na referência de idioma.

Para ter o melhor desempenho, é recomendável que os repositórios de dados sejam criados em um único idioma.

Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, poderá conectá-lo a um agente configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados em francês conectado a um agente em inglês.

Regiões compatíveis

Para conferir as regiões compatíveis, consulte a referência de região.

(Acesso restrito) Outras origens de repositório de dados

Outros tipos de repositório de dados estão listados na tabela a seguir. Eles estão disponíveis como recursos de acesso restrito. Preencha o formulário de lista de permissões para solicitar acesso. Depois da aprovação, essas opções vão aparecer quando você criar um novo repositório de dados nos aplicativos de IA.

Origens de repositório de dados do Google

Origem do repositório de dados Descrição
Google Drive Link para o drive da sua organização.
(Prévia) Google Gmail Link para o Gmail da sua organização.
(Prévia) Google Sites Link para os sites da organização.
(Prévia) Google Agenda Link para a agenda da organização.
(Prévia) Grupos do Google Link para os grupos da sua organização.

Origens de repositório de dados de terceiros

Origem do repositório de dados Descrição
(Pré-lançamento) AODocs Importe dados do seu sistema de gerenciamento de documentos do AODocs.
Box Importe os dados do site do Box da sua organização.
Confluence Cloud Importe dados do seu espaço de trabalho do Confluence Cloud.
(Prévia) Confluence Data Center Importe dados do seu espaço de trabalho do Confluence Data Center.
Dropbox Importe dados do seu armazenamento do Dropbox.
EntraID Importe dados do sistema EntraID da sua organização.
(Pré-lançamento) HubSpot Importe os dados do site da HubSpot da sua organização.
Jira Cloud Importe dados do seu sistema de gerenciamento de tarefas do Jira.
(Prévia) Jira Data Center Importe dados do seu site do Jira Data Center.
(Pré-lançamento) Marketo Importe dados do sistema de marketing Marketo da sua organização.
(Pré-lançamento) Notion Importe dados do espaço de trabalho do Notion da sua organização.
OneDrive Importe dados do armazenamento do OneDrive da sua organização.
Microsoft Outlook Importar dados do Microsoft Outlook.
Salesforce Importe dados do Salesforce.
ServiceNow Importe dados do ServiceNow.
SharePoint Importe dados do sistema SharePoint da sua organização.
(Pré-lançamento) Shopify Importe dados do sistema da Shopify da sua organização.
Slack Importe dados do Slack.
Microsoft Teams Importar dados do Microsoft Teams.
(Pré-lançamento) WordPress Importe dados do site do WordPress da sua organização.

Configurar um repositório de dados de terceiros usando um conector

Esta seção descreve o processo de configuração de um repositório de dados usando dados de terceiros. As instruções específicas para cada origem de dados de terceiros podem ser encontradas na documentação de IA generativa.

Provedores de identidade

Com eles, é possível gerenciar usuários, grupos e autenticação. Ao configurar um repositório de dados de terceiros, você pode usar um provedor de identidade do Google ou de terceiros.

Provedor de identidade do Google:

  • Todos os usuários do agente precisam fazer login com as credenciais do Google. Pode ser qualquer endereço de e-mail @gmail.com ou conta que use o Google como provedor de identidade (por exemplo, o Google Workspace). Essa etapa é ignorada se os usuários conversarem com o agente usando o Google Cloud diretamente, porque a identidade do Google é integrada automaticamente ao sistema.
  • É possível atribuir acesso a Contas do Google usando o IAM.

Provedor de identidade de terceiros:

  • Os usuários do agente fazem login usando credenciais que não são do Google, por exemplo, um endereço de e-mail da Microsoft.
  • Crie um pool da força de trabalho usando Google Cloud que contenha os provedores de identidade que não são do Google. Em seguida, use o IAM para conceder acesso a todo o pool ou a usuários individuais dentro dele.
  • Esse método não pode ser usado com projetos Google Cloud configurados na organização @google.com.

Conectores

Os repositórios de dados de terceiros são implementados usando um conector. Cada conector pode conter vários repositórios de dados, que são armazenados como entidades no sistema de Agentes de conversa (Dialogflow CX).

  • Antes de criar um repositório de dados, configure cada região com um único provedor de identidade em Google Cloud -> Agent Builder -> Configurações. Todos os armazenamentos de dados nessa região usam o mesmo provedor de identidade. É possível escolher uma identidade do Google ou de terceiros em um pool de força de trabalho. A mesma credencial do Google é considerada uma identidade diferente se estiver em um pool de força de trabalho. Por exemplo, test@gmail.com é considerado uma identidade diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crie um pool de colaboradores (se necessário).
    • Acesse Agent Builder Configurações e selecione Identidade do Google ou Identidade de terceiros. Clique em SALVAR para salvar a identidade na região.
    • Agora você pode criar um repositório de dados na região.
  • Cada repositório de dados salva dados da lista de controle de acesso (ACL) com cada documento. Esse é um registro de quais usuários ou grupos têm acesso de leitura a quais entidades. Durante a execução, um usuário ou membro do grupo vai receber respostas do agente que vêm de entidades a que ele tem acesso de leitura. Se um usuário não tiver acesso de leitura a nenhuma entidade no repositório de dados, o agente vai retornar uma resposta vazia.

  • Como os dados no repositório de dados são uma cópia da instância de terceiros, eles precisam ser atualizados periodicamente. É possível configurar os intervalos de atualização em uma escala de tempo de horas ou dias.

  • Depois de configurar o repositório de dados e clicar em Criar, pode levar até uma hora para que ele apareça na lista de repositórios de dados.

Rastreamento de repositório de dados

Esse recurso inclui duas partes:

  1. Exibição dos rastreamentos de execução interna e das latências de etapa do repositório de dados no simulador de agente.
  2. Exportação de rastreamentos e dados de latência para o Cloud Logging e o BigQuery.

Ver dados no simulador

Para mostrar dados de rastreamento e execução nos dados do agente, expanda os detalhes de uma troca de mensagens clicando no cursor de expansão à direita da resposta do agente.

A guia execução mostra os rastreamentos de execução do repositório de dados interno, incluindo as seguintes informações:

  • A entrada original do usuário.
  • A consulta reescrita pelo mecanismo do repositório de dados.
  • Os indicadores de qualidade durante várias etapas de execução, incluindo status da verificação de segurança, status da verificação de estabilidade, resultado da verificação de embasamento e status da verificação de segurança.
  • Pesquisar trechos no repositório de dados.
  • A lista de documentos de apoio de onde os snippets foram extraídos.

A guia Latência mostra um gráfico de tempo para várias etapas de execução do repositório de dados. A lista de etapas pode variar dependendo de como o repositório de dados foi configurado e do fluxo de execução. Os dados mostrados podem incluir o seguinte:

  • Correspondência de perguntas frequentes: o repositório de dados realizou uma etapa de correspondência de perguntas frequentes.
  • Reescrita de consulta: o repositório de dados reescreveu a consulta original do usuário.
  • Pesquisa: o repositório de dados realizou pesquisas de snippets.
  • Resumo: o repositório de dados resumiu a resposta.
  • Verificações de segurança: o repositório de dados realizou etapas de verificação de segurança.

Ver dados de rastreamento em outros locais

  • Se o agente de conversação estiver configurado com registro do histórico de conversas, também será possível ver o rastreamento do repositório de dados em Histórico de conversas.

  • Se o agente de conversa estiver configurado com o Cloud Logging, também será possível ver rastreamentos e latências no Buscador de registros da nuvem.

  • Se o agente de conversa estiver configurado com a exportação do BigQuery, você também poderá conferir rastreamentos e latências em uma tabela exportada do BigQuery.

A seguir

Para instruções sobre como criar e usar um repositório de dados com um agente, consulte a documentação das ferramentas de repositório de dados.