Repositórios de dados

Os repositórios de dados são usados por ferramentas de repositório de dados para encontrar respostas para as perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites, documentos ou dados em sistemas de terceiros, cada um deles faz referência aos seus dados.

Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte fornecido e resume as descobertas em uma resposta coerente. Além disso, ele disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Origens do repositório de dados

Há diferentes fontes de dados que você pode fornecer:

  • URLs de sites: rastreie automaticamente o conteúdo do site de uma lista de domínios ou páginas da Web.
  • BigQuery: importe dados da sua tabela do BigQuery.
  • Cloud Storage: importe dados do seu bucket do Cloud Storage.

Fontes de armazenamento de dados de acesso restrito

O Google oferece muitas outras fontes de armazenamento de dados próprios e de terceiros como um recurso de acesso restrito. Para conferir uma lista de origens disponíveis e solicitar acesso, consulte a seção outras fontes de armazenamento de dados nesta página.

Conteúdo do site

Ao adicionar o conteúdo do site como uma fonte, você pode adicionar e excluir vários sites. Ao especificar um site, é possível usar páginas individuais ou * como um curinga para um padrão. Todo o conteúdo em HTML e PDF será processado.

É necessário verificar seu domínio ao usar o conteúdo do site como fonte.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador do Google Search para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo 200.000 páginas são indexadas. Se o repositório de dados tiver mais páginas, a indexação vai falhar nesse ponto. O conteúdo já indexado permanecerá.

Importar dados

É possível importar seus dados do BigQuery ou do Cloud Storage. Esses dados podem estar em formato de perguntas frequentes ou não estruturados, e podem ser com metadados ou sem metadados.

As seguintes Opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, ele vai substituir o documento antigo.
  • Substituir dados atuais: todos os dados antigos são excluídos e os novos são enviados. Essa ação é irreversível.

Repositório de dados de perguntas frequentes

Os repositórios de dados de perguntas frequentes podem armazenar respostas para perguntas frequentes (FAQ). Quando as perguntas dos usuários são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta para essa pergunta sem nenhuma modificação. Você pode fornecer um título e um URL para cada par de pergunta e resposta exibido pelo agente.

Os dados precisam ser enviados para o repositório no formato CSV. Cada arquivo precisa ter uma linha de cabeçalho que descreva as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independentemente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Armazenamento de dados não estruturados

Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

É possível, mas não é comum, importar arquivos do bucket do Cloud Storage de outro projeto. Para isso, é necessário conceder acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do usuário que precisa de acesso de leitura ao bucket para realizar a importação.

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e 100 MB para outros formatos.

Armazenamento de dados com metadados

Um título e URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações ao usuário. Isso pode ajudar os usuários a vincular rapidamente páginas da Web internas que não são acessíveis pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, forneça um ou mais arquivos de linhas JSON. Cada linha desse arquivo descreve um documento. Não é possível fazer o upload direto dos documentos. Os URIs que vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Para fornecer seus arquivos de linhas JSON, você precisa fornecer uma pasta do Cloud Storage que os contenha. Não coloque outros arquivos nesta pasta.

Descrições dos campos:

Campo Tipo Descrição
id string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são aceitos.
content.uri string URI do documento no Cloud Storage.
structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Armazenamento de dados sem metadados

Esse tipo de conteúdo não tem metadados. Em vez disso, forneça links de URI para os documentos individuais. O tipo de conteúdo é determinado pela extensão do arquivo.

Analisar e dividir a configuração

Dependendo da origem de dados, é possível configurar as configurações de análise e de divisão definidas pela Vertex AI para Pesquisa.

Usar o Cloud Storage para um documento de repositório de dados

Se o conteúdo não for público, a opção recomendada é armazená-lo no Cloud Storage. Ao criar documentos de armazenamento de dados, forneça os URLs dos seus objetos do Cloud Storage no formulário: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para saber quais idiomas são aceitos, consulte a coluna "Armazenamento de dados" na referência de idioma.

Para ter o melhor desempenho, é recomendável que os repositórios de dados sejam criados em um único idioma.

Depois de criar um repositório de dados, você pode especificar o idioma dele. Se você definir o idioma do repositório de dados, poderá conectá-lo a um agente configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados em francês conectado a um agente em inglês.

Regiões compatíveis

Para saber quais regiões são compatíveis, consulte a referência de região.

(Acesso restrito) Outras origens de repositório de dados

Outros tipos de repositório de dados estão listados na tabela a seguir. Eles estão disponíveis como recursos de acesso restrito. Preencha o formulário de lista de permissões para solicitar acesso. Depois da aprovação, essas opções vão aparecer quando você criar um novo repositório de dados no Agent Builder.

Fontes de repositório de dados do Google

Origem do repositório de dados Descrição
Cloud SQL Importe dados de uma tabela do Cloud SQL.
(Pré-lançamento) Spanner Importe dados de uma tabela do Spanner.
(Pré-lançamento) Bigtable Importar dados de uma tabela do Bigtable.
Firestore Importar dados da sua coleção do Firestore.
(Pré-lançamento) AlloyDB Importar dados do cluster do AlloyDB.
Google Drive Link para o drive da sua organização.
(Pré-lançamento) Google Gmail Link para o Gmail da sua organização.
(Pré-lançamento) Google Sites Link para os sites da sua organização.
(Pré-lançamento) Google Agenda Link para a agenda da sua organização.
(Pré-lançamento) Grupos do Google Link para os grupos da sua organização.

Fontes de armazenamento de dados de terceiros

Origem do repositório de dados Descrição
(Pré-lançamento) AODocs Importe dados do seu sistema de gerenciamento de documentos do AODocs.
Box Importe dados do site do Box da sua organização.
Confluence Cloud Importe dados do seu espaço de trabalho do Confluence Cloud.
(Pré-lançamento) Data Center do Confluence Importe dados do seu espaço de trabalho do Confluence Data Center.
Dropbox Importe dados do seu armazenamento do Dropbox.
(Pré-lançamento) HubSpot Importe dados do site da HubSpot da sua organização.
Jira Cloud Importe dados do seu sistema de gerenciamento de tarefas do Jira.
(Pré-lançamento) Data center do Jira Importe dados do seu site do Jira Data Center.
(Pré-lançamento) Marketo Importe dados do sistema de marketing do Marketo da sua organização.
(Pré-lançamento) Notion Importe dados do espaço de trabalho do Notion da sua organização.
OneDrive Importe dados do armazenamento do OneDrive da sua organização.
Microsoft Outlook Importe dados do Microsoft Outlook.
Salesforce Importe dados do Salesforce.
ServiceNow Importe dados do ServiceNow.
SharePoint Importe dados do sistema do SharePoint da sua organização.
(Pré-lançamento) Shopify Importe dados do sistema Shopify da sua organização.
Slack Importe dados do Slack.
Microsoft Teams Importe dados do Microsoft Teams.
(Pré-lançamento) WordPress Importe dados do site WordPress da sua organização.

Configurar um repositório de dados de terceiros usando um conector

Esta seção descreve o processo de configuração de um repositório de dados usando dados de terceiros. As instruções específicas para cada origem de dados de terceiros podem ser encontradas na documentação de IA generativa.

Provedores de identidade

Os provedores de identidade permitem gerenciar usuários, grupos e autenticação. Ao configurar um repositório de dados de terceiros, você tem a opção de usar um provedor de identidade do Google ou de terceiros.

Provedor de identidade do Google:

  • Todos os usuários do agente precisam fazer login usando as credenciais do Google. Pode ser qualquer endereço de e-mail do @gmail.com ou qualquer conta que use o Google como provedor de identidade (por exemplo, o Google Workspace). Essa etapa é ignorada se os usuários conversarem com o agente usando Google Cloud diretamente, porque a identidade do Google é integrada automaticamente ao sistema.
  • É possível atribuir acesso às Contas do Google usando o IAM.

Provedor de identidade de terceiros:

  • Os usuários do agente fazem login usando credenciais que não são do Google, por exemplo, um endereço de e-mail do Microsoft.
  • É necessário criar um pool da força de trabalho usando Google Cloud que contenha os provedores de identidade que não são do Google. Em seguida, use o IAM para conceder acesso a todo o pool ou a usuários individuais.
  • Esse método não pode ser usado com projetos Google Cloud configurados na organização @google.com.

Conectores

Os repositórios de dados de terceiros são implementados usando um conector. Cada conector pode conter vários armazenamentos de dados, que são armazenados como entidades no sistema de agentes de conversa (Dialogflow CX).

  • Antes de criar um repositório de dados, é necessário configurar cada região com um único provedor de identidade em Google Cloud -> Agent Builder -> Configurações. Todos os armazenamentos de dados nesta região vão usar o mesmo provedor de identidade. É possível escolher uma identidade do Google ou de terceiros em um pool de colaboradores. A mesma credencial do Google é considerada uma identidade diferente se estiver em um pool da força de trabalho. Por exemplo, test@gmail.com é considerado uma identidade diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crie um pool de colaboradores (se necessário).
    • Acesse as Configurações do Criador de agentes e selecione Identidade do Google ou Identidade de terceiros. Clique em SALVAR para salvar a identidade na região.
    • Agora você pode criar um repositório de dados na região.
  • Cada repositório de dados salva dados da lista de controle de acesso (ACL) com cada documento. Esse é um registro de quais usuários ou grupos têm acesso de leitura a quais entidades. Durante a execução, um usuário ou membro do grupo somente vai receber respostas do agente que vêm de entidades com acesso de leitura. Se um usuário não tiver acesso de leitura a nenhuma entidade no repositório de dados, o agente vai retornar uma resposta vazia.

  • Como os dados no repositório são uma cópia da instância de terceiros, eles precisam ser atualizados periodicamente. É possível configurar os intervalos de atualização em uma escala de tempo de horas ou dias.

  • Depois de configurar o repositório de dados e clicar em Criar, pode levar até uma hora para que ele apareça na lista de repositórios de dados.

A seguir

Para instruções sobre como criar um repositório de dados e usá-lo com um agente, consulte a documentação das ferramentas de repositório de dados.