Sobre apps e repositórios de dados

Nesta página, descrevemos os apps e repositórios de dados da Vertex AI para Pesquisa.

Com a Vertex AI para Pesquisa, você cria um app de pesquisa ou recomendações e o conecta a um repositório de dados. Um Google Cloud projeto pode conter vários apps.

Relação entre apps e repositórios de dados

A relação entre apps e repositórios de dados depende do tipo de app:

  • Os apps de pesquisa personalizada têm uma relação de muitos para muitos com os repositórios de dados. Quando vários repositórios de dados são conectados a um único app de pesquisa personalizada, isso é chamado de pesquisa combinada. Para informações sobre limitações de conectar um app de pesquisa a mais de um repositório de dados, consulte Sobre a pesquisa combinada.

  • Um app de recomendações personalizadas tem uma conexão de um para um com o repositório de dados.

  • Um app de mídia tem um relacionamento de muitos para um com o repositório de dados. Um app só pode se conectar a um repositório de dados, enquanto um repositório de dados pode ser conectado a vários apps. Por exemplo, um app de pesquisa de mídia e um app de recomendações de mídia podem compartilhar um repositório de dados.

  • Um app de pesquisa de saúde tem um relacionamento de muitos para um com o repositório de dados. Um app só pode se conectar a um repositório de dados, enquanto um repositório de dados pode ser conectado a vários apps. Por exemplo, um app voltado a pacientes e um app voltado a fornecedores podem se conectar ao mesmo repositório de dados.

    Para uma importação de dados em lote de dados de saúde, os dados são importados para um repositório de dados em um app. Para a importação de dados de streaming (prévia) de dados de saúde, os dados são importados para uma entidade, que é um tipo de repositório de dados em um conector de dados. Um conector de dados também é um tipo de repositório de dados em um app.

Depois que um repositório de dados é conectado a um app, ele não pode ser desconectado.

Método de criação de apps e ingestão de dados

A forma de criar um app e ingerir dados depende do tipo de dados que você tem:

  • Para dados de sites, use o console Google Cloud ou a API. Para usar dados de sites criados com a API, anexe-os a um app com recursos do Enterprise ativados no console do Google Cloud .

  • Para dados estruturados ou não estruturados, use o consoleGoogle Cloud ou a API.

  • Para dados de saúde, use o console Google Cloud ou a API.

Documentos

Cada repositório de dados tem um ou mais registros de dados, chamados de documentos. O que um documento representa varia dependendo do tipo de dados no repositório de dados:

  • Site. Um documento é uma página da Web.

  • Dados estruturados. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico. Você pode incluir o esquema ou deixar que os aplicativos de IA derivem o esquema nos dados ingeridos.

  • Dados estruturados para mídia. Um documento é uma linha em uma tabela ou um registro JSON que segue um esquema específico para mídia. Os documentos são registros relacionados a conteúdo de mídia, como vídeos, notícias, arquivos de música e podcasts. Um documento contém informações que descrevem o item de mídia, no mínimo: título, URI do local do conteúdo, categorias, duração e data de disponibilidade.

  • Dados não estruturados. Um documento é um arquivo em HTML, PDF com texto incorporado ou no formato TXT. Os formatos PPTX e DOCX estão disponíveis na prévia.

  • Dados de FHIR de saúde. Um documento é um recurso FHIR R4 com suporte. Para uma lista de recursos FHIR R4 compatíveis com a Vertex AI Search, consulte Referência do esquema de dados FHIR R4 do Healthcare.

Repositórios de dados e apps

Nos aplicativos de IA, há vários tipos de repositórios de dados. Um repositório de dados pode conter apenas um tipo de dado.

Dados de sites

Um repositório de dados com informações de sites usa dados indexados de sites públicos. Você pode fornecer um conjunto de padrões de URL que quer incluir no repositório de dados. As páginas da Web que se encaixam nos padrões de URL são chamadas de páginas da Web incluídas. Em seguida, você pode configurar a pesquisa nos dados rastreados das páginas da Web incluídas.

Por exemplo, você pode fornecer padrões de URL como example.com/faq/* e example.com/events/* e ativar a pesquisa nos dados rastreados dessas páginas da Web que se encaixam no padrão. Esses dados incluem texto, imagens marcadas com metadados e outros dados estruturados, como tags meta, atributos PageMap e dados do schema.org.

Também é possível fornecer padrões de URL para partes de sites que você quer excluir, por exemplo, example.com/events/members-only/* ou example.com/events/past-*. Os URLs excluídos têm prioridade sobre os incluídos.

Há dois tipos de repositórios de dados de sites:

  • Pesquisa básica de sites:

    • Oferece recursos de pesquisa no índice da Pesquisa Google para os sites incluídos.
    • Não exige verificação de domínio.
  • Indexação avançada de sites:

    • Oferece recursos de pesquisa avançada em um índice gerado com base em qualquer uma das seguintes opções:
      • Os proprietários de apps da Vertex AI para Pesquisa podem controlar quais páginas da Web são indexadas enviando e mantendo sitemaps. Para mais informações, consulte Indexar e atualizar páginas da Web usando sitemaps. Esse processo mantém o índice atualizado sem intervenção manual.
      • Os proprietários de apps da Vertex AI para Pesquisa podem realizar uma indexação inicial que espelha o índice da Pesquisa Google e, em seguida, expandir a cobertura do índice rastreando novamente os sites sempre que necessário, mantendo-o atualizado. Para mais informações, consulte Atualizar páginas da Web. Os recursos avançados da indexação avançada de sites estão listados em Indexação avançada de sites.
    • Exige que os proprietários de repositórios de dados da Vertex AI para Pesquisa verifiquem os domínios a que os sites incluídos pertencem. Para mais informações, consulte Verificar domínios de sites.
    • Oferece a capacidade de adicionar dados estruturados ao esquema do repositório de dados. Um site contém dados não estruturados, mas você pode adicionar dados estruturados na forma de tags meta, atributos PageMap e dados do schema.org às suas páginas da Web. Em seguida, use esses dados estruturados para editar o esquema do repositório de dados, conforme explicado em Usar dados estruturados para indexação avançada de sites.

A seguir

Para pesquisa de sites:

Dados estruturados

Um repositório de dados com dados estruturados permite a pesquisa semântica ou recomendações com dados estruturados. É possível importar dados do BigQuery ou do Cloud Storage. Também é possível fazer upload manual de dados JSON estruturados usando a API.

Por exemplo, ative pesquisa ou recomendações com um catálogo de produtos para sua experiência de e-commerce ou um diretório de médicos para pesquisar ou sugerir profissionais.

Os aplicativos de IA detectam automaticamente o esquema dos dados importados. Se quiser, você pode fornecer um esquema para seus dados. Fornecer um esquema para seus dados geralmente melhora a qualidade dos resultados.

A seguir

Para pesquisa personalizada:

Para recomendações personalizadas:

Dados estruturados para mídia

Os apps de mídia só podem ser conectados a repositórios de dados de mídia. Os repositórios de dados de mídia são repositórios de dados estruturados com um esquema definido pelo Google ou com seu próprio esquema personalizado que contém um conjunto específico de cinco campos relacionados à mídia. Para mais informações sobre o esquema, consulte Sobre documentos de mídia e repositórios de dados.

Por exemplo, é possível ativar as recomendações criando um app de recomendações de mídia para um catálogo de filmes ou um site de notícias. Assim, os usuários recebem sugestões adequadas e personalizadas.

Além dos documentos de mídia, os repositórios de dados de mídia também contêm as informações de eventos do usuário que permitem que a Vertex AI para Pesquisa personalize recomendações e pesquisas para seus usuários. Os eventos do usuário são necessários para apps de mídia. Para informações sobre eventos do usuário, consulte Registrar eventos do usuário em tempo real.

A seguir

Dados não estruturados

Um repositório de dados não estruturados permite a pesquisa semântica em dados como documentos e imagens.

Os repositórios de dados não estruturados aceitam documentos em HTML, PDF com texto incorporado e formato TXT. Os formatos PPTX e DOCX estão disponíveis na prévia.

A Pesquisa fornece resultados na forma de 10 URLs e respostas resumidas para consultas em linguagem natural. Os documentos precisam ser enviados para um bucket do Cloud Storage com as permissões de acesso adequadas. Por exemplo, uma instituição financeira pode ativar a pesquisa no próprio corpus particular de publicações de pesquisa financeira, ou uma empresa de biotecnologia pode ativar a pesquisa ou as recomendações no próprio repositório particular de pesquisa médica.

A seguir

Para a pesquisa:

Dados de FHIR saúde

Um app de pesquisa de saúde usa dados FHIR R4 importados de um armazenamento FHIR da API Cloud Healthcare. Para uma lista de recursos FHIR R4 compatíveis com a Vertex AI Search, consulte Referência do esquema de dados FHIR R4 do Healthcare. Um repositório de dados FHIR R4 precisa atender a alguns requisitos para ser usado como uma fonte de dados para o repositório de dados da Vertex AI para Pesquisa. Para mais informações, consulte como preparar dados de saúde do FHIR para ingestão.

A seguir

Sobre a pesquisa combinada

Você pode criar um app de pesquisa combinada, em que vários repositórios de dados podem ser conectados a um único app de pesquisa personalizada. Com esse recurso, é possível usar um app para pesquisar em várias fontes e tipos de dados.

Para criar um app de pesquisa combinada, selecione vários repositórios de dados ao criar um novo app de pesquisa personalizada. Se você não selecionar vários repositórios de dados durante a criação, não será possível adicionar outros depois.

Ao receber resultados da pesquisa, você pode pesquisar em todos os repositórios de dados ou filtrar os resultados de um único repositório de dados.

Considere as seguintes limitações:

  • Adicionar e remover repositórios de dados:
    • Para ativar a pesquisa combinada em um app, conecte pelo menos dois repositórios de dados a ele durante a criação.
    • É possível adicionar ou remover repositórios de dados de um app de pesquisa combinada, mas o app não pode ter menos de dois repositórios conectados a ele a qualquer momento.
    • Se você conectar um único repositório de dados a um app de pesquisa durante a criação do app, não será possível adicionar ou remover esse repositório.
  • Os repositórios de dados de sites precisam ter a indexação avançada de sites ativada para serem usados na pesquisa combinada. Para mais informações, consulte Indexação avançada de sites.
  • Não há suporte a repositórios de dados com dados não estruturados importados usando o BigQuery.
  • A pesquisa combinada permite os seguintes campos em solicitações de pesquisa:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • A pesquisa combinada permite os seguintes campos em dataStoreSpecs:
    • dataStore
    • boostSpec: se houver especificações de reforço para SearchRequest e dataStoreSpecs, ambas serão aplicadas aos resultados da pesquisa.
    • filter: se houver filtros especificados para SearchRequest e dataStoreSpecs, os dois serão aplicados aos resultados da pesquisa.
  • As operações de criação, leitura, atualização e exclusão (CRUD) em configurações de exibição são compatíveis com apps combinados. Somente os seguintes campos podem ser adicionados ou atualizados em uma configuração de veiculação:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig:
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • As operações CRUD nos seguintes controles são compatíveis com apps de pesquisa combinada:
    • boostAction
    • synonymAction
    • filterAction
  • Há um limite de 50 repositórios de dados por app de pesquisa.
  • Se um repositório de dados usar uma configuração de CMEK, todos os outros também precisarão usar a mesma configuração.