Neste documento, descrevemos como usar a pesquisa no Catálogo universal do Dataplex para encontrar recursos como conjuntos de dados do BigQuery, instâncias do Cloud SQL e outros.
O Dataplex Universal Catalog oferece dois modos de pesquisa: por palavra-chave e por linguagem natural (prévia).
Com a pesquisa por palavra-chave, você encontra recursos usando palavras-chave, filtros e uma sintaxe definida.
A pesquisa com linguagem natural estende a pesquisa de palavras-chave para oferecer suporte a consultas em linguagem natural. Ele permite encontrar recursos usando linguagem cotidiana, eliminando a necessidade de sintaxe complexa.
Para mais informações sobre os recursos do Google Cloud que são compatíveis com o Dataplex Universal Catalog, consulte Fontes Google Cloud compatíveis.
Escopo de pesquisa
Os resultados da pesquisa no Dataplex Universal Catalog respeitam as permissões que você tem sobre os recursos correspondentes nos sistemas de origem.
Por exemplo, se você tiver acesso de leitura de metadados do BigQuery a um objeto, ele vai aparecer nos resultados da pesquisa do Dataplex Universal Catalog. Se você tiver acesso a uma tabela do BigQuery, mas não ao conjunto de dados que contém essa tabela, ela ainda será exibida como esperado na pesquisa do catálogo universal do Dataplex.
Por padrão, a pesquisa é limitada à sua organização. Os resultados incluem apenas recursos da mesma organização do projeto em que você está pesquisando.
Os resultados da pesquisa incluem apenas os recursos que pertencem ao mesmo perímetro do VPC-SC que o projeto em que a pesquisa é realizada. Ao usar o console do Google Cloud , esse é o projeto selecionado no console.
Para ampliar o escopo dos resultados da pesquisa além dos recursos no perímetro do VPC Service Controls do projeto, use as regras de entrada e saída do VPC Service Controls. Essas regras facilitam a troca de dados particular e eficiente em toda a sua organização. É possível configurar regras de entrada e saída usando o consoleGoogle Cloud ou arquivos JSON ou YAML. Consulte o exemplo de YAML a seguir e a documentação do VPC Service Controls para adaptar a regra aos seus requisitos específicos.
egressPolicies:
- egressFrom:
identityType: ANY_USER_ACCOUNT
egressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids under which the search is performed.
resources:
- projects/SEARCH_PROJECT_ID
ingressPolicies:
- ingressFrom:
identityType: ANY_USER_ACCOUNT
sources:
- accessLevel: '*'
ingressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids to expose in search results.
resources:
- projects/INGRESS_PROJECT_ID
Para mais informações sobre os papéis do Identity and Access Management necessários para usar a pesquisa do Dataplex Universal Catalog, consulte Papéis do IAM do Dataplex Universal Catalog.
Isolar resultados da pesquisa por ambiente usando o VPC Service Controls
Para isolar os resultados da pesquisa do Catálogo Universal do Dataplex entre ambientes como desenvolvimento, teste e produção, configure perímetros separados do VPC Service Controls para cada ambiente. Atribua os projetos que contêm os recursos de dados e os projetos usados para realizar pesquisas ao perímetro do ambiente correspondente. As pesquisas realizadas em um projeto dentro de um perímetro específico só retornam resultados de recursos que também estão localizados nesse mesmo perímetro.
Limitações de recall na pesquisa
As consultas de pesquisa do Dataplex Universal Catalog não garantem o recall total. É possível que os resultados correspondentes à consulta não sejam retornados. Além disso, os resultados retornados (e não retornados) podem variar se você repetir as consultas de pesquisa.
Para consultar todos os metadados do Dataplex Universal Catalog, exporte-os para o Cloud Storage e faça consultas no BigQuery. Para mais informações, consulte Exportar metadados.
Filtros
Os filtros permitem restringir os resultados da pesquisa. Os filtros estão disponíveis na pesquisa por palavra-chave e por linguagem natural, mas as opções podem variar um pouco dependendo do modo.
Quando você fornece filtros em várias seções, eles são avaliados usando o operador lógico AND
. Os resultados da pesquisa contêm recursos que correspondem a pelo menos uma condição de cada seção selecionada. Por exemplo, se você selecionar o sistema BigQuery e o tipo de recurso do conjunto de dados, os resultados da pesquisa vão incluir conjuntos de dados do BigQuery, mas não da Vertex AI.
Se você selecionar vários filtros em uma única seção, eles serão avaliados usando o operador lógico OR
. Por exemplo, se você selecionar o tipo de recurso "conjunto de dados" e o tipo de recurso "tabela", os resultados da pesquisa vão incluir conjuntos de dados e tabelas.
Filtros de pesquisa por palavra-chave
Na pesquisa de palavras-chave, os filtros são agrupados nas seguintes seções:
- Sistemas como BigQuery, Cloud SQL e outros. O sistema do Dataplex Universal Catalog contém entradas personalizadas.
- A lista Aspectos (tags) mostra todos os aspectos disponíveis para você.
- Projeto lista todos os projetos disponíveis para você.
- Os aliases de tipo descrevem tipos de recursos, como bancos de dados, conjuntos de dados, modelos, tabelas, visualizações, serviços e tipos personalizados.
- Os conjuntos de dados são provenientes do BigQuery.
Filtrar por valor de aspecto
Com os filtros de Aspectos, é possível consultar recursos marcados com um modelo específico. Use o menu Personalizar para refinar ainda mais os resultados e filtrar por valores de aspectos específicos. As condições de filtro de valor de aspecto dependem do tipo de dados do campo de aspecto. Por exemplo, nos campos datetime
e number
, é possível especificar uma data ou um período.
Visibilidade do filtro
Os filtros Sistemas, Aliases de tipo, Projeto e Conjuntos de dados são mostrados dependendo da consulta atual no campo Pesquisar.
Filtros de pesquisa com linguagem natural
Para a pesquisa em linguagem natural, os seguintes filtros estão disponíveis:
- Escopo: pesquise em toda a organização (padrão), no projeto atual ou apenas nos recursos marcados com estrela. Para mais informações, consulte a seção Escopo da pesquisa deste documento.
- Sistemas: o serviço Google Cloud a que o recurso pertence, como o BigQuery. O sistema do Dataplex Universal Catalog contém grupos de entrada.
- Projetos: os projetos em que pesquisar.
- Tipo: o tipo de recurso, como conexão do BigQuery, bucket do Cloud Storage ou banco de dados. Dependendo do tipo de recurso, também é possível filtrar por subtipo, como tipo de conexão ou dialeto SQL.
- Selecionar locais: os locais em que pesquisar.
- Selecionar conjuntos de dados: os resultados da pesquisa são limitados aos recursos do BigQuery que pertencem aos conjuntos de dados selecionados. No campo Digite para filtrar, insira o nome do conjunto de dados.
- Tipos de aspecto: os tipos de aspecto do Dataplex Universal Catalog associados ao recurso que você está procurando. Para filtrar por valores de aspecto, clique em Filtrar por valores de anotação e selecione os valores.
Antes de começar
Antes de fazer a pesquisa, verifique se você tem os papéis necessários e ativou a API necessária.
Funções exigidas
Nesta seção, descrevemos os papéis e as permissões necessários para pesquisar recursos e acessar os resultados da pesquisa.
Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Funções necessárias para pesquisar entradas
Para pesquisar entradas, você precisa de pelo menos uma das seguintes funções do IAM no projeto usado para pesquisa: administrador do Dataplex Catalog, editor do Dataplex Catalog ou leitor do Dataplex Catalog. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado.
Papéis necessários para acessar os resultados da pesquisa
Os resultados da pesquisa no Dataplex Universal Catalog são definidos de acordo com sua função. Para pesquisar um recurso no Dataplex Universal Catalog, você precisa ter permissões de acesso ao recurso correspondente no sistema de origem. Para mais informações, consulte a seção Escopo da pesquisa deste documento.
Por exemplo, para pesquisar conjuntos de dados, tabelas, visualizações e modelos do BigQuery, você precisa ter as permissões correspondentes para essas entradas. Para mais informações, consulte permissões do BigQuery.
A lista a seguir descreve as permissões mínimas necessárias:
- Para pesquisar uma tabela, você precisa da permissão
bigquery.tables.get
para ela. - Para pesquisar um conjunto de dados, você precisa da permissão
bigquery.datasets.get
para ele. - Para pesquisar metadados de um conjunto de dados ou uma tabela, você precisa do papel de leitor de metadados do BigQuery (
roles/bigquery.metadataViewer
).
Por exemplo, para pesquisar instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL, você precisa das permissões correspondentes nessas entradas. Para mais informações, consulte Papéis e permissões do Cloud SQL.
Para pesquisar entradas personalizadas, você precisa do papel de Leitor do Dataplex Catalog
(roles/dataplex.catalogViewer
).
Ativar a API
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
Pesquisar recursos
Console
Para pesquisar recursos, siga estas etapas:
No console Google Cloud , acesse a página Pesquisa do Universal Catalog do Dataplex.
Em Escolher plataforma de pesquisa, selecione Catálogo Universal do Dataplex.
Ao selecionar Dataplex Universal Catalog, você pode pesquisar o armazenamento de metadados do Dataplex Universal Catalog. Ao selecionar Data Catalog, você pode pesquisar no repositório do Data Catalog, se já for um usuário.
Para usar a pesquisa por palavra-chave, siga estas etapas:
No campo Encontrar recursos em todos os projetos, insira sua consulta.
Para refinar a pesquisa, use o painel Filtros. Para ver a lista de filtros disponíveis, consulte Filtros de pesquisa por palavra-chave.
É possível adicionar manualmente os seguintes filtros:
- Adicione um filtro de projeto: em Projeto, clique em Adicionar projeto. Procure um projeto específico, selecione-o e clique em Abrir.
- Adicione um filtro de tipo de aspecto: em Aspectos, clique no menu Adicionar mais tipos de aspecto. Procure um modelo específico, selecione-o e clique em OK.
Opcional: além dos recursos disponíveis para você, é possível pesquisar recursos disponíveis publicamente em Google Cloud selecionando Incluir conjuntos de dados públicos.
Use as dicas a seguir para criar uma consulta de pesquisa:
- Insira sua expressão de pesquisa entre aspas se ela contiver espaços. Por exemplo,
"search terms"
. - Preceda uma palavra-chave com
NOT
para corresponder à negação lógica do filtrokeyword:term
. Você também pode usar os operadores booleanosAND
eOR
para combinar expressões de pesquisa. Os operadoresAND
,OR
eNOT
não diferenciam maiúsculas de minúsculas.
Por exemplo,
NOT column:term
lista todas as colunas, exceto aquelas que correspondem ao termo especificado. Para uma lista de palavras-chave e outros termos que você pode usar em uma expressão de pesquisa do Dataplex Universal Catalog, consulte Sintaxe de pesquisa.- Insira sua expressão de pesquisa entre aspas se ela contiver espaços. Por exemplo,
Para usar a pesquisa em linguagem natural, siga estas etapas:
Clique em Testar a pesquisa em linguagem natural.
No campo Encontrar recursos em todos os projetos com linguagem natural, insira sua consulta em linguagem natural e pressione Enter.
Confira alguns exemplos de consultas:
Show me the datasets that contain taxi information
Find data on vaccine distribution across different countries
Get tables with historical temperature data for major world cities
Search for hurricane tracking and storm activity datasets
Population data by country
Para refinar a pesquisa, clique em Filtros. Para ver a lista de filtros disponíveis, consulte Filtros de pesquisa em linguagem natural.
Para ver mais informações sobre o recurso pesquisado, clique no nome dele nos resultados da pesquisa. A página de detalhes da entrada será aberta.
gcloud
Para pesquisar recursos, use o
comando gcloud dataplex entries search
.
REST
Para pesquisar recursos, use o
método searchEntries
.
Ver detalhes de uma entrada
Console
Use a pesquisa do Dataplex Universal Catalog para conferir os detalhes de uma entrada.
Pesquise uma entrada no Dataplex Universal Catalog.
Nos resultados da pesquisa, clique na entrada para ver os detalhes.
A página de detalhes da entrada é aberta. A página inclui as seguintes seções:
- Detalhes da entrada: inclui informações como tipo de entrada, sistema, plataforma, nome completo, hora de criação, hora da última modificação, descrição e administradores.
- Visão geral: uma visão geral da entrada, se disponível.
- Aspectos: os aspectos obrigatórios e opcionais definidos para a entrada. Para mais informações, consulte Categorias de aspectos.
gcloud
Para conferir os detalhes de uma entrada, use o
comando gcloud dataplex entries lookup
.
REST
Para conferir os detalhes de uma entrada, use o
método lookupEntry
.
Limitações
Confira a seguir as limitações da pesquisa em linguagem natural:
A pesquisa com linguagem natural é otimizada para descoberta e exploração, retornando um conjunto limitado dos resultados mais relevantes. Ela pode não fornecer uma lista exaustiva de todos os itens correspondentes e, portanto, não ser adequada para cargas de trabalho que dependem disso, como pipelines de curadoria.
A pesquisa de linguagem natural considera apenas os metadados de recursos, incluindo esquemas, descrições e aspectos. Ela não responde a perguntas sobre os dados nas tabelas (por exemplo, "Quais foram as vendas do mês passado?") nem executa consultas analíticas nos metadados (por exemplo, "Quantas tabelas há no conjunto de dados X?").
Os recursos públicos estão fora do escopo da pesquisa com linguagem natural.
A seguir
- Entenda a sintaxe de pesquisa do Dataplex Universal Catalog.
- Saiba mais sobre o gerenciamento de metadados no Dataplex Universal Catalog.
- Saiba como enriquecer entradas com metadados usando aspectos.
- Saiba como gerenciar entradas e ingerir fontes personalizadas.