O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud, além de diversas no local.
Com os metadados ingeridos, o Data Catalog faz o seguinte:
- Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
- Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.
Embora a integração com origens do Google Cloud seja automática, se integrar a fontes locais personalizadas usadas pela organização, escolha uma destas opções:
- Configure e execute os conectores contribuídos pela comunidade.
- Use a API Data Catalog para entradas personalizadas.
Antes de começar
Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.
Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Data Catalog API.
Integrar as fontes de dados do Google Cloud
Analytics Hub
Quando você faz a inscrição em uma página de detalhes no Analytics Hub, um conjunto de dados vinculado é criada em seu projeto. Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contido nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.
Na pesquisa do Data Catalog, os conjuntos de dados vinculados são exibidos como
conjuntos de dados padrão do BigQuery, mas é possível filtrá-los usando
o predicado type=dataset.linked
. Para mais detalhes,
consulte Pesquisar recursos de dados.
BigQuery e Pub/Sub
Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.
Bigtable
Quando você armazena dados no Bigtable, os metadados são automaticamente sincronizados para Data Catalog para o seguinte Bigtable recursos:
- Instâncias
- Tabelas, incluindo detalhes do grupo de colunas
Para orientações sobre como usar o Data Catalog para descoberta de dados e consulte Gerenciar recursos de dados usando Data Catalog, no na documentação do Bigtable.
Cloud SQL
O Cloud SQL não se integra ao Data Catalog, mas se integrar ao catálogo do Dataplex. Para mais informações, consulte Integre suas fontes de dados com o Dataplex Catalog.
Dataproc Metastore
Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.
Proteção de dados sensíveis
Além disso, o Data Catalog se integra à Proteção de Dados Sensíveis que permite verificar recursos específicos do Google Cloud em busca de dados sensíveis e enviar os resultados de volta para o Data Catalog na forma de tags.
Para mais informações, consulte Como enviar resultados da verificação da proteção de dados sensíveis para o Data Catalog.
Spanner
Quando você armazena dados no Spanner, os metadados para o seguinte Spanner recursos são sincronizados com o Data Catalog:
- Instâncias
- Bancos de dados
- Tabelas e visualizações com esquema de colunas
Para orientações sobre como usar o Data Catalog para descoberta de dados e consulte Gerenciar recursos de dados usando Data Catalog.
Vertex AI
A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:
- Modelos do Model Registry
- Conjuntos de dados
- Instâncias de armazenamento on-line
- Visualizações de atributos
- Grupos de recursos
Integrar fontes de dados locais
Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:
- Encontre sua fonte de dados na tabela a seguir.
- Abra o repositório do GitHub dele.
- Siga as instruções de configuração no arquivo readme.
Categoria | Componente | Descrição | Repositório |
---|---|---|---|
RDBMS | mysql-connector | Exemplo de código para fonte de dados MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Exemplo de código da fonte de dados do PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de amostra da fonte de dados do SQLServer. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de amostra da fonte de dados do Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de amostra para fonte de dados Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de amostra da fonte de dados do Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Exemplo de código para a fonte de dados Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de amostra para a fonte de dados do Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de amostra para ingestão de CSV genérica RDBMS. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de amostra da fonte de dados Sap Hana. | google-datacatalog-saphana-connector | |
BI | looker-connector | Exemplo de código para fonte de dados do Looker. | google-datacatalog-looker-connector |
qlik-connector | Exemplo de código para a fonte de dados Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Exemplo de código da fonte de dados do Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Exemplo de código para a fonte de dados do Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Exemplo de código para fonte de dados do Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integrar fontes de dados não compatíveis
Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:
- Use uma das bibliotecas de cliente do Data Catalog em uma das seguintes linguagens: C#, Go, Java, Node.js, PHP, Python ou Ruby.
- Ou crie manualmente com base API Data Catalog.
Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.
A seguir
- Saiba mais sobre o gerenciamento de identidade e acesso.
- Saiba como pesquisar.
- Consulte o guia de início rápido Como incluir tags de tabela.