将数据源与 Data Catalog 集成

Data Catalog 可以从多个 Google Cloud 数据源以及许多热门的本地数据源中导入和更新最新的元数据。

提取元数据后,Data Catalog 将执行以下操作:

  • 使现有元数据可通过搜索发现。如需了解详情,请参阅如何搜索
  • 允许组织成员通过标记使用其他业务元数据来丰富数据。如需了解详情,请参阅标记和标记模板

虽然与 Google Cloud 来源的集成会自动进行,但与组织使用的自定义本地来源集成时,您可以执行以下任一操作:

准备工作

如果您已经在使用 Data Catalog,则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法,请参阅在多个项目中使用标记模板

如果这是您第一次与 Data Catalog 互动,请执行以下操作:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog API.

    Enable the API

集成 Google Cloud 数据源

Analytics Hub

在 Analytics Hub 中订阅列表后,系统会在您的项目中创建一个关联的数据集。Data Catalog 会自动为该关联数据集及其包含的所有表生成元数据条目。如需详细了解关联的数据集和其他 Analytics Hub 功能,请参阅 Analytics Hub 简介

在 Data Catalog 搜索中,关联的数据集会显示为标准 BigQuery 数据集,但您可以使用 type=dataset.linked 谓词对其进行过滤。如需了解详情,请参阅搜索数据资产

BigQuery 和 Pub/Sub

如果您的组织已在使用 BigQuery 和 Pub/Sub,您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目,请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。

Bigtable

当您在 Bigtable 中存储数据时,以下 Bigtable 资源的元数据会自动同步到 Data Catalog:

  • 实例
  • 表,包括列族详细信息

如需有关使用 Data Catalog 进行数据发现和标记的指南,请参阅 Bigtable 文档中的使用 Data Catalog 管理数据资产

Cloud SQL

Cloud SQL 不与 Data Catalog 集成,但与 Dataplex Catalog 集成。如需了解详情,请参阅将数据源与 Dataplex Catalog 集成

Dataproc Metastore

如需与 Dataproc Metastore 集成,请为新服务或现有服务启用与 Data Catalog 的同步,如启用 Data Catalog 同步中所述。

敏感数据保护

此外,Data Catalog 还集成了敏感数据保护,可让您扫描特定 Google Cloud 资源中的敏感数据,并以标记的形式将结果发送回 Data Catalog。

如需了解详情,请参阅将敏感数据保护扫描结果发送到 Data Catalog

Spanner

当您在 Spanner 中存储数据时,系统会将以下 Spanner 资源的元数据同步到 Data Catalog:

  • 实例
  • 数据库
  • 包含列架构的表和视图

如需有关使用 Data Catalog 进行数据发现和标记的指南,请参阅使用 Data Catalog 管理数据资产

Vertex AI

Vertex AI 会将以下资源的元数据同步到 Data Catalog:

集成本地数据源

如需集成本地数据源,您可以使用社区提供的相应 Python 连接器:

  1. 在下表中找到您的数据源。
  2. 打开其 GitHub 代码库。
  3. 按照 readme 文件中的设置说明进行操作。
类别 组件 说明 代码库
RDBMS mysql-connector MySQL 数据源的示例代码。 google-datacatalog-mysql-connector
postgresql-connector PostgreSQL 数据源的示例代码。 google-datacatalog-postgresql-connector
sqlserver-connector SQLServer 数据源的示例代码。 google-datacatalog-sqlserver-connector
redshift-connector Redshift 数据源的示例代码。 google-datacatalog-redshift-connector
oracle-connector Oracle 数据源的示例代码。 google-datacatalog-oracle-connector
teradata-connector Teradata 数据源的示例代码。 google-datacatalog-teradata-connector
vertica-connector Vertica 数据源的示例代码。 google-datacatalog-vertica-connector
greenplum-connector Greenplum 数据源的示例代码。 google-datacatalog-greenplum-connector
rdbmscsv-connector 常规 RDBMS CSV 提取的示例代码。 google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana 数据源的示例代码。 google-datacatalog-saphana-connector
BI looker-connector Looker 数据源的示例代码。 google-datacatalog-looker-connector
qlik-connector Qlik Sense 数据源的示例代码。 google-datacatalog-qlik-connector
tableau-connector Tableau 数据源的示例代码。 google-datacatalog-tableau-connector
Hive hive-connector Hive 数据源的示例代码。 google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas 数据源的示例代码。 google-datacatalog-apache-atlas-connector

集成不支持的数据源

如果您找不到数据源的连接器,仍可以通过创建条目组和自定义条目来手动集成。为此,您可以:

如需集成来源,请先了解条目和条目组,然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。

后续步骤