此页面由 Cloud Translation API 翻译。

将数据源与 Data Catalog 集成

Data Catalog 可以从多个 Google Cloud 数据源以及许多热门的本地数据源中导入和更新最新的元数据。

提取元数据后，Data Catalog 将执行以下操作：

使现有元数据可通过搜索发现。如需了解详情，请参阅如何搜索。
允许组织成员通过标记使用其他业务元数据来丰富数据。如需了解详情，请参阅标记和标记模板。

虽然与 Google Cloud 来源的集成会自动进行，但与组织使用的自定义本地来源集成时，您可以执行以下任一操作：

设置并运行由社区提供的相应连接器。
使用 Data Catalog API 获取自定义条目。

准备工作

如果您已经在使用 Data Catalog，则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法，请参阅在多个项目中使用标记模板。

如果这是您第一次与 Data Catalog 互动，请执行以下操作：

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Data Catalog API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Data Catalog API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

集成 Google Cloud 数据源

Analytics Hub

在 Analytics Hub 中订阅列表后，系统会在您的项目中创建一个关联的数据集。Data Catalog 会自动为该关联数据集及其包含的所有表生成元数据条目。如需详细了解关联的数据集和其他 Analytics Hub 功能，请参阅 Analytics Hub 简介。

在 Data Catalog 搜索中，关联的数据集会显示为标准 BigQuery 数据集，但您可以使用 type=dataset.linked 谓词对其进行过滤。如需了解详情，请参阅搜索数据资产。

BigQuery 和 Pub/Sub

如果您的组织已在使用 BigQuery 和 Pub/Sub，您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目，请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。

Bigtable

当您在 Bigtable 中存储数据时，以下 Bigtable 资源的元数据会自动同步到 Data Catalog：

实例
表，包括列族详细信息

如需有关使用 Data Catalog 进行数据发现和标记的指南，请参阅 Bigtable 文档中的使用 Data Catalog 管理数据资产。

Cloud SQL

Cloud SQL 不与 Data Catalog 集成，但与 Dataplex Catalog 集成。如需了解详情，请参阅将数据源与 Dataplex Catalog 集成。

Dataproc Metastore

如需与 Dataproc Metastore 集成，请为新服务或现有服务启用与 Data Catalog 的同步，如启用 Data Catalog 同步中所述。

敏感数据保护

此外，Data Catalog 还集成了敏感数据保护，可让您扫描特定 Google Cloud 资源中的敏感数据，并以标记的形式将结果发送回 Data Catalog。

如需了解详情，请参阅将敏感数据保护扫描结果发送到 Data Catalog。

Spanner

当您在 Spanner 中存储数据时，系统会将以下 Spanner 资源的元数据同步到 Data Catalog：

实例
数据库
包含列架构的表和视图

如需有关使用 Data Catalog 进行数据发现和标记的指南，请参阅使用 Data Catalog 管理数据资产。

Vertex AI

Vertex AI 会将以下资源的元数据同步到 Data Catalog：

集成本地数据源

如需集成本地数据源，您可以使用社区提供的相应 Python 连接器：

在下表中找到您的数据源。
打开其 GitHub 代码库。
按照 readme 文件中的设置说明进行操作。

类别	组件	说明	代码库
RDBMS	mysql-connector	MySQL 数据源的示例代码。	google-datacatalog-mysql-connector
	postgresql-connector	PostgreSQL 数据源的示例代码。	google-datacatalog-postgresql-connector
	sqlserver-connector	SQLServer 数据源的示例代码。	google-datacatalog-sqlserver-connector
	redshift-connector	Redshift 数据源的示例代码。	google-datacatalog-redshift-connector
	oracle-connector	Oracle 数据源的示例代码。	google-datacatalog-oracle-connector
	teradata-connector	Teradata 数据源的示例代码。	google-datacatalog-teradata-connector
	vertica-connector	Vertica 数据源的示例代码。	google-datacatalog-vertica-connector
	greenplum-connector	Greenplum 数据源的示例代码。	google-datacatalog-greenplum-connector
	rdbmscsv-connector	常规 RDBMS CSV 提取的示例代码。	google-datacatalog-rdbmscsv-connector
	saphana-connector	Sap Hana 数据源的示例代码。	google-datacatalog-saphana-connector
BI	looker-connector	Looker 数据源的示例代码。	google-datacatalog-looker-connector
	qlik-connector	Qlik Sense 数据源的示例代码。	google-datacatalog-qlik-connector
	tableau-connector	Tableau 数据源的示例代码。	google-datacatalog-tableau-connector
Hive	hive-connector	Hive 数据源的示例代码。	google-datacatalog-hive-connector
Hive	apache-atlas-connector	Apache Atlas 数据源的示例代码。	google-datacatalog-apache-atlas-connector

集成不支持的数据源

如果您找不到数据源的连接器，仍可以通过创建条目组和自定义条目来手动集成。为此，您可以：

使用以下某种语言使用 Data Catalog 客户端库：C#、Go、Java、Node.js、PHP、Python 或 Ruby。
或者手动基于 Data Catalog API 进行构建。

如需集成来源，请先了解条目和条目组，然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。

后续步骤

详细了解 Identity and Access Management。
了解如何搜索。
浏览标记表快速入门。