Dataplex 概览

Dataplex 是一种智能的数据结构脉络,可统一分布式数据并自动执行数据管理和治理。借助 Dataplex,您可以使用 AI 简化数据查询、质量保证和业务数据洞见。

Dataplex 可大规模执行治理。例如,一家全球零售公司生成大量销售、库存和客户数据,并将其存储在 Cloud Storage、Spanner 和 Pub/Sub 中。由于数据分布在各个系统中,因此管理治理、确保质量和保持合规性既复杂又耗时。Dataplex 通过提供一个集中视图来简化此流程,以便发现、分析、验证、跟踪数据传承情况以及控制对组织数据资产的访问权限。

为何使用 Dataplex?

Dataplex 通过以下功能治理数据:

  • 元数据编目。检索 Google Cloud 资源(在 BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 中)和您引入 Dataplex 的第三方资源的元数据,以便获取数据资产的快照。
  • 数据发现。扫描 Cloud Storage 存储桶中的结构化数据和非结构化数据,以提取元数据和编制元数据目录。
  • 数据分析洞见、使用 AI 生成有关数据的自然语言问题,以发现模式、评估数据质量和执行统计分析。
  • 数据分析。识别 BigQuery 表中列数据的常见特征,例如典型数据值、数据分布和空值计数,这些特征可用于数据分类和质量保证。
  • 数据质量。通过根据组织政策验证数据并在数据不符合质量标准时记录提醒,定义和衡量 BigQuery 表中数据的质量。
  • 业务术语表。管理贵组织中与业务相关的术语和定义,并将术语附加到表格列,以促进对数据使用情况的一致理解。
  • 数据沿袭。跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。

Dataplex 支持端到端数据生命周期,从分布式发现到业务洞察。您还可以通过 BigQuery 使用治理功能。

后续步骤