BigQuery 中的数据治理简介
BigQuery 具有内置的治理功能,可简化您发现、管理、监控、治理和使用数据和 AI 资产的方式。
管理员、数据管理员、数据治理管理员和数据保管员可以使用 BigQuery 中的治理功能执行以下操作:
- 发现数据。
- 管护数据。
- 收集和丰富元数据。
- 管理数据质量。
- 确保数据的使用始终一致且符合组织政策。
- 以安全的方式大规模共享数据。
BigQuery 治理功能由 Dataplex Universal Catalog 提供支持,后者是贵组织中所有数据资产的集中式目录。Dataplex 通用目录存储所有数据的业务元数据、技术元数据和运营元数据。它通过应用人工智能和机器学习,帮助发现元数据中的关系和语义。
借助 BigLake 元数据存储,您可以使用多个数据处理引擎来查询具有单个架构的单个数据副本,而不会出现数据重复。您可以使用的数据处理引擎包括 BigQuery、Apache Spark、Apache Flink 和 Apache Hive。您的数据可以存储在 BigQuery 存储表、BigQuery 中的 Apache Iceberg BigLake 表或 BigLake 外部表等位置。
BigQuery 支持端到端数据生命周期,从发现数据到使用数据。Dataplex Universal Catalog 中还提供治理功能。
数据发现
BigQuery 会在整个组织中发现数据 Google Cloud,无论数据位于 BigQuery、Spanner、Cloud SQL、Pub/Sub 还是 Cloud Storage 中。元数据会自动提取并存储在 Dataplex Universal Catalog 中。例如,您可以从 Cloud Storage 中提取结构化数据和非结构化数据的元数据,并自动大规模创建可供查询的 BigLake 表。这样一来,您就可以使用开源引擎执行分析,而不会出现数据重复。
您还可以使用自定义连接器从第三方数据源提取元数据并对其进行编目。
BigQuery 提供以下数据发现功能:
- 搜索。跨项目和组织搜索数据和 AI 资源。在 Google Cloud 控制台中的 BigQuery 中,使用语义搜索(预览版)以日常语言搜索资源。或者,在 Dataplex Universal Catalog 中使用关键字搜索查找资源。
- 自动发现 Cloud Storage 数据。扫描 Cloud Storage 存储桶中的数据,以提取元数据并将其编入目录。自动发现功能会为结构化数据和非结构化数据创建表。
- 元数据导入。 将元数据从第三方系统大规模导入 Dataplex Universal Catalog。您可以构建自定义连接器,以从数据源提取数据,然后运行托管式连接流水线,以协调元数据导入工作流。
- 元数据导出。 从 Dataplex Universal Catalog 中大规模导出元数据。您可以使用 BigQuery 分析导出元数据,也可以将元数据集成到自定义应用或程序化处理工作流中。
整理和数据管理
为了提高数据的可发现性和可用性,数据管理员和管理员可以使用 BigQuery 来查看、更新和分析元数据。BigQuery 数据整理和管理功能可帮助您确保数据准确、一致且符合贵组织的政策。
BigQuery 提供以下数据整理和管理功能:
- 业务术语表(预览版)。在术语表中定义贵组织的术语,以便改进上下文、协作和搜索。为这些术语确定数据管理员,并将术语附加到数据资产字段。
- 数据分析。 Gemini 会使用元数据生成关于表格的自然语言问题,并生成 SQL 查询来回答这些问题。这些数据洞见可帮助您发现模式、评估数据质量和执行统计分析。
- 数据分析。识别 BigQuery 表中列的常见统计特征,以便更有效地了解和分析数据。
- 数据质量。跨 BigQuery 和 Cloud Storage 中的表定义和运行数据质量检查,并在 BigQuery 环境中应用常规和持续的数据控制。
- 数据沿袭。 跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。BigQuery 支持表级和列级的数据沿革记录。
针对整理和数据监管的后续步骤
下表概述了您可以执行的后续步骤,以详细了解整理和数据监管功能:
经验等级 | 学习路线 |
---|---|
新的云用户 |
|
经验丰富的云用户 |
安全性和访问权限控制
数据访问管理是定义、强制执行和监控用于管理谁有权访问数据的规则和政策的过程。访问权限管理可确保只有获得授权的用户才能访问数据。
BigQuery 提供以下安全和访问权限控制功能:
- Identity and Access Management (IAM)。 借助 IAM,您可以控制哪些人有权访问您的 BigQuery 资源,例如项目、数据集、表和视图。您可以向用户、群组和服务账号授予 IAM 角色。这些角色定义了他们可以对您的资源执行的操作。
- 列级访问权限控制和行级访问权限控制。通过列级和行级访问权限控制,您可以根据用户属性或数据值来限制对表中特定列和行的访问。此控件让您可实施精细的访问,以帮助保护敏感数据免遭未经授权的访问。
- 数据传输管理。 借助 VPC Service Controls,您可以围绕 Google Cloud资源创建边界,并根据组织的政策控制对这些资源的访问。
- 审核日志。审核日志会详细记录组织中的用户活动和系统事件。这些日志可帮助您强制执行数据治理政策并识别潜在的安全风险。
- 数据遮盖。 借助数据遮盖功能,您可以遮盖表中的敏感数据,同时仍允许授权用户访问周围的数据。数据屏蔽还可以隐藏与敏感数据模式匹配的数据,以防止意外泄露数据。
- 加密。BigQuery 自动加密所有静态数据和传输中数据,同时允许您自定义加密设置,以满足您的特定要求。
针对安全和访问权限控制的后续步骤
下表概述了您可以执行的后续步骤,以详细了解访问权限控制功能:
经验等级 | 学习路线 |
---|---|
新的云用户 | |
经验丰富的云用户 |
|
共享数据和数据分析
借助 BigQuery,您可以在组织内部和跨组织大规模共享数据和数据洞见。它通过内置的数据交换平台提供强大的安全和隐私保护框架。借助 BigQuery Sharing,您可以发现、访问和使用由各种数据提供商精选的数据库。
BigQuery 提供以下共享功能:
- 分享的数据不止于数据。您可以共享各种数据和 AI 资产,例如 BigQuery 数据集、表、视图、带有 Pub/Sub 主题的实时数据流、SQL 存储过程和 BigQuery ML 模型。
- 访问 Google 数据集。利用来自搜索趋势、DeepMind WeatherNext 模型、Google Maps Platform、Google Earth Engine 等的 Google 数据集,增强您的分析和机器学习计划。
- 与数据治理原则集成。数据所有者可以继续控制自己的数据,并能够定义和配置规则或政策来限制访问和使用。
- 实时零拷贝数据共享。数据无需集成、数据移动或复制即可共享,从而确保分析基于最新信息。创建的关联数据集是指向共享素材资源的实时指针。
- 增强安全状况。您可以使用访问权限控制来减少过度配置访问权限,包括内置的 VPC Service Controls 支持。
- 通过提供方用量指标提高可见度。数据发布方可以查看和监控共享资源的使用情况,例如每个组织的执行作业数、扫描的总字节数和订阅方数。
- 使用数据净室协作处理敏感数据。数据净室提供安全增强型环境,在该环境中,多方可以共享、联接和分析其数据资产,而无需移动或呈现底层数据。
- 基于 BigQuery 构建。您可以利用 BigQuery 的可扩展性和大规模处理能力,实现大规模协作。
Sharing 的后续步骤
下表概述了您可以执行的后续步骤,以详细了解 Sharing 功能:
经验等级 | 学习路线 |
---|---|
新的云用户 | |
经验丰富的云用户 |
|
后续步骤
- 了解如何在 Google 进行身份验证。
- 了解在 Google Cloud上删除数据。
- 详细了解 IAM 最佳做法。
- 了解 Google Cloud上的资源层次结构。
- 了解 Google Cloud上的 IAM。