BigQuery 中的数据治理简介

BigQuery 内置了治理功能,可简化数据和 AI 资产的发现、管理、监控、治理和使用方式。

管理员、数据管理员、数据治理管理员和数据保管员可以使用 BigQuery 中的治理功能执行以下操作:

  • 发现数据。
  • 管理数据。
  • 收集和丰富元数据。
  • 管理数据质量。
  • 确保数据的使用符合组织政策,并保持一致。
  • 安全地大规模共享数据。

BigQuery 治理功能的核心是通用目录,它是贵组织中所有数据资产的集中目录。通用目录包含所有数据的业务、技术和运行时元数据。它可应用人工智能和机器学习技术,帮助您发现元数据中的关联和语义。

通用目录将数据目录和全代管式运行时元数据存储库整合到一起。借助 BigQuery 中的元存储库,您可以使用多个数据处理引擎查询具有单一架构的单个数据副本,而不会出现数据复制。您可以使用的数据处理引擎包括 BigQuery、Apache Spark、Apache Flink 和 Apache Hive。您的数据可以存储在 BigQuery 存储表、适用于 Apache Iceberg 的 BigQuery 表或 BigLake 外部表等位置。

BigQuery 支持端到端数据生命周期,从数据发现到数据使用。通用目录为 BigQuery 治理功能提供支持。Dataplex 中还提供治理功能。

数据发现

BigQuery 会在 Google Cloud中发现组织中的所有数据,无论这些数据位于 BigQuery、Spanner、Cloud SQL、Pub/Sub 还是 Cloud Storage 中。BigQuery 会自动提取元数据并将其存储在通用目录中。例如,您可以使用 BigQuery 从 Cloud Storage 中提取结构化和非结构化数据的元数据,并自动大规模创建可供查询的 BigLake 表。这样,您就可以使用开源引擎执行分析,而不会出现数据重复。

您还可以使用自定义连接器从第三方数据源提取和编目元数据。

BigQuery 提供以下数据发现功能:

  • 搜索在 Google Cloud 控制台中使用 BigQuery 搜索各个项目中的数据和 AI 资源。BigQuery 支持语义搜索来发现数据,让您可以使用自然语言查询进行搜索。
  • 自动发现 Cloud Storage 数据扫描 Cloud Storage 存储分区中的数据,以提取元数据并将其编入目录。自动发现功能会为结构化数据和非结构化数据创建表。
  • 元数据导入将元数据从第三方系统大规模导入到通用目录。您可以构建自定义连接器以从数据源中提取数据,然后运行托管的连接流水线来协调元数据导入工作流。

策展和数据管理

为了提高数据的可发现性和易用性,数据管理员和管理员可以使用 BigQuery 来查看、更新和分析元数据。BigQuery 的数据管理和管理功能可帮助您确保数据准确、一致且符合贵组织的政策。

BigQuery 提供以下数据管理和治理功能:

  • 业务术语表预览版)。在术语表中定义贵组织的术语,以便改善上下文、协作和搜索体验。为这些术语确定数据管理员,并将术语附加到数据资产字段。
  • 数据分析 Gemini 会使用元数据生成有关表格的自然语言问题,并回答这些问题所对应的 SQL 查询。这些数据分析洞见可帮助您发现模式、评估数据质量和执行统计分析。
  • 数据分析识别 BigQuery 表中列的常见统计特征,以更有效地了解和分析数据。
  • 数据质量跨 BigQuery 和 Cloud Storage 中的表定义和运行数据质量检查,并在 BigQuery 环境中应用定期和持续的数据控制。
  • 数据沿袭跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。BigQuery 支持表级和列级的数据谱系。

关于策展和数据管理的后续步骤

下表概述了您可以执行的后续步骤,以详细了解内容管理和数据监管功能:

经验等级 学习路线
新的云用户
  • 运行数据分析扫描,以深入了解您的数据,包括数据的限制或平均值。
经验丰富的云用户

安全性和访问权限控制

数据访问管理是定义、强制执行和监控用于管理谁有权访问数据的规则和政策的过程。访问权限管理可确保只有获得授权的用户才能访问数据。

BigQuery 提供以下安全和访问控制功能:

  • Identity and Access Management (IAM)借助 IAM,您可以控制哪些人有权访问您的 BigQuery 资源,例如项目、数据集、表和视图。您可以向用户、群组和服务账号授予 IAM 角色。这些角色定义了他们可以对您的资源执行的操作。
  • 列级访问权限控制行级访问权限控制通过列级和行级访问权限控制,您可以根据用户属性或数据值来限制对表中特定列和行的访问。此控件让您可实施精细的访问,以帮助保护敏感数据免遭未经授权的访问。
  • 数据传输管理 借助 VPC Service Controls,您可以围绕 Google Cloud资源创建边界,并根据组织的政策控制对这些资源的访问。
  • 审核日志审核日志会详细记录组织中的用户活动和系统事件。这些日志可帮助您强制执行数据治理政策并识别潜在的安全风险。
  • 数据脱敏借助数据遮盖功能,您可以遮盖表中的敏感数据,同时仍允许授权用户访问周围的数据。数据脱敏还可以隐去与敏感数据模式匹配的数据,以防止意外泄露数据。
  • 加密BigQuery 会自动加密静态数据和传输中的数据,同时允许您自定义加密设置,以满足您的特定要求。

安全和访问权限控制的后续步骤

下表概述了您可以执行的后续步骤,以详细了解访问权限控制功能:

经验等级 学习路线
新的云用户
经验丰富的云用户

共享的数据和数据分析

借助 BigQuery,您可以在组织内和跨组织大规模共享数据和数据洞见。它通过内置的数据交换平台提供了强大的安全和隐私保护框架。借助 BigQuery 共享功能,您可以发现、访问和使用由众多数据提供商精选的数据库。

BigQuery 提供以下共享功能:

  • 分享的不仅仅是数据您可以共享各种数据和 AI 资产,例如 BigQuery 数据集、表、视图、包含 Pub/Sub 主题的实时数据流、SQL 存储过程和 BigQuery ML 模型。
  • 访问 Google 数据集利用 Google 数据集(包括 Google 趋势、DeepMind WeatherNext 模型、Google 地图平台、Google Earth Engine 等)增强您的分析和机器学习计划。
  • 与数据治理原则集成数据所有者可以保留对其数据的控制权,并能够定义和配置规则或政策来限制访问和使用。
  • 实时零拷贝数据共享数据在原位共享,无需集成、数据移动或复制,从而确保分析基于最新信息。创建的关联数据集是对共享资产的实时指针。
  • 增强安全状况您可以使用访问控制功能来减少过度预配访问权限,包括内置的 VPC Service Controls 支持。
  • 利用提供商使用情况指标提高曝光度数据发布商可以查看和监控共享资源的使用情况,例如每个组织的已执行作业数、已扫描的总字节数和订阅者数量。
  • 利用数据净室协同处理敏感数据数据净室提供安全增强型环境,在该环境中,多方可以共享、联接和分析其数据资产,而无需移动或呈现底层数据。
  • 基于 BigQuery您可以利用 BigQuery 的可伸缩性和大规模处理能力,实现大规模协作。

分享的后续步骤

下表概述了您可以执行的后续步骤,以详细了解分享功能:

经验等级 学习路线
新的云用户
经验丰富的云用户

后续步骤