在 Dataplex 通用目录中获取数据洞见

数据分析提供了一种自动方法来探索和理解您的数据。借助数据洞察,Gemini 会使用元数据生成关于表格的自然语言问题,并生成查询来回答这些问题。这有助于您发现模式、评估数据质量和执行统计分析。

本文档介绍了数据分析的主要功能,以及如何查看这些功能以进行深入的数据探索。

准备工作

数据洞察是使用 Gemini in BigQuery 生成的,并且只能在 BigQuery Studio 中生成。首先设置 Gemini in BigQuery,然后在 BigQuery 中生成数据洞察。Gemini 仅在 us-central1 区域处理您的元数据以生成分析洞见。如需了解详情,请参阅 Gemini 服务位置。 生成数据洞见后,您可以在 Dataplex Universal Catalog 中查看这些洞见。

所需的角色

如需获得对生成的数据分析的只读访问权限,请让您的管理员向您授予以下 IAM 角色:

  • 针对您要查看其数据分析的 BigQuery 表所在项目的 Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) 角色。

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。如需查看生成数据洞察所需的确切权限,请展开所需权限部分:

所需权限

  • dataplex.datascans.get
  • dataplex.datascans.getData

启用 API

如需使用数据分析,请在项目中启用以下 API:

如需详细了解如何启用 Gemini for Google Cloud API,请参阅在 Google Cloud 项目中启用 Gemini for Google Cloud API

数据分析简介

在探索不熟悉的新表时,数据分析师通常会面临冷启动问题。该问题通常涉及到数据结构、关键模式和相关数据洞察的不确定性,因此难以开始编写查询。

数据洞察可根据表的元数据自动生成自然语言查询及其 SQL 等效查询,以此来解决冷启动问题。您可以使用提供宝贵数据洞察的有意义查询更快地开始数据探索,而不是从空的查询编辑器开始。如需进一步调查,您可以在数据画布中提出后续问题。

数据分析运行示例

假设有一个名为 telco_churn 且具有以下元数据的表:

字段名称 类型
CustomerID STRING
性别 STRING
资历 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合同 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是数据分析为此表生成的一些示例查询:

  • 识别已订阅所有高级服务且成为客户超过 50 个月的客户。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 确定哪个互联网服务的流失客户最多。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 按细分确定高价值客户的流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

查看数据分析

如需查看 BigQuery 表的数据洞察,请使用 Dataplex Universal Catalog 搜索功能访问 Dataplex Universal Catalog 中的表条目。

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 搜索页面。

    转到搜索

  2. 在 Dataplex Universal Catalog 中搜索相应表格条目。

  3. 点击数据分析标签页。如果该标签页为空,则表示此表的数据分析尚未生成。您可以在 BigQuery Studio 中生成数据分析

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

位置

Gemini 在全球范围内运行,因此您无法将数据处理限制在特定区域。如需详细了解 Gemini in BigQuery 处理数据的位置,请参阅 Gemini 服务位置

限制

  • 数据分析适用于 BigQuery 表、BigLake 表、外部表和视图。
  • 对于多云客户,来自其他云的数据不可用。
  • 数据分析不支持 GeoJSON 列类型。
  • 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成数据洞见。

后续步骤