数据分析提供了一种自动方法来探索和理解您的数据。借助数据洞察,Gemini 会使用元数据生成关于表格的自然语言问题,并生成查询来回答这些问题。这有助于您发现模式、评估数据质量和执行统计分析。
本文档介绍了数据分析的主要功能,以及如何查看这些功能以进行深入的数据探索。
准备工作
数据洞察是使用 Gemini in BigQuery 生成的,并且只能在 BigQuery Studio 中生成。首先设置 Gemini in BigQuery,然后在 BigQuery 中生成数据洞察。Gemini 仅在 us-central1
区域处理您的元数据以生成分析洞见。如需了解详情,请参阅 Gemini 服务位置。
生成数据洞见后,您可以在 Dataplex Universal Catalog 中查看这些洞见。
所需的角色
如需获得对生成的数据分析的只读访问权限,请让您的管理员向您授予以下 IAM 角色:
- 针对您要查看其数据分析的 BigQuery 表所在项目的 Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
您也可以通过自定义角色或其他预定义角色来获取所需的权限。如需查看生成数据洞察所需的确切权限,请展开所需权限部分:
所需权限
dataplex.datascans.get
dataplex.datascans.getData
启用 API
如需使用数据分析,请在项目中启用以下 API:
如需详细了解如何启用 Gemini for Google Cloud API,请参阅在 Google Cloud 项目中启用 Gemini for Google Cloud API。
数据分析简介
在探索不熟悉的新表时,数据分析师通常会面临冷启动问题。该问题通常涉及到数据结构、关键模式和相关数据洞察的不确定性,因此难以开始编写查询。
数据洞察可根据表的元数据自动生成自然语言查询及其 SQL 等效查询,以此来解决冷启动问题。您可以使用提供宝贵数据洞察的有意义查询更快地开始数据探索,而不是从空的查询编辑器开始。如需进一步调查,您可以在数据画布中提出后续问题。
数据分析运行示例
假设有一个名为 telco_churn
且具有以下元数据的表:
字段名称 | 类型 |
---|---|
CustomerID | STRING |
性别 | STRING |
资历 | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
合同 | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
以下是数据分析为此表生成的一些示例查询:
识别已订阅所有高级服务且成为客户超过 50 个月的客户。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
确定哪个互联网服务的流失客户最多。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
按细分确定高价值客户的流失率。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
查看数据分析
如需查看 BigQuery 表的数据洞察,请使用 Dataplex Universal Catalog 搜索功能访问 Dataplex Universal Catalog 中的表条目。
在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 搜索页面。
在 Dataplex Universal Catalog 中搜索相应表格条目。
点击数据分析标签页。如果该标签页为空,则表示此表的数据分析尚未生成。您可以在 BigQuery Studio 中生成数据分析。
价格
如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览。
配额和限制
如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额。
位置
Gemini 在全球范围内运行,因此您无法将数据处理限制在特定区域。如需详细了解 Gemini in BigQuery 处理数据的位置,请参阅 Gemini 服务位置。
限制
- 数据分析适用于 BigQuery 表、BigLake 表、外部表和视图。
- 对于多云客户,来自其他云的数据不可用。
- 数据分析不支持
Geo
或JSON
列类型。 - 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成数据洞见。
后续步骤
- 了解如何在 BigQuery 中生成数据分析。
- 了解如何生成数据分析扫描。
- 了解如何在 BigQuery 中借助 Gemini 编写查询。