Estadísticas de datos ofrece una forma automatizada de explorar y comprender sus datos. Con las estadísticas de datos, Gemini en BigQuery usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas para responderlas. De esta forma, podrás descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
En este documento se describen las funciones clave de las estadísticas de datos y cómo verlas para explorar los datos de forma útil.
Antes de empezar
Las estadísticas de datos se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio.
Primero, configura Gemini en BigQuery y, después, genera estadísticas en BigQuery.
Gemini trata tus metadatos para obtener estadísticas exclusivamente en la región de us-central1
. Para obtener más información, consulta Ubicaciones de servicio de Gemini.
Una vez que hayas generado las estadísticas, podrás verlas en Dataplex Universal Catalog.
Roles obligatorios
Para obtener acceso de solo lectura a las estadísticas generadas, pide a tu administrador que te conceda el siguiente rol de gestión de identidades y accesos:
- Lector de datos de DataScan de Dataplex (
roles/dataplex.dataScanDataViewer
) en el proyecto que contiene las tablas de BigQuery de las que quieras ver estadísticas.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos. Para ver los permisos exactos que se necesitan para generar estadísticas, despliega la sección Permisos necesarios:
Permisos obligatorios
dataplex.datascans.get
dataplex.datascans.getData
Habilitar APIs
Para usar las estadísticas de datos, habilite las siguientes APIs en su proyecto: API Dataplex, API BigQuery y API Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta el artículo sobre cómo habilitar la API de Gemini para Google Cloud en un Google Cloud proyecto.
Acerca de las estadísticas
Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema del arranque en frío. A menudo, el problema implica incertidumbres sobre la estructura de los datos, los patrones de claves y las estadísticas relevantes de los datos, lo que dificulta empezar a escribir consultas.
Estadísticas de datos aborda el problema del arranque en frío generando automáticamente consultas en lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla. En lugar de empezar con un editor de consultas vacío, puedes empezar rápidamente a explorar los datos con consultas significativas que te proporcionen información valiosa. Para investigar más a fondo, puedes hacer preguntas relacionadas en el lienzo de datos.
Ejemplo de una ejecución de estadísticas
Supongamos que tenemos una tabla llamada telco_churn
con los siguientes metadatos:
Nombre del campo | Tipo |
---|---|
CustomerID | STRING |
Sexo | STRING |
Antigüedad | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
A continuación, se muestran algunas de las consultas de ejemplo que genera Estadísticas de datos para esta tabla:
Identifica a los clientes que se han suscrito a todos los servicios premium y que llevan más de 50 meses siendo clientes.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifica qué servicio de Internet tiene la mayor tasa de abandono de clientes.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifica las tasas de abandono por segmento entre los clientes de alto valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Ver estadísticas
Para ver las estadísticas de una tabla de BigQuery, accede a la entrada de la tabla en Dataplex Universal Catalog mediante la búsqueda de Dataplex Universal Catalog.
En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.
Busca la entrada de la tabla en Dataplex Universal Catalog.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que aún no se han generado las estadísticas de esta tabla. Puedes generar estadísticas de datos en BigQuery Studio.
Precios
Para obtener más información sobre los precios de esta función, consulta el resumen de precios de Gemini en BigQuery.
Cuotas y límites
Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.
Ubicaciones
Gemini opera a nivel mundial, por lo que no puedes restringir el tratamiento de los datos a una región específica. Para obtener más información sobre las ubicaciones en las que Gemini en BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.
Limitaciones
- La función Estadísticas de datos está disponible para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
- En el caso de los clientes multicloud, los datos de otras nubes no están disponibles.
- La función Estadísticas de datos no admite los tipos de columna
Geo
niJSON
. - Las ejecuciones de estadísticas no garantizan que se presenten consultas cada vez. Para aumentar las probabilidades de generar consultas más atractivas, vuelve a generar las estadísticas en BigQuery Studio.
Siguientes pasos
- Consulta cómo generar estadísticas en BigQuery.
- Consulta cómo generar un análisis de perfilado de datos.
- Consulta cómo escribir consultas con la ayuda de Gemini en BigQuery.