Acceder a estadísticas de datos en Dataplex Universal Catalog

Estadísticas de datos ofrece una forma automatizada de explorar y comprender sus datos. Con las estadísticas de datos, Gemini en BigQuery usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas para responderlas. De esta forma, podrás descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

En este documento se describen las funciones clave de las estadísticas de datos y cómo verlas para explorar los datos de forma útil.

Antes de empezar

Las estadísticas de datos se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio. Primero, configura Gemini en BigQuery y, después, genera estadísticas en BigQuery. Gemini trata tus metadatos para obtener estadísticas exclusivamente en la región de us-central1. Para obtener más información, consulta Ubicaciones de servicio de Gemini. Una vez que hayas generado las estadísticas, podrás verlas en Dataplex Universal Catalog.

Roles obligatorios

Para obtener acceso de solo lectura a las estadísticas generadas, pide a tu administrador que te conceda el siguiente rol de gestión de identidades y accesos:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos. Para ver los permisos exactos que se necesitan para generar estadísticas, despliega la sección Permisos necesarios:

Permisos obligatorios

  • dataplex.datascans.get
  • dataplex.datascans.getData

Habilitar APIs

Para usar las estadísticas de datos, habilite las siguientes APIs en su proyecto: API Dataplex, API BigQuery y API Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta el artículo sobre cómo habilitar la API de Gemini para Google Cloud en un Google Cloud proyecto.

Acerca de las estadísticas

Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema del arranque en frío. A menudo, el problema implica incertidumbres sobre la estructura de los datos, los patrones de claves y las estadísticas relevantes de los datos, lo que dificulta empezar a escribir consultas.

Estadísticas de datos aborda el problema del arranque en frío generando automáticamente consultas en lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla. En lugar de empezar con un editor de consultas vacío, puedes empezar rápidamente a explorar los datos con consultas significativas que te proporcionen información valiosa. Para investigar más a fondo, puedes hacer preguntas relacionadas en el lienzo de datos.

Ejemplo de una ejecución de estadísticas

Supongamos que tenemos una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo Tipo
CustomerID STRING
Sexo STRING
Antigüedad INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

A continuación, se muestran algunas de las consultas de ejemplo que genera Estadísticas de datos para esta tabla:

  • Identifica a los clientes que se han suscrito a todos los servicios premium y que llevan más de 50 meses siendo clientes.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene la mayor tasa de abandono de clientes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica las tasas de abandono por segmento entre los clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Ver estadísticas

Para ver las estadísticas de una tabla de BigQuery, accede a la entrada de la tabla en Dataplex Universal Catalog mediante la búsqueda de Dataplex Universal Catalog.

  1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

  2. Busca la entrada de la tabla en Dataplex Universal Catalog.

  3. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que aún no se han generado las estadísticas de esta tabla. Puedes generar estadísticas de datos en BigQuery Studio.

Precios

Para obtener más información sobre los precios de esta función, consulta el resumen de precios de Gemini en BigQuery.

Cuotas y límites

Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.

Ubicaciones

Gemini opera a nivel mundial, por lo que no puedes restringir el tratamiento de los datos a una región específica. Para obtener más información sobre las ubicaciones en las que Gemini en BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.

Limitaciones

  • La función Estadísticas de datos está disponible para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
  • En el caso de los clientes multicloud, los datos de otras nubes no están disponibles.
  • La función Estadísticas de datos no admite los tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan que se presenten consultas cada vez. Para aumentar las probabilidades de generar consultas más atractivas, vuelve a generar las estadísticas en BigQuery Studio.

Siguientes pasos