Información general sobre el análisis de contribución

En este documento se explica el caso práctico del análisis de contribución y las opciones para llevarlo a cabo en BigQuery ML.

¿Qué es el análisis de contribución?

El análisis de contribución, también llamado análisis de los factores clave, es un método que se utiliza para generar estadísticas sobre los cambios en las métricas clave de los datos multidimensionales. Por ejemplo, puedes usar el análisis de contribución para ver qué datos han contribuido a un cambio en las cifras de ingresos de dos trimestres o para comparar dos conjuntos de datos de entrenamiento y detectar los cambios en el rendimiento de un modelo de aprendizaje automático.

El análisis de contribución es una forma de analíticas aumentadas, que es el uso de la inteligencia artificial (IA) para mejorar y automatizar el análisis y la comprensión de los datos. El análisis de contribución cumple uno de los objetivos clave de la analítica aumentada, que es ayudar a los usuarios a encontrar patrones en sus datos.

Análisis de contribuciones con BigQuery ML

Para usar el análisis de contribución en BigQuery ML, crea un modelo de análisis de contribución con la instrucción CREATE MODEL.

Un modelo de análisis de contribuciones detecta segmentos de datos que muestran cambios en una métrica determinada comparando un conjunto de datos de prueba con un conjunto de datos de control. Por ejemplo, puedes usar una instantánea de una tabla de datos de ventas tomada a finales del 2023 como datos de prueba y una instantánea de una tabla tomada a finales del 2022 como datos de control, y compararlas para ver cómo han cambiado tus ventas a lo largo del tiempo. Un modelo de análisis de contribución puede mostrarle qué segmento de datos, como los clientes online de una región concreta, ha provocado el mayor cambio en las ventas de un año a otro.

Una métrica es el valor numérico que usan los modelos de análisis de contribución para medir y comparar los cambios entre los datos de prueba y de control. Puede especificar los siguientes tipos de métricas con un modelo de análisis de contribución:

  • Sumable: suma los valores de una columna de métrica que especifiques y, a continuación, determina un total para cada segmento de los datos.
  • Ratio sumable: suma los valores de dos columnas numéricas que especifiques y determina la proporción entre ellas en cada segmento de los datos.
  • Se puede sumar por categoría: suma el valor de una columna numérica y lo divide entre el número de valores distintos de una columna categórica.

Un segmento es una porción de los datos identificada por una combinación determinada de valores de dimensiones. Por ejemplo, en un modelo de análisis de contribución basado en las dimensiones store_number, customer_id y day, cada combinación única de los valores de esas dimensiones representa un segmento. En la siguiente tabla, cada fila representa un segmento diferente:

store_number customer_id day
tienda 1
tienda 1 cliente 1
tienda 1 cliente 1 Lunes
tienda 1 cliente 1 Martes
tienda 1 cliente 2
store 2

Para reducir el tiempo de creación del modelo, especifica un umbral de asistencia a priori. Un umbral de asistencia a priori te permite eliminar los segmentos pequeños y menos relevantes para que el modelo solo use los segmentos más grandes y relevantes.

Una vez que hayas creado un modelo de análisis de contribuciones, puedes usar la función ML.GET_INSIGHTS para obtener la información de la métrica calculada por el modelo. El resultado del modelo consta de filas de estadísticas, donde cada estadística se corresponde con un segmento y proporciona las métricas correspondientes del segmento.

Recorrido del usuario del análisis de contribución

En la siguiente tabla se describen las instrucciones y funciones que puede usar con los modelos de análisis de contribución:

Creación de modelos Preprocesamiento de funciones Generación de estadísticas Tutoriales
CREATE MODEL Preprocesado manual ML.GET_INSIGHTS

Siguientes pasos