Visualizar gráficos con BigQuery DataFrames
En este documento se muestra cómo trazar varios tipos de gráficos con la biblioteca de visualización de DataFrames de BigQuery.
La API bigframes.pandas
proporciona un ecosistema completo de herramientas para Python. La API admite operaciones estadísticas avanzadas y puedes visualizar las agregaciones generadas a partir de BigQuery DataFrames. También puedes cambiar de BigQuery DataFrames a un DataFrame de pandas
con operaciones de muestreo integradas.
Histograma
En el siguiente ejemplo se leen datos de la tabla bigquery-public-data.ml_datasets.penguins
para trazar un histograma sobre la distribución de las profundidades del pico de los pingüinos:
Gráfico de líneas
En el siguiente ejemplo se usan datos de la tabla bigquery-public-data.noaa_gsod.gsod2021
para trazar un gráfico de líneas de los cambios de temperatura media a lo largo del año:
Gráfico de área
En el siguiente ejemplo se usa la tabla bigquery-public-data.usa_names.usa_1910_2013
para monitorizar la popularidad de los nombres en la historia de EE. UU. y se centra en los nombres Mary
, Emily
y Lisa
:
Gráfico de barras
En el siguiente ejemplo se usa la tabla bigquery-public-data.ml_datasets.penguins
para visualizar la distribución de sexos de los pingüinos:
Gráfico de dispersión
En el siguiente ejemplo se usa la tabla bigquery-public-data.new_york_taxi_trips.tlc_yellow_trips_2021
para analizar la relación entre los importes de las tarifas de taxi y las distancias de los trayectos:
Visualizar un conjunto de datos de gran tamaño
BigQuery DataFrames descarga los datos en tu máquina local para visualizarlos. El número de puntos de datos que se pueden descargar está limitado a 1000 de forma predeterminada. Si el número de puntos de datos supera el límite, BigQuery DataFrames toma una muestra aleatoria del número de puntos de datos igual al límite.
Puede anular este límite definiendo el parámetro sampling_n
al trazar un gráfico, como se muestra en el siguiente ejemplo:
Gráficos avanzados con parámetros de pandas y Matplotlib
Puedes introducir más parámetros para ajustar el gráfico, como en pandas, ya que la biblioteca de gráficos de BigQuery DataFrames se basa en pandas y Matplotlib. En las siguientes secciones se describen algunos ejemplos.
Tendencia de popularidad de nombres con gráficos secundarios
Si se usan los datos del historial de nombres del gráfico de áreas de ejemplo, en el siguiente ejemplo se crean gráficos individuales para cada nombre definiendo subplots=True
en la llamada de la función plot.area()
:
Gráfico de dispersión de viajes en taxi con varias dimensiones
A partir de los datos del ejemplo de gráfico de dispersión, en el siguiente ejemplo se cambian los nombres de las etiquetas de los ejes X e Y, se usa el parámetro passenger_count
para los tamaños de los puntos, se usan puntos de color con el parámetro tip_amount
y se cambia el tamaño de la figura:
Siguientes pasos
- Consulta cómo usar BigQuery DataFrames.
- Consulta cómo usar DataFrames de BigQuery en dbt.
- Consulta la referencia de la API BigQuery DataFrames.