Introducción a BigQuery DataFrames
BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto que te permiten aprovechar el procesamiento de datos de BigQuery mediante APIs de Python que ya conoces. BigQuery DataFrames proporciona un DataFrame de Python basado en el motor de BigQuery e implementa las APIs de pandas y scikit-learn transfiriendo el procesamiento a BigQuery mediante la conversión a SQL. De esta forma, puedes usar BigQuery para explorar y procesar terabytes de datos, así como para entrenar modelos de aprendizaje automático, todo ello con APIs de Python.
En el siguiente diagrama se describe el flujo de trabajo de BigQuery DataFrames:
Ventajas de BigQuery DataFrames
BigQuery DataFrames hace lo siguiente:
- Ofrece más de 750 APIs de pandas y scikit-learn implementadas mediante la conversión transparente de SQL a las APIs de BigQuery y BigQuery ML.
- Aplaza la ejecución de las consultas para mejorar el rendimiento.
- Amplía las transformaciones de datos con funciones de Python definidas por el usuario para que puedas procesar datos en Google Cloud. Estas funciones se implementan automáticamente como funciones remotas de BigQuery.
- Se integra con Vertex AI para que puedas usar modelos de Gemini para generar texto.
Licencias
BigQuery DataFrames se distribuye con la licencia Apache 2.0.
BigQuery DataFrames también contiene código derivado de los siguientes paquetes de terceros:
Para obtener más información, consulta el directorio third_party/bigframes_vendored
en el repositorio de GitHub de BigQuery DataFrames.
Cuotas y límites
- Las cuotas de BigQuery se aplican a los DataFrames de BigQuery, incluidos los componentes de hardware, software y red.
- Se admite un subconjunto de APIs de pandas y scikit-learn. Para obtener más información, consulta APIs de pandas compatibles.
- Debes eliminar explícitamente las funciones de Cloud Run que se hayan creado automáticamente como parte de la limpieza de la sesión. Para obtener más información, consulta APIs de pandas admitidas.
Precios
- BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto que se pueden descargar sin coste adicional.
- BigQuery DataFrames usa BigQuery, Cloud Run functions, Vertex AI y otrosGoogle Cloud servicios, que tienen sus propios costes.
- Durante el uso habitual, BigQuery DataFrames almacena datos temporales, como resultados intermedios, en tablas de BigQuery. Estas tablas se conservan durante siete días de forma predeterminada y se te cobra por los datos almacenados en ellas. Las tablas se crean en el conjunto de datos
_anonymous_
del proyecto Google Cloud que especifique en la opciónbf.options.bigquery.project
.
Siguientes pasos
- Prueba la guía de inicio rápido de BigQuery DataFrames.
- Consulta cómo usar BigQuery DataFrames.
- Consulta cómo visualizar gráficos con DataFrames de BigQuery.
- Consulta cómo usar el adaptador
dbt-bigquery
.