Gestionar sesiones y E/S de BigQuery DataFrames
En este documento se explica cómo gestionar sesiones y realizar operaciones de entrada y salida (E/S) al usar DataFrames de BigQuery. Aprenderás a crear y usar sesiones, trabajar con datos en memoria y leer y escribir en archivos y tablas de BigQuery.
Sesiones de BigQuery
BigQuery DataFrames usa un objeto de sesión local internamente para gestionar los metadatos. Cada objeto DataFrame
y Series
se conecta a una sesión, cada sesión se conecta a una ubicación y cada consulta de una sesión se ejecuta en la ubicación en la que has creado la sesión. Usa el siguiente ejemplo de código para crear una sesión manualmente y usarla para cargar datos:
No puedes combinar datos de varias instancias de sesión, aunque las inicialices con los mismos ajustes. En el siguiente código de ejemplo se muestra que, si se intenta combinar datos de diferentes instancias de sesión, se produce un error:
Sesión global
BigQuery DataFrames proporciona una sesión global predeterminada a la que puedes acceder con el método bigframes.pandas.get_global_session()
. En Colab, debes proporcionar un ID de proyecto para el atributo bigframes.pandas.options.bigquery.project
antes de usarlo. También puedes definir una ubicación con el atributo bigframes.pandas.options.bigquery.location
, que tiene como valor predeterminado la multirregión US
.
En el siguiente código de ejemplo se muestra cómo definir opciones para la sesión global:
Para restablecer la ubicación o el proyecto de la sesión global, cierra la sesión actual ejecutando el método bigframes.pandas.close_session()
.
Muchas funciones integradas de BigQuery DataFrames usan la sesión global de forma predeterminada. En el siguiente código de ejemplo se muestra cómo usan las funciones integradas la sesión global:
Datos en memoria
Puedes crear objetos Dataframes
y Series
con estructuras de datos de Python o NumPy integradas, de forma similar a como creas objetos con pandas. Usa el siguiente código de ejemplo para crear un objeto:
Para convertir objetos pandas
en objetos DataFrames
mediante el método read_pandas()
o los constructores, usa el siguiente código de ejemplo:
Para usar el método to_pandas()
para cargar datos de BigQuery DataFrames en tu memoria, usa el siguiente código de ejemplo:
Estimación de costes con el parámetro dry_run
Cargar una gran cantidad de datos puede llevar mucho tiempo y consumir muchos recursos. Para ver la cantidad de datos que se están procesando, usa el parámetro dry_run=True
en la llamada to_pandas()
. Usa el siguiente código de ejemplo para hacer una prueba de funcionamiento:
Leer y escribir archivos
Puedes leer datos de archivos compatibles en un DataFrame de BigQuery. Estos archivos pueden estar en tu máquina local o en Cloud Storage. Usa el siguiente código de ejemplo para leer datos de un archivo CSV:
Para guardar tus DataFrames de BigQuery en archivos locales o de Cloud Storage con el método to_csv
, usa el siguiente código de ejemplo:
Leer y escribir tablas de BigQuery
Para crear DataFrames de BigQuery con referencias de tablas de BigQuery y la función bigframes.pandas.read_gbq
, usa el siguiente código de ejemplo:
Para usar una cadena de SQL con la función read_gbq()
para leer datos en DataFrames de BigQuery, usa el siguiente código de ejemplo:
Para guardar tu objeto DataFrame
en una tabla de BigQuery, usa el método to_gbq()
de tu objeto DataFrame
. En el siguiente código de ejemplo se muestra cómo hacerlo:
Siguientes pasos
- Consulta cómo usar BigQuery DataFrames.
- Consulta cómo trabajar con tipos de datos en BigQuery DataFrames.
- Consulta cómo visualizar gráficos con DataFrames de BigQuery.
- Consulta la referencia de la API BigQuery DataFrames.