Preparar datos con Gemini
En este documento se describe cómo generar y gestionar sugerencias de código SQL para las preparaciones de datos en BigQuery.
Para obtener más información, consulta la introducción a la preparación de datos de BigQuery.
Antes de empezar
Abrir el editor de preparación de datos en BigQuery
Para abrir el editor de preparación de datos en BigQuery, puedes crear una preparación de datos, crear una a partir de una tabla o un archivo de Cloud Storage, o abrir una preparación de datos. Para obtener más información sobre lo que ocurre cuando creas una preparación de datos, consulta Puntos de entrada de la preparación de datos.
En la página BigQuery, puede ir al editor de preparación de datos de las siguientes formas:
Crear
Para crear una preparación de datos en BigQuery, sigue estos pasos:
- En la Google Cloud consola, ve a la página BigQuery.
Ir a BigQuery - Ve a la lista Crear nuevo y haz clic en Preparación de datos. El editor de preparación de datos se muestra en una nueva pestaña de preparación de datos sin título.
- En la barra de búsqueda del editor, introduce el nombre de la tabla o las palabras clave y selecciona una tabla. Se abre el editor de preparación de datos de la tabla, que muestra una vista previa de los datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.
- Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en Pantalla completa Pantalla completa.
- Opcional: Para ver los detalles de la preparación de los datos, el historial de versiones, añadir comentarios o responder a los que ya hay, usa la barra de herramientas (Vista previa).

Crear a partir de una tabla
Para crear una preparación de datos a partir de una tabla, sigue estos pasos:
- En la Google Cloud consola, ve a la página BigQuery.
Ir a BigQuery - En el panel Explorador, coloca el cursor sobre una tabla.
- Haz clic en more_vert Menú > Consulta en > Preparación de datos. Se abre el editor de preparación de datos de la tabla, que muestra una vista previa de los datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.
- Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en Pantalla completa Pantalla completa.
- Opcional: Para ver los detalles de la preparación de los datos, el historial de versiones, añadir comentarios o responder a los que ya hay, usa la barra de herramientas (Vista previa).

Crear a partir de un archivo de Cloud Storage
Para crear una preparación de datos a partir de un archivo de Cloud Storage, sigue estos pasos:
Carga el archivo
- En la Google Cloud consola, ve a la página BigQuery.
Ir a BigQuery - En la lista Crear nuevo, haz clic en Preparación de datos. El editor de preparación de datos se muestra en una nueva pestaña de preparación de datos sin título.
- En la lista de fuentes de datos, haga clic en Google Cloud Storage. Se abrirá el cuadro de diálogo Preparar datos.
- En la sección Fuente, selecciona el archivo de un segmento de Cloud Storage o introduce la ruta de la fuente. Por ejemplo, introduce la ruta a tu archivo CSV:
STORAGE_BUCKET_NAME/FILE_NAME.csv
. Se admiten búsquedas con comodines, como*.csv
.
El formato de archivo se detecta automáticamente. Los formatos admitidos son Avro, CSV, JSONL, ORC y Parquet. Otros tipos de archivo compatibles, como DAT, TSV y TXT, se leen como formato CSV. - Define la tabla de almacenamiento provisional externa en la que subirás los archivos. En la sección Tabla de almacenamiento provisional, introduce los nombres del proyecto, del conjunto de datos y de la tabla que vas a crear.
- En la sección Schema (Esquema), revisa el esquema.
Gemini comprueba los nombres de las columnas del archivo. Si no encuentra ninguna, te ofrece sugerencias.
De forma predeterminada, el archivo de preparación de datos carga los datos como cadenas. Puedes definir tipos de datos más específicos cuando prepares los datos del archivo. - Opcional: En Opciones avanzadas, puede añadir más información, como el número de errores permitidos antes de que falle el trabajo. Gemini ofrece opciones adicionales en función del contenido de tu archivo.
- Haz clic en Crear. Se abre el editor de preparación de datos del archivo, que muestra una vista previa de los datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.
- Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en Pantalla completa Pantalla completa.
- Opcional: Para ver los detalles de la preparación de los datos, el historial de versiones, añadir comentarios o responder a los que ya haya, usa la barra de herramientas (Vista previa).

Preparar el archivo
En la vista de datos, prepara los datos de Cloud Storage almacenados que has cargado siguiendo estos pasos:
- Opcional: Define tipos de datos más sólidos para las columnas pertinentes. Para ello, consulta la lista de sugerencias de transformación o selecciona una columna y genera sugerencias para ella.
- Opcional: Define reglas de validación. Para obtener más información, consulta el artículo sobre cómo configurar la tabla de errores y añadir una regla de validación.
- Añade una tabla de destino.
- Para cargar los datos de Cloud Storage en la tabla de destino, ejecuta la preparación de los datos.
- Opcional: Programa la ejecución de la preparación de datos.
- Opcional: Optimiza la preparación de datos procesándolos de forma incremental.
Abrir
Para abrir el editor de una preparación de datos que ya tengas, sigue estos pasos:
- En la Google Cloud consola, ve a la página BigQuery.
Ir a BigQuery - En el panel Explorador, haz clic en el nombre de tu proyecto y, a continuación, en Preparaciones de datos.
- Selecciona la preparación de datos que ya tengas. Se muestra la vista de gráfico de la canalización de preparación de datos.
- Selecciona uno de los nodos del gráfico. Se abre el editor de preparación de datos de la tabla, que muestra una vista previa de los datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.
- Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en Pantalla completa Pantalla completa.
- Opcional: Para ver los detalles de la preparación de los datos, el historial de versiones, añadir comentarios o responder a los que ya hay, usa la barra de herramientas (Vista previa).

Añadir pasos de preparación de datos
Los datos se preparan por pasos. Puedes previsualizar o aplicar los pasos sugeridos por Gemini. También puedes mejorar las sugerencias o aplicar tus propios pasos.
Aplicar y mejorar las sugerencias de Gemini
Cuando abres el editor de preparación de datos de tu tabla, Gemini inspecciona los datos y el esquema de la tabla que has cargado y genera sugerencias de filtros y transformaciones. Las sugerencias aparecen en tarjetas de la lista Pasos.
En la siguiente imagen se muestra dónde puedes aplicar y mejorar los pasos sugeridos por Gemini:
Para aplicar una sugerencia de Gemini como paso de preparación de datos, haz lo siguiente:
- En la vista de datos, haga clic en el nombre de una columna o en una celda concreta. Gemini genera sugerencias para filtrar y transformar los datos.
Opcional: Para mejorar las sugerencias, edita los valores de una a tres celdas de la tabla para mostrar cómo deberían ser los valores de una columna. Por ejemplo, introduce una fecha con el formato que quieras aplicar a todas las fechas. Gemini genera nuevas sugerencias en función de los cambios que hagas.
En la siguiente imagen se muestra cómo puedes editar los valores para mejorar los pasos sugeridos por Gemini:
Selecciona una tarjeta de sugerencia.
- Opcional: Para ver una vista previa del resultado de la tarjeta de sugerencia, haz clic en Vista previa.
- Opcional: Para modificar la tarjeta de sugerencia con lenguaje natural, haz clic en Editar.
Haz clic en Aplicar.
Añadir pasos con lenguaje natural o expresiones SQL
Si las sugerencias no se ajustan a tus necesidades, añade un paso. Elige columnas o un tipo de paso y, a continuación, describe lo que quieres con lenguaje natural.
Añadir una transformación
- En la vista de datos o de esquema, elija la opción Transformar. También puedes elegir columnas o añadir ejemplos para ayudar a Gemini a entender la transformación de datos.
- En el campo Descripción, introduce una petición, como
Convert the state column to uppercase
. Haz clic en Enviar. Enviar.
Gemini genera una expresión SQL y una nueva descripción a partir de tu petición.
En la lista Columna de destino, seleccione o introduzca un nombre de columna.
Opcional: Para actualizar la expresión SQL, revisa la petición y haz clic en send Enviar o introduce manualmente una expresión SQL.
Opcional: Haz clic en Vista previa y revisa el paso.
Haz clic en Aplicar.
Aplanar columnas JSON
Para que sea más fácil acceder a los pares clave-valor y analizarlos, aplana las columnas JSON. Por ejemplo, si tienes una columna JSON llamada user_properties
que contiene las claves country
y device_type
, al aplanar esta columna, se extraerán country
y device_type
en sus propias columnas de nivel superior para que puedas usarlas directamente en tus análisis.
Gemini para BigQuery sugiere operaciones que extraen campos solo del nivel superior del JSON. Si estos campos extraídos contienen más objetos JSON, puede acoplarlos en pasos adicionales para acceder a su contenido.
- En la vista de datos de una tabla de origen JSON, elija una columna o celdas.
- Haz clic en Aplanar para generar sugerencias.
- Opcional: Para actualizar la expresión SQL, puedes introducir manualmente una expresión SQL.
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
La función de acoplamiento tiene los siguientes comportamientos:
- La opción Aplanar aparece en la vista de datos después de seleccionar celdas o columnas que contengan JSON. No aparece de forma predeterminada cuando haces clic en Añadir paso.
- Si una clave JSON no está presente en las filas seleccionadas, la sugerencia generada no contiene esa clave. Este problema puede provocar que se omitan algunas columnas al acoplar los datos.
- Si los nombres de las columnas coinciden durante el acoplamiento, los nombres de las columnas repetidos terminan con este formato:
_<i>
. Por ejemplo, si ya hay una columna llamadaaddress
, el nombre de la nueva columna combinada seráaddress_1
. - Los nombres de las columnas acopladas siguen las convenciones de nomenclatura de columnas de BigQuery.
- Si dejas el campo de clave JSON vacío, el formato de nombre de columna predeterminado es
f<i>_
.
Aplanar columnas RECORD
o STRUCT
Para que sea más fácil acceder a los campos anidados y analizarlos, aplana las columnas con el tipo de datos RECORD
o STRUCT
. Por ejemplo, si tienes un registro event_log
que contiene los campos timestamp
y action
, al aplanarlo, se extraerán timestamp
y action
en sus propias columnas de nivel superior para que puedas transformarlos directamente.
Este proceso extrae todas las columnas anidadas del registro, hasta 10 niveles de profundidad, y crea una columna para cada una. Los nuevos nombres de columna se crean combinando el nombre de la columna principal con el nombre del campo anidado, separados por un guion bajo (por ejemplo, PARENT-COLUMN-NAME_FIELD-NAME
). La columna original se elimina. Para conservar la columna original, puedes eliminar el paso Eliminar columna de la lista Pasos aplicados.
Para acoplar registros, sigue estos pasos:
- En la vista de datos de una tabla de origen, elija una columna de registro.
- Haz clic en Aplanar para generar sugerencias.
- Opcional: Para actualizar la expresión SQL, puedes introducir manualmente una expresión SQL.
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
Filtrar las filas
Para añadir un filtro que elimine filas, sigue estos pasos:
- En la vista de datos o de esquema, elija la opción Filtrar. También puedes elegir columnas para ayudar a Gemini a entender el filtro de datos.
- En el campo Descripción, introduce una petición, como
Column ID should not be NULL
. - Haz clic en Generar. Gemini genera una expresión SQL y una nueva descripción a partir de tu petición.
- Opcional: Para actualizar la expresión SQL, revisa la petición y haz clic en Enviar Enviar o introduce una expresión SQL manualmente.
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
Formato de la expresión de filtro
Las expresiones SQL de los filtros conservan las filas que coinciden con la condición especificada. Esto equivale a una instrucción SELECT … WHERE SQL_EXPRESSION
.
Por ejemplo, para conservar los registros en los que la columna year
sea mayor o igual que 2000
, la condición es year >= 2000
.
Las expresiones deben seguir la sintaxis SQL de BigQuery para la
cláusula WHERE
.
Anular duplicados de datos
Para quitar las filas duplicadas de sus datos, siga estos pasos:
- En la vista de datos o de esquema, elija la opción Eliminar duplicados. Gemini proporciona una sugerencia inicial de desduplicación.
- Opcional: Para acotar la sugerencia, introduce una nueva descripción y haz clic en Enviar Enviar.
- Opcional: Para configurar manualmente el paso de desduplicación, utilice las siguientes opciones:
- En la lista Selección de registros, elija una de las siguientes estrategias:
- Primero: en cada grupo de filas con los mismos valores de clave de desduplicación, esta estrategia elige la primera fila en función de la
ORDER BY
expresión y elimina el resto. - Último: en cada grupo de filas con los mismos valores de clave de desduplicación, esta estrategia elige la última fila en función de la expresión
ORDER BY
y elimina el resto. - Cualquiera: en cada grupo de filas con los mismos valores de clave de desduplicación, esta estrategia elige una fila de ese grupo y elimina el resto.
- Distintos: elimina todas las filas duplicadas de todas las columnas de la tabla.
- Primero: en cada grupo de filas con los mismos valores de clave de desduplicación, esta estrategia elige la primera fila en función de la
- En el campo Claves de desduplicación, elija una o varias columnas o expresiones para identificar las filas duplicadas. Este campo se aplica cuando la estrategia de elección de registros es Primero, Último o Cualquiera.
- En el campo Ordenar por expresión, introduzca una expresión que defina el orden de las filas. Por ejemplo, para elegir la fila más reciente, introduce
datetime DESC
. Para elegir la primera fila alfabéticamente por nombre, introduce un nombre de columna comolast_name
. La expresión sigue las mismas reglas que la cláusulaORDER BY
estándar de BigQuery. Este campo solo se aplica cuando la estrategia de elección de registros es First o Last.
- En la lista Selección de registros, elija una de las siguientes estrategias:
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
Eliminar una columna
Para eliminar una o varias columnas de una preparación de datos, sigue estos pasos:
- En la vista de datos o de esquema, seleccione las columnas que quiera eliminar.
- Haz clic en Cancelar asignación. Se añade un nuevo paso aplicado para las columnas eliminadas.
Añadir una operación de unión con Gemini
Para añadir un paso de operación de combinación entre dos fuentes en la preparación de datos, sigue estos pasos:
- En la vista de datos de un nodo de la preparación de datos, ve a la lista Sugerencias y haz clic en la opción Unir.
- En el cuadro de diálogo Añadir combinación, haga clic en Examinar y, a continuación, seleccione la otra tabla que participa en la operación de combinación (denominada lado derecho de la combinación).
- Opcional: Selecciona el tipo de operación de unión que quieras realizar, como Unión interna.
Revisa la información de la clave de combinación generada por Gemini en los siguientes campos:
- Descripción de la combinación: descripción en lenguaje natural de la expresión SQL de la operación de combinación. Cuando edites esta descripción y hagas clic en Enviar Enviar, Gemini te sugerirá nuevas condiciones de combinación SQL.
Condiciones de unión: las expresiones SQL de la cláusula
ON
de la operación de unión. Puedes usar los cualificadoresL
yR
para hacer referencia a las tablas de origen de la izquierda y de la derecha, respectivamente. Por ejemplo, para unir la columnacustomer_id
de la tabla de la izquierda con la columnacustomer_id
de la tabla de la derecha, introduceL.customerId = R.customerId
. En estos calificadores no se distingue entre mayúsculas y minúsculas.
Opcional: Para mejorar las sugerencias de Gemini, edita el campo Descripción de la petición y, a continuación, haz clic en Enviar Enviar.
Opcional: Para previsualizar los ajustes de la operación de combinación de la preparación de datos, haz clic en Vista previa.
Haz clic en Aplicar.
Se crea el paso de la operación de unión. La tabla de origen que ha seleccionado (la parte derecha de la combinación) y la operación de combinación se reflejan en la lista de pasos aplicados y en los nodos de la vista de gráfico de la preparación de datos.
Datos agregados
- En la vista de datos o de esquema, elija la opción Agregar.
- En el campo Descripción, introduce una petición, como
Find the total revenue for a region
. Haz clic en Enviar.
Gemini genera claves de agrupación y expresiones de agregación en función de tu petición.
Opcional: Edite las claves de agrupación o las expresiones de agregación generadas, si es necesario.
Opcional: Puedes añadir manualmente claves de agrupación y expresiones de agregación.
- En el campo Claves de agrupación, introduce un nombre de columna o una expresión. Si lo dejas en blanco, la tabla resultante tendrá una fila. Si introduces una expresión, debe tener un alias (una cláusula
AS
). Por ejemplo,EXTRACT(YEAR FROM order_date) AS order_year
. No se permiten duplicados. - En el campo Expresiones de agregación, introduce una expresión de agregación que tenga un alias (una cláusula
AS
). Por ejemplo,SUM(quantity) AS total_quantity
. Puedes introducir varias expresiones separadas por comas. No se permiten duplicados. Para ver una lista de las expresiones de agregación admitidas, consulta Funciones de agregación.
- En el campo Claves de agrupación, introduce un nombre de columna o una expresión. Si lo dejas en blanco, la tabla resultante tendrá una fila. Si introduces una expresión, debe tener un alias (una cláusula
Opcional: Haz clic en Vista previa y revisa el paso.
Haz clic en Aplicar.
Configurar la tabla de errores y añadir una regla de validación
Puedes añadir un filtro que cree una regla de validación, que envíe errores a una tabla de errores o que falle en la ejecución de la preparación de datos.
Configurar la tabla de errores
Para configurar la tabla de errores, siga estos pasos:
- En el editor de preparación de datos, vaya a la barra de herramientas y haga clic en Más > Tabla de errores.
- Haz clic en Habilitar tabla de errores.
- Define la ubicación de la tabla.
- Opcional: Define una duración máxima para conservar los errores.
- Haz clic en Guardar.
Añadir una regla de validación
Para añadir una regla de validación, sigue estos pasos:
- En la vista de datos o de esquema, haz clic en la opción Filtrar. También puedes elegir columnas para ayudar a Gemini a entender el filtro de datos.
- Introduce una descripción del paso.
- Introduce una expresión SQL con el formato de una cláusula
WHERE
. - Opcional: Si quieres que la expresión SQL actúe como regla de validación, selecciona la casilla Las filas con validación fallida se envían a la tabla de errores. También puedes cambiar un filtro por una validación en la barra de herramientas de preparación de datos haciendo clic en Más > Tabla de errores.
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
Añadir o cambiar una tabla de destino
Para añadir o cambiar una tabla de destino para los resultados de la preparación de datos, sigue estos pasos:
- En la vista de datos o de esquema, elija la opción Destino.
- Selecciona el proyecto en el que se almacena la tabla de destino.
- Selecciona uno de los conjuntos de datos o carga uno nuevo.
- Introduce una tabla de destino. Si la tabla no existe, la preparación de datos crea una tabla en la primera ejecución. Para obtener más información, consulta Modo de escritura.
- Selecciona tu conjunto de datos como conjunto de datos de destino.
- Haz clic en Guardar.
Ver la muestra de datos y el esquema de un paso aplicado
Para ver los detalles de la muestra y del esquema en un paso concreto de la preparación de los datos, haz lo siguiente:
- En el editor de preparación de datos, vaya a la lista Pasos y haga clic en Pasos aplicados.
- Selecciona un paso. Aparecen las pestañas Datos y Esquema, que muestran la muestra de datos y el esquema de este paso concreto.
Editar un paso aplicado
Para editar un paso aplicado, haz lo siguiente:
- En el editor de preparación de datos, vaya a la lista Pasos y haga clic en Pasos aplicados.
- Selecciona un paso.
- Junto al paso, haz clic en more_vert Menú > Editar.
- En el cuadro de diálogo Editar paso aplicado, puedes hacer lo siguiente:
- Edita la descripción del paso.
- Para obtener sugerencias de Gemini, edita la descripción y haz clic en Enviar Enviar.
- Edita la expresión SQL.
- En el campo Columna de destino, selecciona una columna.
- Opcional: Haz clic en Vista previa y revisa el paso.
- Haz clic en Aplicar.
Eliminar un paso aplicado
Para eliminar un paso aplicado, haz lo siguiente:
- En el editor de preparación de datos, vaya a la lista Pasos y haga clic en Pasos aplicados.
- Selecciona un paso.
- Haz clic en more_vert Menú > Eliminar.
Ejecutar la preparación de datos
Una vez que hayas añadido los pasos de preparación de los datos, configurado el destino y corregido los errores de validación, puedes realizar pruebas con una muestra de los datos o implementar los pasos y programar las ejecuciones de preparación de los datos. Para obtener más información, consulta Programar preparaciones de datos.
Actualizar las muestras de preparación de datos
Los datos de la muestra no se actualizan automáticamente. Si los datos de las tablas de origen de la preparación de datos han cambiado, pero los cambios no se reflejan en la muestra de datos de la preparación, haga clic en Más > Actualizar muestra.
Siguientes pasos
- Consulte cómo programar preparaciones de datos.
- Más información sobre cómo gestionar las preparaciones de datos
- Consulta las cuotas y los límites de Gemini en BigQuery.
- Consulta los precios de Gemini en BigQuery.