Prepara datos con Gemini

En este documento, se describe cómo generar y administrar sugerencias de código SQL para tus preparaciones de datos en BigQuery.

Para obtener más información, consulta Introducción a la preparación de datos de BigQuery.

Antes de comenzar

Abre el editor de preparación de datos en BigQuery

Para abrir el editor de preparación de datos en BigQuery, crea una preparación de datos nueva, crea una a partir de una tabla existente o abre una preparación de datos existente. Para obtener más información sobre lo que sucede cuando creas una preparación de datos, consulta Puntos de entrada de la preparación de datos.

En la página de BigQuery, puedes ir al editor de preparación de datos de las siguientes maneras:

Crear nuevo

Para crear una nueva preparación de datos en BigQuery, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.
    Ir a BigQuery
  2. Ve a la lista Crear nuevo y haz clic en Preparación de datos. El editor de preparación de datos se muestra en una nueva pestaña de preparación de datos sin título.
  3. En la barra de búsqueda del editor, ingresa el nombre de tu tabla o palabras clave y selecciona una tabla. Se abrirá el editor de preparación de datos para la tabla, en el que se mostrará una vista previa de tus datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.

    Aparece un recurso de Preparación de datos en el panel Explorador, en el que podrás acceder a esta preparación en el futuro.
  4. Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en pantalla completa Pantalla completa.

Crear nuevo a partir de la tabla

Para crear una nueva preparación de datos a partir de una tabla existente, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.
    Ir a BigQuery
  2. En el panel Explorador, mantén el puntero sobre una tabla.
  3. Haz clic en more_vert Menú > Consulta en > Preparación de datos. Se abrirá el editor de preparación de datos de la tabla, que mostrará una vista previa de tus datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.

    Aparece un recurso de Preparación de datos en el panel Explorador, en el que podrás acceder a esta preparación en el futuro.
  4. Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en pantalla completa Pantalla completa.

Abrir existente

Para abrir el editor de una preparación de datos existente, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.
    Ir a BigQuery
  2. En el panel Explorador, haz clic en el nombre de tu proyecto y, luego, en preparaciones de datos.
  3. Selecciona la preparación de datos existente. Se muestra la vista de gráfico de la canalización de preparación de datos.
  4. Selecciona uno de los nodos del gráfico. Se abrirá el editor de preparación de datos de la tabla, en el que se mostrará una vista previa de tus datos en la pestaña Datos y un conjunto inicial de sugerencias de preparación de datos de Gemini.
  5. Opcional: Para simplificar la vista, activa el modo de pantalla completa haciendo clic en pantalla completa Pantalla completa.

Agrega pasos de preparación de datos

Preparas los datos en pasos. Puedes obtener una vista previa de los pasos sugeridos por Gemini o aplicarlos. También puedes mejorar las sugerencias o aplicar tus propios pasos.

Aplica y mejora las sugerencias de Gemini

Cuando abres el editor de preparación de datos para tu tabla, Gemini inspecciona los datos y el esquema de la tabla que cargaste, y genera sugerencias de filtros y transformaciones. Las sugerencias aparecen en tarjetas en la lista Pasos.

En la siguiente imagen, se muestra dónde puedes aplicar y mejorar los pasos sugeridos por Gemini:

Vista de datos en el editor de preparación de datos que muestra opciones para obtener una vista previa, editar o aplicar sugerencias de Gemini.

Para aplicar una sugerencia de Gemini como paso de preparación de datos, haz lo siguiente:

  1. En la vista de datos, haz clic en el nombre de una columna o en una celda en particular. Gemini genera sugerencias para filtrar y transformar los datos.
  2. Opcional: Para mejorar las sugerencias, edita los valores de una a tres celdas de la tabla para demostrar cómo deberían verse los valores en una columna. Por ejemplo, ingresa una fecha de la forma en que deseas formatear todas las fechas. Gemini genera nuevas sugerencias en función de tus cambios.

    En la siguiente imagen, se muestra cómo puedes editar los valores para mejorar los pasos que sugiere Gemini:

    Mejora las sugerencias editando los valores en las celdas para demostrar cómo deberían verse los valores en la columna.

  3. Selecciona una tarjeta de sugerencia.

    1. Opcional: Para obtener una vista previa del resultado de la tarjeta de sugerencia, haz clic en Vista previa.
    2. Opcional: Para modificar la tarjeta de sugerencias con lenguaje natural, haz clic en Editar.
  4. Haz clic en Aplicar.

Agrega pasos con lenguaje natural o expresiones SQL

Si las sugerencias existentes no satisfacen tus necesidades, agrega un paso. Elige columnas o un tipo de paso y, luego, describe lo que quieres usando lenguaje natural.

Agrega una transformación

  1. En la vista de datos o de esquema, elige la opción Transformar. También puedes elegir columnas o agregar ejemplos para ayudar a Gemini a comprender tu transformación de datos.
  2. En el campo Descripción, ingresa una instrucción, como Convert the state column to uppercase.
  3. Haz clic en Enviar Enviar.

    Gemini genera una expresión en SQL y una nueva descripción según tu instrucción.

  4. En la lista Columna objetivo, selecciona o ingresa un nombre de columna.

  5. Opcional: Para actualizar la expresión SQL, revisa la instrucción y haz clic en Enviar Enviar o ingresa manualmente una expresión SQL.

  6. Opcional: Haz clic en Vista previa y revisa el paso.

  7. Haz clic en Aplicar.

Cómo compactar columnas JSON

Puedes simplificar los datos JSON de una fuente durante la preparación de los datos. Este proceso, llamado aplanamiento, extrae todos los pares clave-valor de las columnas JSON a la vez y los convierte en sus propias columnas en la tabla. Esto resulta útil cuando necesitas que las estructuras JSON complejas sean más fáciles de analizar o combinar con otros datos.

Gemini para BigQuery sugiere operaciones que extraen campos solo del nivel superior del JSON. Si estos campos extraídos contienen más objetos JSON, puedes aplanarlos en pasos adicionales para acceder a su contenido.

  1. En la vista de datos de una tabla de origen JSON, elige una columna o celdas.
  2. Haz clic en Flatten para generar sugerencias.
  3. Opcional: Para actualizar la expresión de SQL, puedes ingresarla manualmente.
  4. Opcional: Haz clic en Vista previa y revisa el paso.
  5. Haz clic en Aplicar.

El aplanamiento tiene los siguientes comportamientos:

  • La opción Flatten aparece en la vista de datos después de que seleccionas celdas o columnas que contienen JSON. No aparece de forma predeterminada cuando haces clic en Agregar paso.
  • Si no hay una clave JSON en las filas seleccionadas, la sugerencia generada no contendrá esa clave. Este problema puede provocar que se omitan algunas columnas cuando se aplanan los datos.
  • Si los nombres de las columnas coinciden durante el aplanamiento, los nombres de las columnas repetidas terminan con este formato: _<i>. Por ejemplo, si ya existe una columna llamada address, el nuevo nombre de la columna aplanada será address_1.
  • Los nombres de las columnas aplanadas siguen las convenciones de nombres de columnas de BigQuery.
  • Si dejas vacío el campo de clave JSON, el formato predeterminado del nombre de la columna es f<i>_.

Filtra filas

Para agregar un filtro que quite filas, sigue estos pasos:

  1. En la vista de datos o de esquema, elige la opción Filtro. También puedes elegir columnas para ayudar a Gemini a comprender tu filtro de datos.
  2. En el campo Descripción, ingresa una instrucción, como Column ID should not be NULL.
  3. Haz clic en Generar. Gemini genera una expresión en SQL y una nueva descripción según tu instrucción.
  4. Opcional: Para actualizar la expresión SQL, revisa la instrucción y haz clic en Enviar Enviar o ingresa una expresión SQL de forma manual.
  5. Opcional: Haz clic en Vista previa y revisa el paso.
  6. Haz clic en Aplicar.

Formato de la expresión de filtro

Las expresiones SQL para los filtros conservan las filas que coinciden con la condición especificada. Esto equivale a una instrucción SELECT … WHERE SQL_EXPRESSION.

Por ejemplo, para conservar los registros en los que la columna year es mayor o igual que 2000, la condición es year >= 2000.

Las expresiones deben seguir la sintaxis de SQL de BigQuery para la cláusula WHERE.

Configura la tabla de errores y agrega una regla de validación

Puedes agregar un filtro que cree una regla de validación, que envíe errores a una tabla de errores o que falle la ejecución de la preparación de datos.

Configura la tabla de errores

Para configurar tu tabla de errores, sigue estos pasos:

  1. En el editor de preparación de datos, ve a la barra de herramientas y haz clic en Más > Tabla de errores.
  2. Haz clic en Habilitar tabla de errores.
  3. Define la ubicación de la tabla.
  4. Opcional: Define una duración máxima para mantener los errores.
  5. Haz clic en Guardar.

Agrega una regla de validación

Para agregar una regla de validación, sigue estos pasos:

  1. En la vista de datos o de esquema, haz clic en la opción Filtro. También puedes elegir columnas para ayudar a Gemini a comprender tu filtro de datos.
  2. Ingresa una descripción para el paso.
  3. Ingresa una expresión de SQL en forma de una cláusula WHERE.
  4. Opcional: Si deseas que la expresión SQL actúe como una regla de validación, selecciona la casilla de verificación Las filas de validación con errores se envían a la tabla de errores. También puedes cambiar un filtro a una validación en la barra de herramientas de preparación de datos haciendo clic en Más > Tabla de errores.
  5. Opcional: Haz clic en Vista previa y revisa el paso.
  6. Haz clic en Aplicar.

Borra una columna

Para borrar una o más columnas de una preparación de datos, sigue estos pasos:

  1. En la vista de datos o de esquema, selecciona las columnas que deseas descartar.
  2. Haz clic en Soltar. Se agrega un nuevo paso aplicado para las columnas borradas.

Agregar una operación de unión con Gemini

Para agregar un paso de operación de unión entre dos fuentes en tu preparación de datos, sigue estos pasos:

  1. En la vista de datos de un nodo de tu preparación de datos, ve a la lista Sugerencias y haz clic en la opción Unir.
  2. En el diálogo Agregar unión, haz clic en Explorar y, luego, selecciona la otra tabla involucrada en la operación de unión (a la que se hace referencia como el lado derecho de la unión).
  3. Opcional: Selecciona el tipo de operación de unión que deseas realizar, como Unión interna.
  4. Revisa la información de la clave de combinación generada por Gemini en los siguientes campos:

    • Descripción de la unión: Es la descripción en lenguaje natural de la expresión SQL para la operación de unión. Cuando editas esta descripción y haces clic en Enviar Enviar, Gemini sugiere nuevas condiciones de unión en SQL.
    • Condiciones de unión: Son las expresiones de SQL dentro de la cláusula ON para la operación de unión. Puedes usar los calificadores L y R para hacer referencia a las tablas de origen izquierda y derecha, respectivamente. Por ejemplo, para unir la columna customer_id de la tabla izquierda a la columna customer_id de la tabla derecha, ingresa L.customerId = R.customerId. Estos calificadores no distinguen mayúsculas de minúsculas.

  5. Opcional: Para definir mejor las sugerencias de Gemini, edita el campo Descripción para unirse y, luego, haz clic en enviar Enviar.

  6. Opcional: Para obtener una vista previa de la configuración de la operación de unión de tu preparación de datos, haz clic en Vista previa.

  7. Haz clic en Aplicar.

    Se crea el paso de la operación de unión. La tabla de origen que seleccionaste (el lado derecho de la unión) y la operación de unión se reflejan en la lista de pasos aplicados y en los nodos de la vista de gráfico de tu preparación de datos.

Cómo agregar o cambiar una tabla de destino

Para agregar o cambiar una tabla de destino para el resultado de la preparación de datos, sigue estos pasos:

  1. En la vista de datos o de esquema, elige la opción Destino.
  2. Selecciona el proyecto en el que se almacena la tabla de destino.
  3. Selecciona uno de los conjuntos de datos o carga uno nuevo.
  4. Ingresa una tabla de destino. Si la tabla no existe, la preparación de datos crea una tabla nueva en la primera ejecución. Para obtener más información, consulta Modo de escritura.
  5. Selecciona tu conjunto de datos como el conjunto de datos de destino.
  6. Haz clic en Guardar.

Cómo ver la muestra de datos y el esquema de un paso aplicado

Para ver los detalles de la muestra y el esquema en un paso específico de la preparación de datos, haz lo siguiente:

  1. En el editor de preparación de datos, ve a la lista Pasos y haz clic en Pasos aplicados.
  2. Selecciona un paso. Aparecerán las pestañas Data y Schema, en las que se mostrarán la muestra de datos y el esquema correspondientes a este paso en particular.

Cómo editar un paso aplicado

Para editar un paso aplicado, haz lo siguiente:

  1. En el editor de preparación de datos, ve a la lista Pasos y haz clic en Pasos aplicados.
  2. Selecciona un paso.
  3. Junto al paso, haz clic en more_vert Menú > Editar.
  4. En el cuadro de diálogo Edit Applied Step, puedes hacer lo siguiente:
    • Edita la descripción del paso.
    • Para obtener sugerencias de Gemini, edita la descripción y haz clic en Enviar Enviar.
    • Edita la expresión SQL.
  5. En el campo Columna objetivo, selecciona una columna.
  6. Opcional: Haz clic en Vista previa y revisa el paso.
  7. Haz clic en Aplicar.

Cómo borrar un paso aplicado

Para borrar un paso aplicado, haz lo siguiente:

  1. En el editor de preparación de datos, ve a la lista Pasos y haz clic en Pasos aplicados.
  2. Selecciona un paso.
  3. Haz clic en more_vert Menú > Borrar.

Ejecuta la preparación de datos

Después de agregar los pasos de preparación de datos, configurar el destino y corregir los errores de validación, puedes realizar ejecuciones de prueba en una muestra de los datos o implementar los pasos y programar ejecuciones de preparación de datos. Para obtener más información, consulta Programa preparaciones de datos.

Actualiza las muestras de preparación de datos

Los datos de la muestra no se actualizan automáticamente. Si cambiaron los datos de las tablas de origen para la preparación de datos, pero los cambios no se reflejan en la muestra de datos de la preparación, haz clic en Más > Actualizar muestra.

¿Qué sigue?