Introducción a la transformación de datos
En este documento, se describen las diferentes formas de transformar datos en tus tablas de BigQuery.
Para obtener más información sobre las integraciones de datos, consulta Introducción a la carga, transformación y exportación de datos.
Métodos de transformación de datos
Puedes transformar datos en BigQuery de las siguientes maneras:
- Usa el lenguaje de manipulación de datos (DML) para transformar datos en tus tablas de BigQuery.
- Usa vistas materializadas para almacenar en caché automáticamente los resultados de una consulta y aumentar el rendimiento y la eficiencia.
- Usa consultas continuas para analicen los datos entrantes en tiempo real y, de forma continua, inserten las filas de salida en una tabla de BigQuery o exporten a Pub/Sub o Bigtable.
- Usa Dataform para desarrollar, probar, controlar versiones y programar flujos de trabajo de SQL en BigQuery.
- Usa la preparación de datos con recomendaciones de transformación generadas por IA y adaptadas al contexto para limpiar los datos y analizarlos.
En la siguiente tabla, se muestran las diferentes características de cada método de transformación.
Método de transformación | Objetivo de transformación | Método de definición | Frecuencia de transformación |
---|---|---|---|
Lenguaje de manipulación de datos (DML) | Tabla (in situ) | DML de SQL | Iniciado por el usuario o programado |
Vistas materializadas | Vista materializada | Consulta de SQL | Actualización automática o manual |
Consultas continuas | Tabla, tema de Pub/Sub, tabla de Bigtable | Consulta de SQL con EXPORT DATA | Continuo |
Dataform | Tabla | Núcleo de Dataform (SQLX) | Programado (flujos de trabajo) |
Preparación de datos | Tabla | Editor visual | Programado |
También puedes revisar el historial de cambios de una tabla de BigQuery para examinar las transformaciones realizadas a una tabla en un intervalo de tiempo específico.
Transforma datos con DML
Puedes usar el lenguaje de manipulación de datos (DML) para transformar datos en tus tablas de BigQuery. Las declaraciones DML son consultas de GoogleSQL que manipulan datos de tablas existentes para agregar o borrar filas, modificar datos en filas existentes o combinar datos con valores de otra tabla. Las transformaciones DML también son compatibles con las tablas particionadas.
Puedes ejecutar varias declaraciones DML de forma simultánea, y BigQuery pone en cola varias declaraciones DML que transforman tus datos una tras otra. BigQuery administra cómo se ejecutan las declaraciones DML simultáneas, según el tipo de transformación.
Transforma datos con vistas materializadas
Las vistas materializadas son vistas procesadas previamente que almacenan en caché de forma periódica los resultados de una consulta en SQL para aumentar el rendimiento y la eficiencia. BigQuery aprovecha los resultados procesados previamente de las vistas materializadas y, siempre que sea posible, lee solo los cambios de las tablas base para calcular los resultados actualizados.
Las vistas materializadas se precalculan en segundo plano cuando las tablas base cambian. Cualquier cambio en los datos incrementales de las tablas base se agrega automáticamente a las vistas materializadas, sin necesidad de que el usuario realice ninguna acción.
Transforma datos con consultas continuas
Las consultas continuas son instrucciones de SQL que se ejecutan de forma continua. Las consultas continuas te permiten analizar datos entrantes en BigQuery en tiempo real. Puedes insertar las filas de salida que genera una consulta continua en una tabla de BigQuery o exportarlas a Pub/Sub o Bigtable.
Transforma datos con Dataform
Dataform te permite administrar la transformación de datos en el proceso de extracción, carga y transformación (ELT) para la integración de datos. Después de extraer datos sin procesar de los sistemas de origen y cargarlos en BigQuery, puedes usar Dataform para transformarlos en un conjunto de tablas organizados, probados y documentados. Mientras que en DML adoptas un enfoque imperativo cuando le indicas a BigQuery cómo transformar tus datos con exactitud, en Dataform, escribes declaraciones declarativas en las que Dataform determina la transformación necesaria para lograr ese estado.
En Dataform, puedes desarrollar, probar y controlar la versión de flujos de trabajo de SQL para la transformación de datos desde declaraciones de fuentes de datos hasta tablas de salida, vistas o vistas materializadas. Puedes desarrollar flujos de trabajo de SQL con Dataform core o JavaScript puro. Dataform core es un metalenguaje de código abierto que extiende SQL con SQLX y JavaScript. Puedes usar Dataform Core para administrar dependencias, configurar pruebas automatizadas de calidad de los datos y crear descripciones de tablas o columnas de documentos dentro del código.
Dataform almacena el código de flujo de trabajo de SQL en repositorios y usa Git para realizar un seguimiento de los cambios de los archivos. Los lugares de trabajo de desarrollo en Dataform te permiten trabajar en el contenido del repositorio sin afectar el trabajo de otras personas que trabajan en el mismo repositorio. Puedes conectar repositorios de Dataform a proveedores de Git de terceros, incluidos Azure DevOps Services, Bitbucket, GitHub y GitLab.
Puedes ejecutar o programar flujos de trabajo de SQL con parámetros de configuración de lanzamiento y de flujo de trabajo de Dataform. Como alternativa, puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler. Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery en orden de dependencias de objetos en tu flujo de trabajo de SQL. Después de la ejecución, puedes usar las tablas y vistas definidas para el análisis en BigQuery.
Para obtener más información sobre la creación de flujos de trabajo de SQL de transformación de datos en Dataform, consulta la Descripción general de Dataform y Descripción general de las funciones de Dataform.
Preparar datos en BigQuery
Para reducir el trabajo de preparación de datos, BigQuery te permite limpiar los datos con sugerencias de transformación generadas por Gemini. La preparación de datos en BigQuery ofrece la siguiente asistencia:
- Aplicar transformaciones y reglas de calidad de los datos
- Estandarización y enriquecimiento de datos
- Automatiza la asignación de esquemas
Puedes validar los resultados en una vista previa de tus datos antes de ejecutar los cambios en todos tus datos.
Para obtener más información, consulta Introducción a la preparación de datos de BigQuery.
¿Qué sigue?
- Para obtener más información sobre DML, consulta Transforma datos con lenguaje de manipulación de datos (DML).
- Para obtener más información sobre Dataform, consulta la Descripción general de Dataform.