Introducción a los flujos de trabajo de SQL

En este documento, se explica la arquitectura y la ejecución de los flujos de trabajo de SQL en Dataform.

Puedes usar Dataform para desarrollar, probar y control de versión de flujos de trabajo de SQL que puedes ejecutar en BigQuery para transformar datos con fines de análisis. Puedes desarrollar flujos de trabajo de SQL con Dataform core, usando archivos SQLX y, de manera opcional, archivos JavaScript, o con JavaScript.

Un flujo de trabajo de SQL puede constar de los siguientes objetos:

Declaraciones de fuentes de datos
Declaraciones de fuentes de datos de BigQuery que te permiten hacer referencia a estas fuentes de datos en las definiciones de tablas de Dataform y las operaciones de SQL.
Tablas
Tablas que creas en Dataform en función de las fuentes de datos declaradas o de otras tablas de tu flujo de trabajo de SQL Dataform admite los siguientes tipos de tablas: tabla, tabla incremental, vista y vista materializada.
Aserciones
Consultas de prueba de calidad de los datos que puedes usar para validar los datos de la tabla. Dataform ejecuta aserciones cada vez que actualiza tu flujo de trabajo de SQL y te avisa si alguna falla.
Operaciones de SQL personalizadas
Instrucciones SQL que Dataform ejecuta en BigQuery tal como están, sin modificaciones.
Incluye
Archivos JavaScript con definiciones de variables y funciones que puedes reutilizar en todo tu flujo de trabajo de SQL.

Visualización de un flujo de trabajo de SQL

Puedes ver tu flujo de trabajo de SQL visualizado en forma de un grafo acíclico dirigido (DAG). El DAG muestra todos los objetos del flujo de trabajo de SQL definidos en tu espacio de trabajo y las relaciones entre ellos. Puedes acercar y alejar la imagen, y usar la función de arrastrar y soltar para navegar por el DAG. Si hay errores de compilación en tu flujo de trabajo de SQL, Dataform muestra un mensaje de error en lugar del DAG.

Para ver el DAG de tu flujo de trabajo de SQL, en tu espacio de trabajo, haz clic en Gráfico compilado.

Ejecución de un flujo de trabajo de SQL

En tu espacio de trabajo de desarrollo, puedes activar manualmente la ejecución de todo tu flujo de trabajo de SQL, una selección de acciones o una selección de etiquetas.

Puedes programar ejecuciones con parámetros de configuración de lanzamiento y parámetros de configuración de flujo de trabajo de Dataform. Primero, crea una configuración de versión para crear resultados de compilación de tu repositorio. Luego, crea una configuración de flujo de trabajo, selecciona una configuración de lanzamiento, elige las acciones de flujo de trabajo de SQL que deseas ejecutar y establece la programación de ejecución.

Como alternativa, puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler.

Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery, siguiendo el orden de las dependencias de objetos en tu flujo de trabajo de SQL. Después de la ejecución, puedes usar las tablas y vistas definidas para todos tus fines de análisis en BigQuery.

Opciones de configuración de la ejecución

Para ejecutar un grupo específico de objetos de tu flujo de trabajo de SQL, puedes agregar etiquetas de ejecución de Dataform a los archivos que selecciones. Luego, puedes ejecutar solo los archivos con una etiqueta seleccionada cuando actives la ejecución de forma manual.

De forma predeterminada, Dataform ejecuta tu flujo de trabajo de SQL con la configuración de ejecución definida en el archivo dataform.json. Puedes anular estos parámetros de configuración de ejecución con anulaciones de compilación.

Con las anulaciones de compilación de lugares de trabajo, puedes convertir los lugares de trabajo en entornos de ejecución aislados. Esto significa que, cuando activas de forma manual la ejecución en un espacio de trabajo, Dataform ejecuta el resultado en una ubicación aislada en BigQuery.

Para crear y ejecutar un solo resultado de compilación con anulaciones de compilación, puedes pasar solicitudes con la API de Dataform.

Con las configuraciones de lanzamiento, puedes configurar anulaciones de compilación para todo tu repositorio, así como la frecuencia con la que se crean los resultados de compilación con los parámetros de configuración aplicados.

Para obtener más información sobre las formas de configurar la compilación y el ciclo de vida del código en Dataform, consulta Introducción al ciclo de vida del código en Dataform.

¿Qué sigue?