Descripción general de las plantillas de flujo de trabajo de Dataproc

La API de plantillas de flujo de trabajo de Dataproc proporciona un mecanismo fácil de usar y flexible para administrar y ejecutar flujos de trabajo. Una plantilla de flujo de trabajo es una configuración reutilizable de flujo de trabajo. Define un grafo de trabajos con información sobre dónde ejecutar esos trabajos.

Puntos clave:

  • La creación de una instancia de una plantilla de trabajo inicia un flujo de trabajo. Un flujo de trabajo es una operación que ejecuta un grafo acíclico dirigido (DAG) de los trabajos en un clúster.
    • Si el flujo de trabajo usa un clúster administrado, crea el clúster, ejecuta los trabajos y, luego, borra el clúster cuando finalizan los trabajos.
    • Si el flujo de trabajo usa un selector de clúster, ejecuta trabajos en un clúster seleccionado existente.
  • Los flujos de trabajo son ideales para flujos de trabajo complejos. Puedes crear dependencias de trabajo de manera tal que un trabajo comience solo después de que las dependencias se completen con éxito.
  • Cuando creas una plantilla de flujo de trabajo, Dataproc no crea un clúster ni envía trabajos a un clúster. Dataproc crea o selecciona un clúster y ejecuta trabajos de flujo de trabajo en él cuando se crea una instancia de una plantilla de flujo de trabajo.

Tipos de plantillas de flujo de trabajo

Clúster administrado

Una plantilla de flujo de trabajo puede especificar un clúster administrado. El flujo de trabajo creará "efímero" clúster para ejecutar trabajos de flujo de trabajo y, luego, borrarlo cuando finalice el flujo de trabajo.

Selector de clústeres

Una plantilla de flujo de trabajo puede especificar un clúster existente en el que se ejecutará el flujo de trabajo trabajos mediante la especificación de una o más etiquetas de usuario conectados previamente al clúster. El flujo de trabajo se ejecutará en un clúster que coincida con todas las etiquetas. Si varios clústeres coinciden todas las etiquetas, Dataproc selecciona el clúster con Memoria YARN disponible para ejecutar todos los trabajos de flujo de trabajo. Al final del flujo de trabajo, Dataproc no borra el clúster seleccionado. Consulta Usa selectores de clúster con flujos de trabajo para obtener más información.

Parametrizado

Si quieres ejecutar una plantilla de flujo de trabajo varias veces con valores diferentes, usa parámetros para evitar editar la plantilla de flujo de trabajo en cada ejecución:

  1. definir los parámetros en la plantilla y, luego,

  2. pasar diferentes valores para los parámetros de cada ejecución.

Consulta Parametrización de plantillas de flujo de trabajo para obtener más información.

Intercalada

Se pueden crear instancias de flujos de trabajo intercalados mediante el comando gcloud con archivos YAML de plantillas de flujo de trabajo o mediante una llamada a la API de InstantiateInline de Dataproc (consulta Cómo usar flujos de trabajo intercalados de Dataproc). Los flujos de trabajo intercalados no crean ni modifican los recursos de la plantilla de flujo de trabajo.

Casos de uso de la plantilla de flujo de trabajo

  • Automatización de tareas repetitivas. Los flujos de trabajo encapsulan las configuraciones y los trabajos de clúster de uso frecuente.

  • Modelo de interacción de la API transaccional, enviar y olvidar. Plantillas de flujo de trabajo reemplazar los pasos involucrados en un flujo típico, que incluyen

    1. crea el clúster
    2. envío de trabajos
    3. sondeo
    4. borrando el clúster

    Las plantillas de flujo de trabajo usan un solo token para hacer un seguimiento del progreso desde la creación del clúster hasta la eliminación, y automatizar el manejo y la recuperación de errores. También simplifican la integración de Dataproc con otras herramientas, como las funciones de Cloud Run y Cloud Composer.

  • Asistencia para clústeres longevos y efímeros. Una complejidad común asociada con la ejecución de Apache Hadoop ajusta y acomoda el tamaño correcto de los clústeres. Los clústeres efímeros (administrados) son más fáciles de configurar debido a que ejecutan un solo flujo de trabajo. Los selectores de clúster se pueden usar con clústeres longevos para ejecutar varias veces la misma carga de trabajo sin incurrir en el costo amortizado de crear y borrar clústeres.

  • Seguridad de IAM detallada. La creación de clústeres de Dataproc y el envío de trabajos requieren permisos de IAM de todo o nada. Las plantillas de flujo de trabajo usan un permiso workflowTemplates.instantiate por plantilla y no dependen de permisos de clúster o trabajo.