Diseña y crea una canalización reutilizable


En este instructivo, se muestra cómo compilar una canalización reutilizable que lee datos desde Cloud Storage, realiza verificaciones de calidad de los datos y escribe en Cloud Storage.

Las canalizaciones reutilizables tienen una estructura de canalización normal, pero puedes cambiar la configuración de cada nodo de canalización según las configuraciones que proporciona un servidor HTTP. Por ejemplo, una canalización estática puede leer datos de Cloud Storage, aplicar transformaciones y escribir en una tabla de salida de BigQuery. Si quieres y una tabla de salida de BigQuery para cambiar según el un archivo de Cloud Storage que lee la canalización, debes crear en una canalización de integración continua.

Objetivos

  • Usa el complemento set de argumentos de Cloud Storage para permitir que la canalización lea diferentes en cada ejecución.
  • Usa el complemento set de argumentos de Cloud Storage para permitir que la canalización realice verificaciones de calidad diferentes en cada ejecución.
  • Escribir los datos de salida de cada ejecución en Cloud Storage

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Enable the Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc APIs.

    Enable the APIs

  7. Crea una instancia de Cloud Data Fusion.

Cuando usas Cloud Data Fusion, usas la consola de Google Cloud y la interfaz web separada de Cloud Data Fusion. En la consola de Google Cloud, puede crear un proyecto de la consola de Google Cloud, y crear y borrar Instancias de Cloud Data Fusion. En la interfaz web de Cloud Data Fusion, puedes usar las distintas páginas, como Pipeline Studio o Wrangler, para usar las funciones de Cloud Data Fusion.

  1. En la consola de Google Cloud, abre la página Instancias.

    Abrir la página de instancias

  2. En la columna Acciones de la instancia, haz clic en el vínculo Ver instancia. La interfaz web de Cloud Data Fusion se abrirá en una nueva pestaña del navegador.

Implementa el complemento set de argumentos de Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a la página Studio.

  2. En el menú Acciones, haz clic en Método set de argumentos de GCS.

Lee desde Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a la página Studio.
  2. Haz clic en . Origen y selecciona Cloud Storage. El nodo de una fuente de Cloud Storage aparece en la canalización.
  3. En el nodo de Cloud Storage, haz clic en Properties.

  4. En el campo Nombre de referencia, ingresa un nombre.

  5. En el campo Ruta de acceso, ingresa ${input.path}. Esta macro controla cuál será la ruta de acceso de entrada de Cloud Storage en las diferentes ejecuciones de la canalización.

  6. En el panel Output Schema (Esquema de salida), quita el campo offset del resultado. del esquema haciendo clic en el ícono de papelera en la fila del campo de desplazamiento.

  7. Haz clic en Validar y corrige cualquier error.

  8. Haz clic en para salir de Properties. .

Transforma tus datos

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página de Studio.
  2. En el menú desplegable Transform , haz lo siguiente: selecciona Wrangler.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo de Cloud Storage. al nodo Wrangler.
  4. Ve al nodo de Wrangler en tu canalización y haz clic en Properties.
  5. En el Nombre del campo de entrada, ingresa body.
  6. En el campo Receta, ingresa ${directives}. Esta macro controla cuál será la lógica de transformación en las diferentes ejecuciones de canalizaciones.
  7. Haz clic en Validar y corrige los errores.
  8. Haz clic en para salir de Properties. .

Escribir en Cloud Storage

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página Studio.
  2. En el menú desplegable Receptor , selecciona Cloud Storage.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo de Wrangler hasta de Cloud Storage que acabas de agregar.
  4. Ve al nodo receptor de Cloud Storage en tu canalización y haz clic en Properties.
  5. En el campo Nombre de referencia, ingresa un nombre.
  6. En el campo Ruta de acceso, ingresa la ruta de un depósito de Cloud Storage en tu proyecto, en el que tu canalización puede escribir los archivos de salida. Si no tienes un depósito de Cloud Storage, crea uno.
  7. Haz clic en Validar y corrige cualquier error.
  8. Haz clic en para salir del diálogo Properties.

Establece los argumentos de macro

  1. En la interfaz web de Cloud Data Fusion, ve a tu canalización de datos en la página Studio.
  2. En En el menú desplegable Condiciones y acciones, haz clic en Método set de argumentos de GCS.
  3. En el lienzo de Pipeline Studio, arrastra una flecha desde el nodo set de argumentos de Cloud Storage hasta el nodo fuente de Cloud Storage.
  4. Ve al nodo set de argumentos de Cloud Storage en tu canalización y haz clic en Propiedades.
  5. En el campo URL, ingresa la siguiente URL:

    gs://reusable-pipeline-tutorial/args.json
    

    La URL corresponde a un objeto de acceso público en Cloud Storage que incluye el siguiente contenido:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    El primero de los dos argumentos es el valor de input.path. La ruta de acceso gs://reusable-pipeline-tutorial/user-emails.txt es un objeto de acceso público en Cloud Storage que contiene los siguientes datos de prueba:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    El segundo argumento es el valor de directives. El valor send-to-error !dq:isEmail(body) configura Wrangler para filtrar cualquier línea que no sea una dirección de correo electrónico válida. Por ejemplo, se filtra craig@invalid@example.com.

  6. Haz clic en Validar para asegurarte de que no haya ningún error.

  7. Haz clic en para salir de Properties. .

Implementa y ejecuta la canalización

  1. En la barra superior de la página de Pipeline Studio, haz clic en Asignar un nombre a la canalización. Asígnele un nombre a la canalización y haz clic en Guardar.

  2. Haz clic en Implementar.

  3. Para abrir los Argumentos del entorno de ejecución y ver la macro (entorno de ejecución), haz lo siguiente: input.path y directives, haz clic en el ícono desplegable junto a Ejecutar.

    Deja los campos de valor en blanco para notificar a Cloud Data Fusion que el El nodo set de argumentos de Cloud Storage de la canalización establecerá los valores de estos argumentos durante el tiempo de ejecución.

  4. Haz clic en Ejecutar.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Una vez que completaste el instructivo, limpia los recursos que creaste en Google Cloud para evitar que se te facture por ellos en el futuro. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.

Borra la instancia de Cloud Data Fusion

Sigue las instrucciones para borrar tu instancia de Cloud Data Fusion.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?