Crear un flujo de procesamiento de datos

En esta guía de inicio rápido se explica cómo hacer lo siguiente:

  1. Crea una instancia de Cloud Data Fusion.
  2. Despliega una canalización de ejemplo que se proporciona con tu instancia de Cloud Data Fusion. El flujo de procesamiento hace lo siguiente:
    1. Lee un archivo JSON que contiene datos de los libros más vendidos del New York Times de Cloud Storage.
    2. Ejecuta transformaciones en el archivo para analizar y limpiar los datos.
    3. Carga en BigQuery los libros mejor valorados que se han añadido en la última semana y que cuestan menos de 25 USD.

Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. Crear una instancia de Cloud Data Fusion

    1. Haz clic en Crear una instancia.

      Ir a Instancias

    2. Introduzca un nombre de instancia.
    3. Escriba una descripción de la instancia.
    4. Introduce la región en la que quieras crear la instancia.
    5. Elige la versión de Cloud Data Fusion que quieras usar.
    6. Elige la edición de Cloud Data Fusion.
    7. En las versiones 6.2.3 y posteriores de Cloud Data Fusion, en el campo Autorización, elige la cuenta de servicio de Dataproc que quieras usar para ejecutar tu flujo de procesamiento de Cloud Data Fusion en Dataproc. El valor predeterminado, Cuenta de Compute Engine, está preseleccionado.
    8. Haz clic en Crear. El proceso de creación de la instancia puede tardar hasta 30 minutos en completarse. Mientras Cloud Data Fusion crea tu instancia, se muestra una rueda de progreso junto al nombre de la instancia en la página Instancias. Una vez completado, se convierte en una marca de verificación verde e indica que puedes empezar a usar la instancia.

    Cuando usas Cloud Data Fusion, utilizas tanto la Google Cloud consola como la interfaz web independiente de Cloud Data Fusion.

    • En la consola Google Cloud , puedes hacer lo siguiente:

      • Crea un Google Cloud proyecto de consola
      • Crear y eliminar instancias de Cloud Data Fusion
      • Ver los detalles de la instancia de Cloud Data Fusion
    • En la interfaz web de Cloud Data Fusion, puede usar varias páginas, como Studio o Wrangler, para usar las funciones de Cloud Data Fusion.

    Para desplazarte por la interfaz de Cloud Data Fusion, sigue estos pasos:

    1. En la Google Cloud consola, abre la página Instancias.

      Ir a Instancias

    2. En la columna Acciones de la instancia, haga clic en el enlace Ver instancia.
    3. En la interfaz web de Cloud Data Fusion, usa el panel de navegación de la izquierda para ir a la página que necesites.

    Desplegar un flujo de procesamiento de ejemplo

    Puedes acceder a flujos de procesamiento de ejemplo a través del hub de Cloud Data Fusion, que te permite compartir flujos de procesamiento, complementos y soluciones reutilizables de Cloud Data Fusion.

    1. En la interfaz web de Cloud Data Fusion, haga clic en Hub.
    2. En el panel de la izquierda, haz clic en Pipelines.
    3. Haz clic en el flujo de procesamiento Guía de inicio rápido de Cloud Data Fusion.
    4. Haz clic en Crear.
    5. En el panel de configuración de la guía de inicio rápido de Cloud Data Fusion, haz clic en Finalizar.
    6. Haz clic en Personalizar flujo de trabajo.

      En la página Studio, que es una interfaz gráfica para desarrollar pipelines de integración de datos, se muestra una representación visual de tu pipeline. Los complementos de la canalización disponibles se muestran a la izquierda y tu canalización se muestra en el área de lienzo principal. Para explorar tu canalización, mantén el puntero sobre cada nodo de la canalización y haz clic en Propiedades. El menú de propiedades de cada nodo te permite ver los objetos y las operaciones asociados al nodo.

    7. En el menú de la parte superior derecha, haz clic en Implementar. En este paso se envía el flujo de procesamiento a Cloud Data Fusion. Ejecutarás el flujo de trabajo en la siguiente sección de esta guía de inicio rápido.

    Desplegar el flujo de procesamiento

    Ver tu flujo de procesamiento

    El flujo de procesamiento implementado aparece en la vista de detalles del flujo, donde puede hacer lo siguiente:

    • Ver la estructura y la configuración de la canalización.
    • Ejecuta la canalización manualmente o configura una programación o un activador.
    • Consulta un resumen del historial de ejecuciones de la canalización, incluidos los tiempos de ejecución, los registros y las métricas.

    Copia la cuenta de servicio.

    Ejecutar un flujo de procesamiento

    En la vista de detalles de la canalización, haz clic en Ejecutar para ejecutarla.

    Ejecutar el flujo de procesamiento

    Cuando se ejecuta un flujo de procesamiento, Cloud Data Fusion hace lo siguiente:

    1. Aprovisiona un clúster de Dataproc efímero.
    2. Ejecuta la canalización en el clúster mediante Apache Spark.
    3. Elimina el clúster.

    Ver los resultados

    Al cabo de unos minutos, la canalización finalizará. El estado de la canalización cambia a Correcto y se muestra el número de registros procesados por cada nodo.

    Ejecución de flujo de procesamiento completada

    1. Ve a la interfaz web de BigQuery.
    2. Para ver una muestra de los resultados, ve al conjunto de datos DataFusionQuickstart de tu proyecto, haz clic en la tabla top_rated_inexpensive y ejecuta una consulta sencilla. Por ejemplo:

      SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
      

      Sustituye PROJECT_ID por el ID del proyecto.

    Ver resultados

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    1. Elimina el conjunto de datos de BigQuery en el que ha escrito tu canalización en esta guía de inicio rápido.
    2. Elimina la instancia de Cloud Data Fusion.

    3. Opcional: Elimina el proyecto.

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Siguientes pasos

    • Sigue un tutorial de Cloud Data Fusion
    • Consulta información sobre los conceptos de Cloud Data Fusion.