En esta página se explica cómo instalar el SDK de Apache Beam para poder ejecutar flujos de procesamiento en el servicio Dataflow.
Instalar versiones del SDK
El SDK de Apache Beam es un modelo de programación de código abierto para las canalizaciones de datos. Estos flujos se definen con un programa de Apache Beam y se puede elegir un ejecutor, como Dataflow, para ejecutar el flujo.
Java
La versión más reciente del SDK de Apache Beam para Java es la 2.67.0. Consulta el anuncio de la versión para obtener información sobre los cambios incluidos en ella.
Para obtener el SDK de Apache Beam para Java con Maven, usa uno de los artefactos publicados del repositorio central de Maven.
Añade dependencias y herramientas de gestión de dependencias al archivo pom.xml
del artefacto del SDK. Para obtener más información, consulta Gestionar dependencias de canalizaciones en Dataflow.
Para obtener más información sobre las dependencias del SDK de Apache Beam para Java, consulta los artículos Dependencias del SDK de Apache Beam para Java y Gestión de dependencias de Beam en Java de la documentación de Apache Beam.
Python
La última versión lanzada del SDK de Apache Beam para Python es la 2.67.0. Consulta el anuncio de la versión para obtener información sobre los cambios incluidos en ella.
Para obtener el SDK de Apache Beam para Python, usa uno de los paquetes publicados en el índice de paquetes de Python.
Instala Python wheel ejecutando el siguiente comando:
pip install wheel
Instala la versión más reciente del SDK de Apache Beam para Python ejecutando el siguiente comando desde un entorno virtual:
pip install 'apache-beam[gcp]'
En función de la conexión, la instalación puede tardar un poco.
Para actualizar una instalación de apache-beam, usa la marca --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
La última versión publicada del SDK de Apache Beam para Go es la 2.67.0. Consulta el anuncio de la versión para obtener información sobre los cambios incluidos en ella.
Para instalar la versión más reciente del SDK de Apache Beam para Go, ejecuta el siguiente comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configurar un entorno de desarrollo
Para obtener información sobre cómo configurar tu proyecto de Google Cloud Platform y tu entorno de desarrollo para usar Dataflow, sigue uno de los tutoriales:
- Crea un flujo de procesamiento de Dataflow con Java
- Crea un flujo de procesamiento de Dataflow con Python
- Crea un flujo de procesamiento de Dataflow con Go
Código fuente y ejemplos
El código fuente de Apache Beam está disponible en el repositorio de Apache Beam de GitHub.
Java
Hay ejemplos de código disponibles en el directorio Examples de Apache Beam en GitHub.
Python
Los ejemplos de código están disponibles en el directorio Examples de Apache Beam en GitHub.
Go
Los ejemplos de código están disponibles en el directorio Examples de Apache Beam en GitHub.
Buscar la versión del SDK de Dataflow
Los detalles de la instalación dependen de tu entorno de desarrollo. Si usas Maven, puedes tener varias versiones del SDK de Dataflow "instaladas" en uno o varios repositorios Maven locales.
Java
Para saber qué versión del SDK de Dataflow está ejecutando una determinada canalización, puedes consultar el resultado de la consola al ejecutarla con DataflowPipelineRunner
o BlockingDataflowPipelineRunner
. La consola mostrará un mensaje como el siguiente, que contiene la información de la versión del SDK de Dataflow:
Python
Para saber qué versión del SDK de Dataflow está ejecutando un flujo de procesamiento determinado, puedes consultar la salida de la consola al ejecutarlo con DataflowRunner
. La consola mostrará un mensaje como el siguiente, que contiene la información de la versión del SDK de Dataflow:
Go
Para saber qué versión del SDK de Dataflow está ejecutando un flujo de procesamiento determinado, puedes consultar la salida de la consola al ejecutarlo con DataflowRunner
. La consola mostrará un mensaje como el siguiente, que contiene la información de la versión del SDK de Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Siguientes pasos
- Dataflow se integra con Google Cloud CLI. Para obtener instrucciones sobre cómo instalar la interfaz de línea de comandos de Dataflow, consulta el artículo Usar la interfaz de línea de comandos de Dataflow.
- Para saber qué funciones de Apache Beam admite Dataflow, consulta la matriz de funciones de Apache Beam.