Modello di programmazione per Apache Beam

Dataflow si basa sul progetto open source Apache Beam. Questo documento descrive il modello di programmazione Apache Beam.

Panoramica

Apache Beam è un modello unificato open source per definire pipeline sia in batch sia in streaming. Il modello di programmazione Apache Beam semplifica la meccanica dell'elaborazione dei dati su vasta scala. Utilizzando uno degli SDK Apache Beam, crei un programma che definisce la pipeline. Dopodiché, esegui la pipeline su una piattaforma specifica come Dataflow. Questo modello ti consente di concentrarti sulla composizione logica del job di elaborazione dei dati, anziché gestire l'orchestrazione dell'elaborazione parallela.

Apache Beam ti isola dai dettagli di basso livello dell'elaborazione distribuita, come il coordinamento dei singoli worker, la suddivisione dei set di dati e altre attività simili. Dataflow gestisce completamente questi dettagli di basso livello.

Una pipeline è un grafico di trasformazioni applicate a raccolte di dati. In Apache Beam, una raccolta è chiamata PCollection e una trasformazione è chiamata PTransform. Un PCollection può essere limitato o illimitato. Un PCollection delimitato ha una dimensione fissa nota e può essere elaborato utilizzando una pipeline batch. PCollections illimitati devono utilizzare una pipeline di streaming, perché i dati vengono elaborati man mano che arrivano.

Apache Beam fornisce connettori per leggere e scrivere in diversi sistemi, inclusi Google Cloud servizi e tecnologie di terze parti come Apache Kafka.

Il seguente diagramma mostra una pipeline Apache Beam.

Diagramma di una pipeline Apache Beam

Puoi scrivere PTransforms che eseguono una logica arbitraria. Gli SDK Apache Beam forniscono anche una libreria di PTransforms utili predefinite, tra cui le seguenti:

  • Filtra tutti gli elementi che non soddisfano un predicato.
  • Applica una funzione di mappatura uno a uno a ogni elemento.
  • Raggruppa gli elementi per chiave.
  • Contare gli elementi in una raccolta
  • Conta gli elementi associati a ogni chiave in una raccolta chiave-valore.

Per eseguire una pipeline Apache Beam utilizzando Dataflow, segui questi passaggi:

  1. Utilizza l'SDK Apache Beam per definire e creare la pipeline. In alternativa, puoi eseguire il deployment di una pipeline predefinita utilizzando un modello Dataflow.
  2. Utilizza Dataflow per eseguire la pipeline. Dataflow alloca un pool di VM per eseguire il job, esegue il deployment del codice nelle VM e orchestra l'esecuzione del job.
  3. Dataflow esegue ottimizzazioni nel backend per consentire alla pipeline di essere eseguita in modo efficiente e sfruttare il parallelismo.
  4. Mentre un job è in esecuzione e al termine, utilizza le funzionalità di gestione di Dataflow per monitorare l'avanzamento e risolvere i problemi.

Concetti di Apache Beam

Questa sezione contiene riepiloghi dei concetti fondamentali.

Concetti di base

Pipeline
Una pipeline incapsula l'intera serie di calcoli coinvolti nella lettura dei dati di input, nella loro trasformazione e nella scrittura dei dati di output. L'origine di input e il sink di output possono essere dello stesso tipo o di tipi diversi, consentendoti di convertire i dati da un formato all'altro. I programmi Apache Beam iniziano con la costruzione di un oggetto Pipeline, che viene poi utilizzato come base per creare i set di dati della pipeline. Ogni pipeline rappresenta un singolo job ripetibile.
PCollection
Un PCollection rappresenta un set di dati multielemento potenzialmente distribuito che funge da dati della pipeline. Le trasformazioni Apache Beam utilizzano oggetti PCollection come input e output per ogni passaggio della pipeline. Un PCollection può contenere un set di dati di dimensioni fisse o un set di dati senza limiti da un'origine dati in continuo aggiornamento.
Trasformazioni
Una trasformazione rappresenta un'operazione di elaborazione che trasforma i dati. Una trasformazione accetta uno o più PCollection come input, esegue un'operazione che specifichi su ogni elemento della raccolta e produce uno o più PCollection come output. Una trasformazione può eseguire quasi qualsiasi tipo di operazione di elaborazione, inclusi calcoli matematici sui dati, conversione dei dati da un formato a un altro, raggruppamento dei dati, lettura e scrittura dei dati, filtraggio dei dati per restituire solo gli elementi che ti interessano o combinazione degli elementi di dati in singoli valori.
ParDo
ParDo è l'operazione di elaborazione parallela principale negli SDK Apache Beam, che richiama una funzione specificata dall'utente su ciascuno degli elementi dell'input PCollection. ParDo raccoglie zero o più elementi di output in un output PCollection. La trasformazione ParDo elabora gli elementi in modo indipendente e possibilmente in parallelo. La funzione definita dall'utente per un ParDo è chiamata DoFn.
I/O della pipeline
I connettori I/O di Apache Beam ti consentono di leggere i dati nella pipeline e scrivere i dati di output dalla pipeline. Un connettore I/O è costituito da un'origine e un sink. Tutte le origini e i sink Apache Beam sono trasformazioni che consentono alla pipeline di utilizzare dati provenienti da diversi formati di archiviazione. Puoi anche scrivere un connettore I/O personalizzato.
Aggregazione
L'aggregazione
è il processo di calcolo di un valore da più elementi di input. Il pattern di calcolo principale per l'aggregazione in Apache Beam consiste nel raggruppare tutti gli elementi con una chiave e una finestra comuni. Poi combina ogni gruppo di elementi utilizzando un'operazione associativa e commutativa.
Funzioni definite dall'utente
Alcune operazioni all'interno di Apache Beam consentono di eseguire codice definito dall'utente come modo per configurare la trasformazione. Per ParDo, il codice definito dall'utente specifica l'operazione da applicare a ogni elemento, mentre per Combine specifica la modalità di combinazione dei valori. Una pipeline potrebbe contenere UDF scritte in una lingua diversa da quella del runner. Una pipeline può contenere anche UDF scritte in più lingue.
Runner
I runner sono il software che accetta una pipeline e la esegue. La maggior parte dei runner sono traduttori o adattatori per sistemi di elaborazione di big data massicciamente paralleli. Esistono altri runner per test e debug locali.
Origine
Una trasformazione che legge da un sistema di archiviazione esterno. Una pipeline in genere legge i dati di input da un'origine. L'origine ha un tipo, che può essere diverso dal tipo di destinazione, quindi puoi modificare il formato dei dati mentre si spostano nella pipeline.
Sink
Una trasformazione che scrive in un sistema di archiviazione dati esterno, ad esempio un file o un database.
TextIO
Un PTransform per la lettura e la scrittura di file di testo. L'origine e il sink TextIO supportano i file compressi con gzip e bzip2. L'origine input TextIO supporta JSON. Tuttavia, affinché il servizio Dataflow possa parallelizzare l'input e l'output, i dati di origine devono essere delimitati con un avanzamento riga. Puoi utilizzare un'espressione regolare per scegliere come target file specifici con l'origine TextIO. Dataflow supporta i pattern jolly generali. L'espressione glob può essere visualizzata in qualsiasi punto del percorso. Tuttavia, Dataflow non supporta i caratteri jolly ricorsivi (**).

Concetti avanzati

Ora evento
L'ora in cui si verifica un evento di dati, determinata dal timestamp dell'elemento di dati stesso. Ciò è in contrasto con il momento in cui l'elemento di dati effettivo viene elaborato in qualsiasi fase della pipeline.
Windowing
Il windowing consente di raggruppare le operazioni su raccolte illimitate dividendo la raccolta in finestre di raccolte finite in base ai timestamp dei singoli elementi. Una funzione di windowing indica al runner come assegnare gli elementi a una finestra iniziale e come unire le finestre degli elementi raggruppati. Apache Beam ti consente di definire diversi tipi di finestre o di utilizzare le funzioni di finestre predefinite.
Filigrane
Apache Beam tiene traccia di una filigrana, ovvero la nozione del sistema di quando tutti i dati in una determinata finestra possono essere previsti per essere arrivati nella pipeline. Apache Beam tiene traccia di un watermark perché non è garantito che i dati arrivino in una pipeline in ordine cronologico o a intervalli prevedibili. Inoltre, non è garantito che gli eventi di dati vengano visualizzati nella pipeline nello stesso ordine in cui sono stati generati.
Trigger
I trigger determinano quando emettere i risultati aggregati all'arrivo dei dati. Per i dati delimitati, i risultati vengono emessi dopo l'elaborazione di tutti gli input. Per i dati senza limiti, i risultati vengono emessi quando la filigrana supera la fine della finestra, il che indica che il sistema ritiene che tutti i dati di input per quella finestra siano stati elaborati. Apache Beam fornisce diversi trigger predefiniti e ti consente di combinarli.

Passaggi successivi

Apache Beam® è un marchio registrato di Apache Software Foundation o delle sue affiliate negli Stati Uniti e/o in altri paesi.