Dataflow si basa sul progetto open source Apache Beam. Questo documento descrive il modello di programmazione Apache Beam.
Panoramica
Apache Beam è un modello unificato open source per definire pipeline sia in batch sia in streaming. Il modello di programmazione Apache Beam semplifica la meccanica dell'elaborazione dei dati su vasta scala. Utilizzando uno degli SDK Apache Beam, crei un programma che definisce la pipeline. Dopodiché, esegui la pipeline su una piattaforma specifica come Dataflow. Questo modello ti consente di concentrarti sulla composizione logica del job di elaborazione dei dati, anziché gestire l'orchestrazione dell'elaborazione parallela.
Apache Beam ti isola dai dettagli di basso livello dell'elaborazione distribuita, come il coordinamento dei singoli worker, la suddivisione dei set di dati e altre attività simili. Dataflow gestisce completamente questi dettagli di basso livello.
Una pipeline è un grafico di trasformazioni applicate a raccolte di dati. In Apache Beam, una raccolta è chiamata PCollection
e una
trasformazione è chiamata PTransform
. Un PCollection
può essere limitato o illimitato.
Un PCollection
delimitato ha una dimensione fissa nota e può essere elaborato utilizzando una pipeline batch. PCollections
illimitati devono utilizzare una pipeline di streaming, perché
i dati vengono elaborati man mano che arrivano.
Apache Beam fornisce connettori per leggere e scrivere in diversi sistemi, inclusi Google Cloud servizi e tecnologie di terze parti come Apache Kafka.
Il seguente diagramma mostra una pipeline Apache Beam.
Puoi scrivere PTransforms
che eseguono una logica arbitraria. Gli SDK Apache Beam
forniscono anche una libreria di PTransforms
utili predefinite, tra cui
le seguenti:
- Filtra tutti gli elementi che non soddisfano un predicato.
- Applica una funzione di mappatura uno a uno a ogni elemento.
- Raggruppa gli elementi per chiave.
- Contare gli elementi in una raccolta
- Conta gli elementi associati a ogni chiave in una raccolta chiave-valore.
Per eseguire una pipeline Apache Beam utilizzando Dataflow, segui questi passaggi:
- Utilizza l'SDK Apache Beam per definire e creare la pipeline. In alternativa, puoi eseguire il deployment di una pipeline predefinita utilizzando un modello Dataflow.
- Utilizza Dataflow per eseguire la pipeline. Dataflow alloca un pool di VM per eseguire il job, esegue il deployment del codice nelle VM e orchestra l'esecuzione del job.
- Dataflow esegue ottimizzazioni nel backend per consentire alla pipeline di essere eseguita in modo efficiente e sfruttare il parallelismo.
- Mentre un job è in esecuzione e al termine, utilizza le funzionalità di gestione di Dataflow per monitorare l'avanzamento e risolvere i problemi.
Concetti di Apache Beam
Questa sezione contiene riepiloghi dei concetti fondamentali.
Concetti di base
- Pipeline
- Una pipeline incapsula l'intera serie di calcoli coinvolti nella lettura dei dati di input, nella loro trasformazione e nella scrittura dei dati di output. L'origine
di input e il sink di output possono essere dello stesso tipo o di tipi diversi, consentendoti di
convertire i dati da un formato all'altro. I programmi Apache Beam iniziano con la
costruzione di un oggetto
Pipeline
, che viene poi utilizzato come base per creare i set di dati della pipeline. Ogni pipeline rappresenta un singolo job ripetibile. - PCollection
- Un
PCollection
rappresenta un set di dati multielemento potenzialmente distribuito che funge da dati della pipeline. Le trasformazioni Apache Beam utilizzano oggettiPCollection
come input e output per ogni passaggio della pipeline. UnPCollection
può contenere un set di dati di dimensioni fisse o un set di dati senza limiti da un'origine dati in continuo aggiornamento. - Trasformazioni
- Una trasformazione rappresenta un'operazione di elaborazione che trasforma i dati. Una
trasformazione accetta uno o più
PCollection
come input, esegue un'operazione che specifichi su ogni elemento della raccolta e produce uno o piùPCollection
come output. Una trasformazione può eseguire quasi qualsiasi tipo di operazione di elaborazione, inclusi calcoli matematici sui dati, conversione dei dati da un formato a un altro, raggruppamento dei dati, lettura e scrittura dei dati, filtraggio dei dati per restituire solo gli elementi che ti interessano o combinazione degli elementi di dati in singoli valori. - ParDo
ParDo
è l'operazione di elaborazione parallela principale negli SDK Apache Beam, che richiama una funzione specificata dall'utente su ciascuno degli elementi dell'inputPCollection
.ParDo
raccoglie zero o più elementi di output in un outputPCollection
. La trasformazioneParDo
elabora gli elementi in modo indipendente e possibilmente in parallelo. La funzione definita dall'utente per unParDo
è chiamataDoFn
.- I/O della pipeline
- I connettori I/O di Apache Beam ti consentono di leggere i dati nella pipeline e scrivere i dati di output dalla pipeline. Un connettore I/O è costituito da un'origine e un sink. Tutte le origini e i sink Apache Beam sono trasformazioni che consentono alla pipeline di utilizzare dati provenienti da diversi formati di archiviazione. Puoi anche scrivere un connettore I/O personalizzato.
- Aggregazione L'aggregazione
- è il processo di calcolo di un valore da più elementi di input. Il pattern di calcolo principale per l'aggregazione in Apache Beam consiste nel raggruppare tutti gli elementi con una chiave e una finestra comuni. Poi combina ogni gruppo di elementi utilizzando un'operazione associativa e commutativa.
- Funzioni definite dall'utente
- Alcune operazioni all'interno di Apache Beam consentono di eseguire codice definito dall'utente come
modo per configurare la trasformazione. Per
ParDo
, il codice definito dall'utente specifica l'operazione da applicare a ogni elemento, mentre perCombine
specifica la modalità di combinazione dei valori. Una pipeline potrebbe contenere UDF scritte in una lingua diversa da quella del runner. Una pipeline può contenere anche UDF scritte in più lingue. - Runner
- I runner sono il software che accetta una pipeline e la esegue. La maggior parte dei runner sono traduttori o adattatori per sistemi di elaborazione di big data massicciamente paralleli. Esistono altri runner per test e debug locali.
- Origine
- Una trasformazione che legge da un sistema di archiviazione esterno. Una pipeline in genere legge i dati di input da un'origine. L'origine ha un tipo, che può essere diverso dal tipo di destinazione, quindi puoi modificare il formato dei dati mentre si spostano nella pipeline.
- Sink
- Una trasformazione che scrive in un sistema di archiviazione dati esterno, ad esempio un file o un database.
- TextIO
- Un PTransform per la lettura e la scrittura di file di testo. L'origine e il sink TextIO
supportano i file compressi con
gzip
ebzip2
. L'origine input TextIO supporta JSON. Tuttavia, affinché il servizio Dataflow possa parallelizzare l'input e l'output, i dati di origine devono essere delimitati con un avanzamento riga. Puoi utilizzare un'espressione regolare per scegliere come target file specifici con l'origine TextIO. Dataflow supporta i pattern jolly generali. L'espressione glob può essere visualizzata in qualsiasi punto del percorso. Tuttavia, Dataflow non supporta i caratteri jolly ricorsivi (**
).
Concetti avanzati
- Ora evento
- L'ora in cui si verifica un evento di dati, determinata dal timestamp dell'elemento di dati stesso. Ciò è in contrasto con il momento in cui l'elemento di dati effettivo viene elaborato in qualsiasi fase della pipeline.
- Windowing
- Il windowing consente di raggruppare le operazioni su raccolte illimitate dividendo la raccolta in finestre di raccolte finite in base ai timestamp dei singoli elementi. Una funzione di windowing indica al runner come assegnare gli elementi a una finestra iniziale e come unire le finestre degli elementi raggruppati. Apache Beam ti consente di definire diversi tipi di finestre o di utilizzare le funzioni di finestre predefinite.
- Filigrane
- Apache Beam tiene traccia di una filigrana, ovvero la nozione del sistema di quando tutti i dati in una determinata finestra possono essere previsti per essere arrivati nella pipeline. Apache Beam tiene traccia di un watermark perché non è garantito che i dati arrivino in una pipeline in ordine cronologico o a intervalli prevedibili. Inoltre, non è garantito che gli eventi di dati vengano visualizzati nella pipeline nello stesso ordine in cui sono stati generati.
- Trigger
- I trigger determinano quando emettere i risultati aggregati all'arrivo dei dati. Per i dati delimitati, i risultati vengono emessi dopo l'elaborazione di tutti gli input. Per i dati senza limiti, i risultati vengono emessi quando la filigrana supera la fine della finestra, il che indica che il sistema ritiene che tutti i dati di input per quella finestra siano stati elaborati. Apache Beam fornisce diversi trigger predefiniti e ti consente di combinarli.
Passaggi successivi
- Per saperne di più sui concetti di base della creazione di pipeline utilizzando gli SDK Apache Beam, consulta la guida alla programmazione di Apache Beam nella documentazione di Apache Beam.
- Per maggiori dettagli sulle funzionalità di Apache Beam supportate da Dataflow, consulta la matrice delle funzionalità di Apache Beam.