Questo documento descrive come leggere i dati da BigQuery in Dataflow.
Panoramica
Per la maggior parte dei casi d'uso, ti consigliamo di utilizzare I/O gestita per leggere da BigQuery. I/O gestita offre funzionalità come upgrade automatici e un'API di configurazione coerente. Quando legge da BigQuery, I/O gestita esegue letture di tabelle dirette che offrono le migliori prestazioni di lettura.
Se hai bisogno di una messa a punto del rendimento più avanzata, ti consigliamo di utilizzare il BigQueryIO
connettore. Il connettore BigQueryIO
supporta sia le letture dirette delle tabelle sia la lettura dai job di esportazione BigQuery. Offre inoltre un controllo più granulare sulla deserializzazione dei record della tabella. Per ulteriori informazioni, consulta Utilizzare il connettore BigQueryIO
in questo documento.
Proiezione e filtri delle colonne
Per ridurre il volume di dati che la pipeline legge da BigQuery, puoi utilizzare le seguenti tecniche:
- La proiezione delle colonne specifica un sottoinsieme di colonne da leggere dalla tabella. Utilizza la proiezione delle colonne quando la tabella ha un numero elevato di colonne e devi solo leggere un sottoinsieme.
- Il filtro delle righe specifica un predicato da applicare alla tabella. L'operazione di lettura di BigQuery restituisce solo le righe corrispondenti al filtro, il che può ridurre la quantità totale di dati importati dalla pipeline.
L'esempio seguente legge le colonne "user_name"
e "age"
di una tabella
e filtra le righe che non corrispondono al predicato "age > 18"
. Questo esempio utilizza I/O gestita.
Java
Per autenticarti a Dataflow, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Leggere da un risultato di query
L'esempio seguente utilizza l'I/O gestita per leggere il risultato di una query SQL. Esegue una query su un set di dati pubblico BigQuery. Puoi anche utilizzare query SQL per leggere da una vista BigQuery o da una vista materializzata.
Java
Per autenticarti a Dataflow, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Utilizzare il connettore BigQueryIO
Il connettore BigQueryIO
supporta i seguenti metodi di serializzazione:
- Leggi i dati come record in formato Avro. Con questo metodo fornisci una funzione che analizza i record Avro in un tipo di dato personalizzato.
- Leggi i dati come oggetti
TableRow
. Questo metodo è comodo perché non richiede un tipo di dati personalizzato. Tuttavia, in genere ha prestazioni inferiori rispetto alla lettura dei record in formato Avro.
Il connettore supporta due opzioni per la lettura dei dati:
- Esporta job. Per impostazione predefinita, il connettore
BigQueryIO
esegue un job di esportazione BigQuery che scrive i dati della tabella in Cloud Storage. Il connettore legge quindi i dati da Cloud Storage. - Letture di tabelle dirette. Questa opzione è più veloce dei job di esportazione perché utilizza l'API BigQuery Storage Read e salta il passaggio di esportazione. Per utilizzare le letture di tabelle dirette, chiama
withMethod(Method.DIRECT_READ)
quando crei la pipeline.
Quando scegli quale opzione utilizzare, considera i seguenti punti:
In genere, consigliamo di utilizzare letture di tabelle dirette. L'API Storage Read è più adatta alle pipeline di dati rispetto ai job di esportazione, perché non richiede il passaggio intermedio dell'esportazione dei dati.
Se utilizzi le letture dirette, ti viene addebitato l'utilizzo dell'API Storage Read. Consulta la sezione Prezzi dell'estrazione dei dati nella pagina dei prezzi di BigQuery.
Non sono previsti costi aggiuntivi per i job di esportazione. Tuttavia, i job di esportazione hanno limiti. Per il trasferimento di grandi quantità di dati, dove la tempestività è una priorità e il costo è regolabile, sono consigliate le letture dirette.
L'API Storage di lettura ha limiti di quota. Utilizza le metricheGoogle Cloud per monitorare l'utilizzo della quota.
Se utilizzi i job di esportazione, imposta l'
--tempLocation
opzione della pipeline per specificare un bucket Cloud Storage per i file esportati.Quando utilizzi l'API Storage di lettura, potresti visualizzare errori di scadenza del lease e di timeout della sessione nei log, ad esempio:
DEADLINE_EXCEEDED
Server Unresponsive
StatusCode.FAILED_PRECONDITION details = "there was an error operating on 'projects/<projectID>/locations/<location>/sessions/<sessionID>/streams/<streamID>': session
`
Questi errori possono verificarsi quando un'operazione richiede più tempo del timeout, solitamente nelle pipeline che vengono eseguite per più di 6 ore. Per risolvere il problema, passa alle esportazioni dei file.
Il grado di parallelismo dipende dal metodo di lettura:
Letture dirette: il connettore I/O produce un numero dinamico di stream in base alle dimensioni della richiesta di esportazione. Legge questi stream direttamente da BigQuery in parallelo.
Job di esportazione: BigQuery determina il numero di file da scrivere in Cloud Storage. Il numero di file dipende dalla query e dal volume di dati. Il connettore I/O legge i file esportati in parallelo.
La tabella seguente mostra le metriche relative alle prestazioni per varie opzioni di lettura I/O di BigQuery. I carichi di lavoro sono stati eseguiti su un workere2-standard2
utilizzando l'SDK Apache Beam 2.49.0 per Java. Non
hanno utilizzato Runner v2.
100 milioni di record | 1 kB | 1 colonna | Velocità effettiva (byte) | Velocità effettiva (elementi) |
---|---|---|
Lettura dello spazio di archiviazione | 120 MB/s | 88.000 elementi al secondo |
Avro Export | 105 MB/s | 78.000 elementi al secondo |
Esportazione JSON | 110 MB/s | 81.000 elementi al secondo |
Queste metriche si basano su semplici pipeline batch. Sono progettati per confrontare il rendimento tra i connettori I/O e non sono necessariamente rappresentativi delle pipeline reali. Le prestazioni della pipeline Dataflow sono complesse e dipendono dal tipo di VM, dai dati in fase di elaborazione, dalle prestazioni di origini e destinazioni esterne e dal codice utente. Le metriche si basano sull'esecuzione dell'SDK Java e non sono rappresentative delle caratteristiche di prestazioni di altri SDK per lingua. Per ulteriori informazioni, consulta Rendimento IO di Beam.
Esempi
I seguenti esempi di codice utilizzano il connettore BigQueryIO
con letture di tabelle dirette. Per utilizzare un job di esportazione, ometti la chiamata a withMethod
.
Leggere i record nel formato Avro
Questo esempio mostra come utilizzare il connettore BigQueryIO
per leggere i record in formato Avro.
Per leggere i dati di BigQuery in record in formato Avro, utilizza il metodo
read(SerializableFunction)
. Questo metodo accetta una funzione definita dall'applicazione che analizza gli oggetti SchemaAndRecord
e restituisce un tipo di dati personalizzato. L'output del connettore è un PCollection
del tuo
tipo di dati personalizzato.
Il seguente codice legge un PCollection<MyData>
da una tabella BigQuery, dove MyData
è una classe definita dall'applicazione.
Java
Per autenticarti a Dataflow, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Il metodo read
accetta un'interfaccia SerializableFunction<SchemaAndRecord, T>
,
che definisce una funzione per la conversione dai record Avro a una classe di dati personalizzata. Nel
l'esempio di codice precedente, il metodo MyData.apply
implementa questa funzione di conversione. La funzione di esempio analizza i campi name
e age
del record Avro e restituisce un'istanza MyData
.
Per specificare la tabella BigQuery da leggere, chiama il metodo from
, come mostrato nell'esempio precedente. Per ulteriori informazioni, consulta
Nomi delle tabelle
nella documentazione del connettore BigQuery I/O.
Leggi oggetti TableRow
Questo esempio mostra come utilizzare il connettore BigQueryIO
per leggere gli oggetti TableRow
.
Il metodo readTableRows
legge i dati di BigQuery in un PCollection
di oggetti TableRow
. Ogni TableRow
è una mappa di coppie chiave-valore che contiene una singola riga di dati della tabella. Specifica la tabella BigQuery da leggere chiamando il metodo from
.
Il seguente codice legge un PCollection<TableRows>
da una tabella BigQuery.
Java
Per autenticarti a Dataflow, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Questo esempio mostra anche come accedere ai valori del dizionario TableRow
.
I valori interi vengono codificati come stringhe in modo da corrispondere al formato JSON estratto di BigQuery.