Introduzione alla trasformazione dei dati
Questo documento descrive i diversi modi in cui puoi trasformare i dati nelle tue tabelle BigQuery.
Per ulteriori informazioni sulle integrazioni di dati, consulta Introduzione al caricamento, alla trasformazione e all'esportazione dei dati.
Metodi di trasformazione dei dati
Puoi trasformare i dati in BigQuery nei seguenti modi:
- Utilizza il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery.
- Utilizza le viste materializzate per memorizzare automaticamente nella cache i risultati di una query per migliorare le prestazioni e l'efficienza.
- Utilizza le query continue per analizzare i dati in entrata in tempo reale e inserire continuamente le righe di output in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.
- Utilizza Dataform per sviluppare, testare, controllare le versioni e pianificare i flussi di lavoro SQL in BigQuery.
- Utilizza la preparazione dei dati con consigli di trasformazione basati sull'AI e consapevoli del contesto per pulire i dati per l'analisi.
La tabella seguente mostra le diverse caratteristiche di ciascun metodo di trasformazione.
Metodo di trasformazione | Destinazione della trasformazione | Metodo di definizione | Frequenza di trasformazione |
---|---|---|---|
Data Manipulation Language (DML) | Tabella (in situ) | DML SQL | Avviata dall'utente o programmata |
Viste materializzate | Vista materializzata | Query SQL | Aggiornamento automatico o manuale |
Query continue | Tabella, Argomento Pub/Sub, Tabella Bigtable | Query SQL con EXPORT DATA | Continua |
Dataform | Tabella | Dataform core (SQLX) | Pianificati (flussi di lavoro) |
Preparazione dei dati | Tabella | Editor visivo | Pianificato |
Puoi anche esaminare la cronologia delle modifiche di una tabella BigQuery per esaminare le trasformazioni apportate a una tabella in un intervallo di tempo specificato.
Trasformare i dati con DML
Puoi utilizzare il Data Manipulation Language (DML) per trasformare i dati nelle tabelle BigQuery. Le istruzioni DML sono query GoogleSQL che manipolano i dati delle tabelle esistenti per aggiungere o eliminare righe, modificare i dati nelle righe esistenti o unire i dati con i valori di un'altra tabella. Le trasformazioni DML sono supportate anche nelle tabelle partizionate.
Puoi eseguire più istruzioni DML contemporaneamente, in cui BigQuery mette in coda diverse istruzioni DML che trasformano i dati uno dopo l'altro. BigQuery gestisce il modo in cui vengono eseguite le istruzioni DML concorrenti, in base al tipo di trasformazione.
Trasformare i dati con le viste materializzate
Le viste materializzate sono viste predeterminate che memorizzano nella cache i risultati di una query SQL periodicamente per migliorare le prestazioni e l'efficienza. BigQuery sfrutta i risultati precalcolati dalle viste materializzate e ogni volta che è possibile legge solo le modifiche delle tabelle di base per calcolare i risultati aggiornati.
Le viste materializzate vengono precalcolate in background quando le tabelle di base cambiano. Eventuali modifiche incrementali dei dati delle tabelle di base vengono aggiunte automaticamente alle viste materializzate, senza alcuna azione da parte dell'utente.
Trasformare i dati con query continue
Le query continue sono istruzioni SQL eseguite continuamente. Le query continue ti consentono di analizzare i dati in entrata in BigQuery in tempo reale. Puoi inserire le righe di output prodotte da una query continua in una tabella BigQuery o esportarle in Pub/Sub o Bigtable.
Trasformare i dati con Dataform
Dataform ti consente di gestire la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo aver estratto i dati non elaborati dai sistemi di origine e averli caricati in BigQuery, puoi utilizzare Dataform per trasformarli in una suite di tabelle organizzata, testata e documentata. Mentre in DML utilizzi un approccio imperativo indicando a BigQuery come trasformare esattamente i dati, in Dataform scrivi dichiarazioni dichiarative in base alle quali Dataform determina la trasformazione necessaria per raggiungere lo stato in questione.
In Dataform, puoi sviluppare, testare e controllare la versione dei flussi di lavoro SQL per la trasformazione dei dati dalle dichiarazioni delle origini dati alle tabelle, alle viste o alle viste materializzate di output. Puoi sviluppare flussi di lavoro SQL con Dataform core o con JavaScript puro. Dataform core è un metalinguaggio open source che estende SQL con SQLX e JavaScript. Puoi utilizzare Dataform Core per gestire le dipendenze, configurare test automatici della qualità dei dati e documentare le descrizioni delle tabelle o delle colonne all'interno del codice.
Dataform archivia il codice del tuo flusso di lavoro SQL nei repository e utilizza Git per monitorare le modifiche ai file. Gli spazi di lavoro di sviluppo in Dataform ti consentono di lavorare sui contenuti del repository senza influire sul lavoro di altri che lavorano nello stesso repository. Puoi collegare i repository Dataform a provider Git di terze parti, tra cui Azure DevOps Services, Bitbucket, GitHub e GitLab.
Puoi eseguire o pianificare i flussi di lavoro SQL con le configurazioni delle release e dei flussi di lavoro di Dataform. In alternativa, puoi pianificare le esecuzioni con Cloud Composer o con Workflows e Cloud Scheduler. Durante l'esecuzione, Dataform esegue le query SQL in BigQuery in ordine di dipendenze degli oggetti nel tuo workflow SQL. Dopo l'esecuzione, puoi utilizzare le tabelle e le viste definite per l'analisi in BigQuery.
Per scoprire di più sulla creazione di flussi di lavoro SQL per la trasformazione dei dati in Dataform, consulta la panoramica di Dataform e la panoramica delle funzionalità di Dataform.
Prepara i dati in BigQuery
Per ridurre la complessità della preparazione dei dati, BigQuery ti consente di pulirli con suggerimenti di trasformazione generati da Gemini. La preparazione dei dati in BigQuery offre la seguente assistenza:
- Applicazione di trasformazioni e regole di qualità dei dati
- Standardizzazione e arricchimento dei dati
- Automatizzare la mappatura dello schema
Puoi convalidare i risultati in un'anteprima dei dati prima di eseguire le modifiche su tutti i dati.
Per ulteriori informazioni, consulta Introduzione alla preparazione dei dati di BigQuery.
Passaggi successivi
- Per scoprire di più su DML, consulta Trasformare i dati con il Data Manipulation Language (DML).
- Per saperne di più su Dataform, consulta la panoramica di Dataform.