Introduzione a una migrazione da Teradata a BigQuery
Questo documento illustra i motivi per cui potresti eseguire la migrazione da Teradata a BigQuery, confronta le funzionalità di Teradata e BigQuery e fornisce una panoramica dei passaggi per iniziare la migrazione a BigQuery.
Perché eseguire la migrazione da Teradata a BigQuery?
Teradata è stata una delle prime aziende a innovare nella gestione e nell'analisi di volumi di dati considerevoli. Tuttavia, con l'evoluzione delle tue esigenze di cloud computing, potresti aver bisogno di una soluzione più moderna per l'analisi dei dati.
Se in precedenza hai utilizzato Teradata, ti consigliamo di eseguire la migrazione a BigQuery per i seguenti motivi:
- Superare i vincoli delle piattaforme legacy
- L'architettura convenzionale di Teradata spesso fatica a soddisfare le esigenze dell'analisi moderna, in particolare la necessità di concorrenza illimitata e prestazioni costantemente elevate per diversi carichi di lavoro. L'architettura senza server in BigQuery è progettata per gestire queste richieste con il minimo sforzo.
- Adotta una strategia cloud-native
- Molte organizzazioni stanno passando in modo strategico dall'infrastruttura on-premise al cloud. Questo passaggio richiede di abbandonare le soluzioni convenzionali basate su hardware come Teradata in favore di un servizio completamente gestito, scalabile e on demand come BigQuery per ridurre l'overhead operativo.
- Integrazione con origini dati e analisi moderne
- I dati aziendali chiave si trovano sempre più in origini basate sul cloud. BigQuery è integrato in modo nativo con l' Google Cloud ecosistema, fornendo un accesso agevole a queste origini e consentendo analisi avanzate, machine learning ed elaborazione dei dati in tempo reale senza le limitazioni dell'infrastruttura di Teradata.
- Ottimizzare costi e scalabilità
- Teradata spesso prevede processi di scalabilità complessi e costosi. BigQuery offre una scalabilità trasparente e automatica sia dello spazio di archiviazione sia del calcolo in modo indipendente, eliminando la necessità di una ricofigurazione manuale e offrendo un costo totale di proprietà più prevedibile e spesso inferiore.
Confronto delle funzioni
La seguente tabella mette a confronto le funzionalità e i concetti di Teradata con le funzionalità equivalenti in BigQuery:
Teradata Concept | Equivalente BigQuery | Descrizione |
---|---|---|
Teradata (on-premise, cloud, ibrido) | BigQuery (piattaforma di dati unificata e basata sull'AI). BigQuery offre un ampio insieme di funzionalità aggiuntive rispetto a un data warehouse tradizionale. | BigQuery è un data warehouse cloud-native completamente gestito su Google Cloud. Teradata offre opzioni on-premise, cloud e ibride. BigQuery è serverless e disponibile su tutti i cloud come BQ Omni. |
Strumenti Teradata (Teradata Studio, BTEQ) | Google Cloud console, BigQuery Studio, lo strumento a riga di comando bq | Entrambi offrono interfacce per gestire e interagire con il data warehouse. BigQuery Studio è basato sul web e integrato con Google Cloud e consente di scrivere SQL, Python e Apache Spark. |
Database/schemi | Set di dati | In Teradata, i database e gli schemi vengono utilizzati per organizzare tabelle e viste, in modo simile ai set di dati BigQuery. Tuttavia, il modo in cui vengono gestiti e utilizzati può variare. |
Tabella | Tabella | Entrambe le piattaforme utilizzano le tabelle per archiviare i dati in righe e colonne. |
Visualizza | Visualizza | Le viste funzionano in modo simile in entrambe le piattaforme e consentono di creare tabelle virtuali in base alle query. |
Chiave primaria | Chiave primaria (non applicata in SQL standard) | BigQuery supporta le chiavi primarie non applicate in SQL standard. Questi valori sono principalmente utili per ottimizzare BigQuery con l'ottimizzazione delle query. |
Chiave esterna | Chiave esterna (non applicata in SQL standard) | BigQuery supporta le chiavi esterne non applicate in SQL standard. Questi valori sono principalmente utili per ottimizzare BigQuery con l'ottimizzazione delle query. |
Indice | Raggruppamento, indici di ricerca, indici di vettori (automatici o gestiti) | Teradata consente la creazione di indici espliciti. Ti consigliamo di utilizzare il clustering in BigQuery. Sebbene non sia equivalente agli indici di database, il clustering consente di archiviare i dati ordinati su disco e di ottimizzare il recupero dei dati quando le colonne raggruppate vengono utilizzate come predicati. BigQuery supporta gli indici di ricerca e gli indici vettoriali. |
Partizionamento | Partizionamento | Entrambe le piattaforme supportano il partizionamento delle tabelle per migliorare le prestazioni delle query su tabelle di grandi dimensioni. BigQuery supporta solo il partizionamento per date e numeri interi. Per le stringhe, utilizza invece il clustering. |
Allocazione delle risorse (in base a hardware e licenze) | Prenotazioni (in base alla capacità), prezzi on demand (prezzi di analisi) | BigQuery offre modelli di determinazione dei prezzi flessibili. Le prenotazioni offrono costi prevedibili per i carichi di lavoro coerenti e ad hoc che utilizzano la scalabilità automatica, mentre i prezzi on demand si concentrano sugli addebiti per la scansione dei byte per query. |
BTEQ, SQL Assistant, altri strumenti client | BigQuery Studio, lo strumento a riga di comando bq, le API | BigQuery fornisce varie interfacce per l'esecuzione di query, tra cui un editor web, uno strumento a riga di comando e API per l'accesso programmatico. |
Query di logging/cronologia | Cronologia delle query, INFORMATION_SCHEMA.JOBS |
BigQuery mantiene una cronologia delle query eseguite, che ti consente di esaminare le query passate, analizzare le prestazioni e risolvere i problemi. INFORMATION_SCHEMA.JOBS mantiene la cronologia di tutti i job inviati negli ultimi 6 mesi. |
Funzionalità di sicurezza (controllo dell'accesso, crittografia) | Funzionalità di sicurezza (IAM, ACL, crittografia) | Entrambi offrono una sicurezza solida. BigQuery utilizza Google Cloud IAM per controllo dell'accesso granulare. |
Controlli di rete (firewall, VPN) | Controlli di servizio VPC, Accesso privato Google | BigQuery si integra con Controlli di servizio VPC per limitare l'accesso alle risorse BigQuery da reti specifiche. L'accesso privato Google ti consente di accedere a BigQuery senza utilizzare IP pubblici. |
Gestione utenti e ruoli | Identity and Access Management (IAM) | BigQuery utilizza IAM per controllo dell'accesso granulare dell'accesso. Puoi concedere autorizzazioni specifiche a utenti e account di servizio a livello di progetto, set di dati e tabella. |
Concessi e ruoli negli oggetti | Elenchi di controllo di accesso (ACL) su set di dati e tabelle | BigQuery ti consente di definire ACL su set di dati e tabelle per controllare l'accesso a livello granulare. |
Crittografia dei dati at-rest e in transito | Crittografia at-rest e in transito, chiavi di crittografia gestite dal cliente (CMEK), le chiavi possono essere ospitate in sistemi EKM esterni. | BigQuery cripta i dati per impostazione predefinita. Puoi anche gestire le tue chiavi di crittografia per un maggiore controllo. |
Funzionalità di governance e conformità dei dati | Criteri di governance dei dati, DLP (Prevenzione della perdita di dati) | BigQuery supporta i criteri di governance dei dati e il DLP per aiutarti a applicare i requisiti di conformità e sicurezza dei dati. |
Utilità di caricamento Teradata (ad es. FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, lo strumento a riga di comando bq, le API | BigQuery fornisce vari metodi di caricamento dei dati. Teradata dispone di utilità di caricamento specializzate. BigQuery mette l'accento sulla scalabilità e sulla velocità per l'importazione dati. |
Teradata Export Utilities, bteq | Strumento a riga di comando bq, API, Esporta in Cloud Storage | BigQuery offre l'esportazione dei dati in varie destinazioni. Teradata ha i propri strumenti di esportazione. L'integrazione di BigQuery con Cloud Storage è un vantaggio fondamentale. L'API BigQuery Storage di lettura fornisce a qualsiasi unità di calcolo esterna la possibilità di leggere i dati collettivamente. |
Tabelle esterne | Tabelle esterne | Entrambi supportano l'esecuzione di query sui dati nello spazio di archiviazione esterno. BigQuery si integra bene con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage, Google Drive. |
Viste materializzate | Viste materializzate | Entrambi offrono viste materializzate per le prestazioni delle query. BigQuery fornisce viste materializzate con ottimizzazione intelligente che restituiscono sempre dati attuali e forniscono anche la riscrittura automatica delle query nelle viste materializzate anche quando la query fa riferimento alla tabella di base. |
Funzioni definite dall'utente | Funzioni definite dall'utente (UDF) (SQL, JavaScript) | BigQuery supporta le funzioni definite dall'utente in SQL e JavaScript. |
Teradata Scheduler, altri strumenti di pianificazione | Query pianificate, Cloud Composer, Cloud Functions, pipeline BigQuery | BigQuery si integra con Google Cloud servizi di pianificazione e altri strumenti di pianificazione esterni. |
Viewpoint | Amministrazione di BigQuery per monitoraggio, controllo di integrità, esplorazione dei job e gestione della capacità. | BigQuery offre una cassetta degli attrezzi di amministrazione completa basata su interfaccia utente che contiene diversi riquadri per monitorare lo stato di integrità operativo e l'utilizzo delle risorse. |
Backup e ripristino | Clonazione dei set di dati, viaggio nel tempo e fail safe, snapshot e clonazione delle tabelle, archiviazione regionale e multiregionale, backup e recupero tra regioni. | BigQuery offre snapshot e viaggi nel tempo per il recupero dei dati. Lo spostamento nel tempo è una funzionalità che ti consente di accedere ai dati storici in un determinato periodo di tempo. BigQuery offre anche la clonazione dei set di dati, lo spazio di archiviazione regionale e multiregionale e opzioni di backup e ripristino tra regioni. |
Funzioni geospaziali | Funzioni geospaziali | Entrambe le piattaforme supportano dati e funzioni geospaziali. |
Da dove iniziare?
Scopri di più sulla procedura di migrazione da Teradata a BigQuery nelle sezioni seguenti:
Esegui una valutazione della migrazione
Per iniziare la migrazione da Teradata a BigQuery, ti consigliamo di eseguire lo strumento di valutazione della migrazione a BigQuery per valutare la fattibilità e i potenziali vantaggi del trasferimento del tuo data warehouse da Teradata a BigQuery. Questo strumento fornisce un approccio strutturato per comprendere l'ambiente Teradata attuale e stimare lo sforzo necessario per una migrazione di successo.
L'esecuzione dello strumento di valutazione della migrazione di BigQuery produce un report di valutazione contenente le seguenti sezioni:
- Report sul sistema esistente: uno snapshot del sistema Teradata esistente e del relativo utilizzo, incluso il numero di database, schemi, tabelle e dimensioni totali in TB. Elenca inoltre gli schemi in base alle dimensioni e indica un potenziale utilizzo suboptimale delle risorse, ad esempio tabelle senza scritture o con poche letture.
- Suggerimenti per la trasformazione in stato stabile di BigQuery: mostra come sarà il sistema in BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i carichi di lavoro su BigQuery ed evitare sprechi.
- Piano di migrazione: fornisce informazioni sull'impegno necessario per la migrazione stessa. Ad esempio, passare dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il conteggio delle query che sono state traduzione automaticamente e il tempo stimato per spostare ogni tabella in BigQuery.
Per ulteriori informazioni sui risultati di una valutazione della migrazione, vedi Esaminare il report di Looker Studio.
Eseguire la migrazione di schema e dati da Teradata
Dopo aver esaminato i risultati della valutazione della migrazione, puoi avviare la migrazione di Teradata preparando BigQuery per la migrazione, quindi configurando un job di trasferimento dati.
Per ulteriori informazioni sulla procedura di migrazione di Teradata, consulta Eseguire la migrazione di schema e dati da Teradata.
Convalidare la migrazione
Dopo aver eseguito la migrazione dei dati di Teradata a BigQuery, esegui lo strumento di convalida dei dati (DVT) per eseguire una convalida dei dati sui dati di BigQuery di nuova migrazione. Il DVT convalida varie funzioni, dal livello di tabella al livello di riga, per verificare che i dati di cui è stata eseguita la migrazione funzionino come previsto. Per ulteriori informazioni sul DVT, consulta Introduzione allo strumento di convalida dei dati per le migrazioni EDW.
Puoi accedere al DVT nel repository GitHub pubblico del DVT.
Passaggi successivi
- Prova una migrazione di prova da Teradata a BigQuery.