Introdução à migração do Teradata para o BigQuery
Este documento descreve os motivos pelos quais você pode migrar do Teradata para o BigQuery, compara os recursos entre o Teradata e o BigQuery e fornece um resumo das etapas para iniciar a migração do BigQuery.
Por que migrar do Teradata para o BigQuery?
A Teradata foi uma das primeiras inovadoras no gerenciamento e na análise de grandes volumes de dados. No entanto, à medida que suas necessidades de computação em nuvem evoluem, talvez você precise de uma solução mais moderna para a análise de dados.
Se você já usou o Teradata, considere migrar para o BigQuery pelos seguintes motivos:
- Superar as restrições legadas da plataforma
- A arquitetura convencional do Teradata geralmente tem dificuldades para atender às exigências da análise moderna, principalmente a necessidade de simultaneidade ilimitada e desempenho consistentemente alto para diversas cargas de trabalho. A arquitetura sem servidor no BigQuery foi projetada para lidar com essas demandas com o mínimo de esforço.
- Adote uma estratégia nativa da nuvem
- Muitas organizações estão migrando estrategicamente da infraestrutura local para a nuvem. Essa mudança exige uma mudança de soluções convencionais vinculadas a hardware, como o Teradata, para um serviço totalmente gerenciado, dimensionável e sob demanda, como o BigQuery, para reduzir a sobrecarga operacional.
- Integrar com fontes de dados e análises modernas
- Os principais dados corporativos estão cada vez mais em fontes baseadas na nuvem. O BigQuery é integrado de forma nativa ao ecossistema do Google Cloud , oferecendo acesso perfeito a essas fontes e permitindo análises avançadas, machine learning e processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
- Otimizar custo e escalonabilidade
- O Teradata geralmente envolve processos de escalonamento complexos e caros. O BigQuery oferece escalonamento transparente e automático de armazenamento e computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e, muitas vezes, mais baixo.
Comparação do recurso
A tabela a seguir compara os recursos e conceitos do Teradata com os equivalentes no BigQuery:
Conceito do Teradata | Equivalente do BigQuery | Descrição |
---|---|---|
Teradata (local, nuvem, híbrida) | BigQuery (plataforma unificada de dados de IA). O BigQuery oferece um grande conjunto de recursos adicionais em relação a um data warehouse convencional. | O BigQuery é um data warehouse totalmente gerenciado e nativo da nuvem no Google Cloud. O Teradata oferece opções locais, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni. |
Ferramentas do Teradata (Teradata Studio, BTEQ) | Google Cloud console, BigQuery Studio e a ferramenta de linha de comando bq | Ambos oferecem interfaces para gerenciar e interagir com o data warehouse. O BigQuery Studio é baseado na Web e integrado ao Google Cloud , permitindo a gravação de SQL, Python e Apache Spark. |
Bancos de dados/esquemas | Conjuntos de dados | No Teradata, os bancos de dados e esquemas são usados para organizar tabelas e visualizações, de forma semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como elas são gerenciadas e usadas pode ser diferente. |
Tabela | Tabela | As duas plataformas usam tabelas para armazenar dados em linhas e colunas. |
Ver | Ver | As visualizações funcionam de maneira semelhante nas duas plataformas, oferecendo uma maneira de criar tabelas virtuais com base em consultas. |
Chave primária | Chave primária (não aplicada no SQL padrão) | O BigQuery oferece suporte a chaves primárias não aplicadas no SQL padrão. Elas servem principalmente para ajudar o BigQuery a otimizar a consulta. |
Chave externa | Chave estrangeira (não aplicada no SQL padrão) | O BigQuery oferece suporte a chaves externas não aplicadas no SQL padrão. Elas servem principalmente para ajudar o BigQuery a otimizar a consulta. |
Índice | Agrupamento, índices de pesquisa e índices de vetor (automático ou gerenciado) | O Teradata permite a criação explícita de índices. Recomendamos fazer clustering no BigQuery. Embora não seja equivalente aos índices de banco de dados, o agrupamento ajuda a armazenar os dados ordenados no disco, o que otimiza a recuperação de dados quando as colunas em cluster são usadas como predicados. O BigQuery oferece suporte a índices de pesquisa e vetoriais. |
Particionamento | Particionamento | Ambas as plataformas oferecem suporte ao particionamento de tabelas para melhorar o desempenho das consultas em tabelas grandes. O BigQuery só oferece suporte ao particionamento por datas e números inteiros. Para strings, use clustering. |
Alocação de recursos (com base em hardware e licenciamento) | Reservas (baseadas em capacidade) e preços sob demanda (preços de análise) | O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc usando o escalonamento automático, enquanto o preço sob demanda se concentra em cobranças por verificação de bytes de consulta. |
BTEQ, SQL Assistant e outras ferramentas de cliente | BigQuery Studio, ferramenta de linha de comando bq, APIs | O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comando e APIs para acesso programático. |
Histórico/registro de consultas | Histórico de consultas, INFORMATION_SCHEMA.JOBS |
O BigQuery mantém um histórico de consultas executadas, permitindo que você revise consultas anteriores, analise o desempenho e resolva problemas. O INFORMATION_SCHEMA.JOBS mantém o histórico de todos os jobs enviados nos últimos seis meses. |
Recursos de segurança (controle de acesso, criptografia) | Recursos de segurança (IAM, ACLs, criptografia) | Ambos oferecem segurança robusta. O BigQuery usa o Google Cloud IAM para controle de acesso granular. |
Controles de rede (firewalls, VPNs) | VPC Service Controls e Acesso privado do Google | O BigQuery se integra ao VPC Service Controls para restringir o acesso a recursos do BigQuery de redes específicas. Com o Acesso privado do Google, você pode acessar o BigQuery sem usar IPs públicos. |
Gerenciamento de usuários e funções | Identity and Access Management (IAM) | O BigQuery usa o IAM para controle de acesso refinado. É possível conceder permissões específicas a usuários e contas de serviço nos níveis do projeto, do conjunto de dados e da tabela. |
Permissões e papéis em objetos | Listas de controle de acesso (ACLs) em conjuntos de dados e tabelas | O BigQuery permite definir ACLs em conjuntos de dados e tabelas para controlar o acesso de forma granular. |
Criptografia em repouso e em trânsito | A criptografia em repouso e em trânsito, as chaves de criptografia gerenciadas pelo cliente (CMEKs, na sigla em inglês), podem ser hospedadas em sistemas externos de EKM. | O BigQuery criptografa os dados por padrão. Você também pode gerenciar suas próprias chaves de criptografia para ter mais controle. |
Recursos de governança e compliance de dados | Políticas de governança de dados, DLP (prevenção contra perda de dados) | O BigQuery oferece suporte a políticas de governança de dados e DLP para ajudar você a aplicar a segurança de dados e os requisitos de conformidade. |
Utilitários de carga do Teradata (por exemplo, FastLoad, MultiLoad, bteq | O serviço de transferência de dados do BigQuery, a ferramenta de linha de comando bq e as APIs | O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carga especializados. O BigQuery enfatiza a escalabilidade e a velocidade da ingestão de dados. |
Teradata Export Utilities, bteq | Ferramenta de linha de comando bq, APIs, Exportar para o Cloud Storage | O BigQuery oferece exportação de dados para vários destinos. O Teradata tem ferramentas de exportação próprias. A integração do BigQuery com o Cloud Storage é uma vantagem importante. A API BigQuery Storage Read oferece qualquer capacidade de computação externa para ler dados em massa. |
Tabelas externas | Tabelas externas | Ambos oferecem suporte à consulta de dados no armazenamento externo. O BigQuery se integra bem ao Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Armazenamento de Blobs do Azure e Google Drive. |
Visualizações materializadas. | Visualizações materializadas. | Ambos oferecem visualizações materializadas para o desempenho da consulta. O BigQuery oferece visualizações materializadas de ajuste inteligente que sempre retornam dados atuais e também fornecem regravação automática de consultas para visualizações materializadas, mesmo quando a consulta se refere à tabela base. |
Funções definidas pelo usuário (UDFs) | Funções definidas pelo usuário (UDFs) (SQL, JavaScript) | O BigQuery oferece suporte a UDFs em SQL e JavaScript. |
Programador do Teradata e outras ferramentas de programação | Consultas programadas, Cloud Composer, Cloud Functions e pipelines do BigQuery | O BigQuery se integra a Google Cloud serviços de programação e outras ferramentas externas de programação. |
Viewpoint | Administração do BigQuery para monitoramento, verificação de integridade, análise de jobs e gerenciamento de capacidade. | O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada em UI, que contém vários painéis para monitorar a integridade operacional e a utilização de recursos. |
Backup e recuperação | Clonagem de conjuntos de dados, viagem no tempo e fail safe, snapshot e clonagem de tabelas, armazenamento regional e multirregional, backup e recuperação entre regiões. | O BigQuery oferece snapshots e viagem no tempo para recuperar dados. A viagem no tempo é um recurso que permite acessar dados históricos em um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional e opções de backup e recuperação entre regiões. |
Funções geoespaciais | Funções geoespaciais | As duas plataformas oferecem suporte a dados e funções geoespaciais. |
Por onde começar?
Saiba mais sobre o processo de migração do Teradata para o BigQuery nas seções a seguir:
Executar uma avaliação de migração
Para iniciar a migração do Teradata para o BigQuery, recomendamos que você execute a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e os possíveis benefícios de mover seu data warehouse do Teradata para o BigQuery. Essa ferramenta oferece uma abordagem estruturada para entender seu ambiente Teradata atual e estimar o esforço envolvido em uma migração bem-sucedida.
A execução da ferramenta de avaliação de migração do BigQuery gera um relatório de avaliação com as seguintes seções:
- Relatório do sistema atual: um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total em TB. Ele também lista os esquemas por tamanho e aponta para um possível provisionamento e utilização de recursos abaixo do ideal, como tabelas sem gravações ou poucas leituras.
- Sugestões de transformação de estado estável do BigQuery: mostra como o sistema vai ficar no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery e evitar desperdícios.
- Plano de migração: fornece informações sobre a iniciativa de migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.
Para mais informações sobre os resultados de uma avaliação de migração, consulte Analisar o relatório do Looker Studio.
Migrar o esquema e os dados do Teradata
Depois de analisar os resultados da avaliação de migração, inicie a migração do Teradata preparando o BigQuery e configurando um job de transferência de dados.
Para mais informações sobre o processo de migração do Teradata, consulte Migrar o esquema e os dados do Teradata.
Validar sua migração
Depois de migrar os dados do Teradata para o BigQuery, execute a ferramenta de validação de dados (DVT) para realizar uma validação dos dados do BigQuery recém-migrados. A DVT valida várias funções, do nível da tabela ao nível da linha, para verificar se os dados migrados funcionam conforme o esperado. Para mais informações sobre a DVT, consulte Introdução à ferramenta de validação de dados para migrações do EDW.
Você pode acessar o DVT no repositório público do GitHub do DVT.
A seguir
- Faça uma migração de teste do Teradata para o BigQuery.