Introdução à migração do Teradata para o BigQuery

Este documento descreve os motivos pelos quais você pode migrar do Teradata para o BigQuery, compara os recursos entre o Teradata e o BigQuery e fornece um resumo das etapas para iniciar a migração do BigQuery.

Por que migrar do Teradata para o BigQuery?

A Teradata foi uma das primeiras inovadoras no gerenciamento e na análise de grandes volumes de dados. No entanto, à medida que suas necessidades de computação em nuvem evoluem, talvez você precise de uma solução mais moderna para a análise de dados.

Se você já usou o Teradata, considere migrar para o BigQuery pelos seguintes motivos:

  • Superar as restrições legadas da plataforma
    • A arquitetura convencional do Teradata geralmente tem dificuldades para atender às exigências da análise moderna, principalmente a necessidade de simultaneidade ilimitada e desempenho consistentemente alto para diversas cargas de trabalho. A arquitetura sem servidor no BigQuery foi projetada para lidar com essas demandas com o mínimo de esforço.
  • Adote uma estratégia nativa da nuvem
    • Muitas organizações estão migrando estrategicamente da infraestrutura local para a nuvem. Essa mudança exige uma mudança de soluções convencionais vinculadas a hardware, como o Teradata, para um serviço totalmente gerenciado, dimensionável e sob demanda, como o BigQuery, para reduzir a sobrecarga operacional.
  • Integrar com fontes de dados e análises modernas
    • Os principais dados corporativos estão cada vez mais em fontes baseadas na nuvem. O BigQuery é integrado de forma nativa ao ecossistema do Google Cloud , oferecendo acesso perfeito a essas fontes e permitindo análises avançadas, machine learning e processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
  • Otimizar custo e escalonabilidade
    • O Teradata geralmente envolve processos de escalonamento complexos e caros. O BigQuery oferece escalonamento transparente e automático de armazenamento e computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e, muitas vezes, mais baixo.

Comparação do recurso

A tabela a seguir compara os recursos e conceitos do Teradata com os equivalentes no BigQuery:

Conceito do Teradata Equivalente do BigQuery Descrição
Teradata (local, nuvem, híbrida) BigQuery (plataforma unificada de dados de IA). O BigQuery oferece um grande conjunto de recursos adicionais em relação a um data warehouse convencional. O BigQuery é um data warehouse totalmente gerenciado e nativo da nuvem no Google Cloud. O Teradata oferece opções locais, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni.
Ferramentas do Teradata (Teradata Studio, BTEQ) Google Cloud console, BigQuery Studio e a ferramenta de linha de comando bq Ambos oferecem interfaces para gerenciar e interagir com o data warehouse. O BigQuery Studio é baseado na Web e integrado ao Google Cloud , permitindo a gravação de SQL, Python e Apache Spark.
Bancos de dados/esquemas Conjuntos de dados No Teradata, os bancos de dados e esquemas são usados para organizar tabelas e visualizações, de forma semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como elas são gerenciadas e usadas pode ser diferente.
Tabela Tabela As duas plataformas usam tabelas para armazenar dados em linhas e colunas.
Ver Ver As visualizações funcionam de maneira semelhante nas duas plataformas, oferecendo uma maneira de criar tabelas virtuais com base em consultas.
Chave primária Chave primária (não aplicada no SQL padrão) O BigQuery oferece suporte a chaves primárias não aplicadas no SQL padrão. Elas servem principalmente para ajudar o BigQuery a otimizar a consulta.
Chave externa Chave estrangeira (não aplicada no SQL padrão) O BigQuery oferece suporte a chaves externas não aplicadas no SQL padrão. Elas servem principalmente para ajudar o BigQuery a otimizar a consulta.
Índice Agrupamento, índices de pesquisa e índices de vetor (automático ou gerenciado) O Teradata permite a criação explícita de índices.

Recomendamos fazer clustering no BigQuery. Embora não seja equivalente aos índices de banco de dados, o agrupamento ajuda a armazenar os dados ordenados no disco, o que otimiza a recuperação de dados quando as colunas em cluster são usadas como predicados.
O BigQuery oferece suporte a índices de pesquisa e vetoriais.
Particionamento Particionamento Ambas as plataformas oferecem suporte ao particionamento de tabelas para melhorar o desempenho das consultas em tabelas grandes.

O BigQuery só oferece suporte ao particionamento por datas e números inteiros. Para strings, use clustering.
Alocação de recursos (com base em hardware e licenciamento) Reservas (baseadas em capacidade) e preços sob demanda (preços de análise) O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc usando o escalonamento automático, enquanto o preço sob demanda se concentra em cobranças por verificação de bytes de consulta.
BTEQ, SQL Assistant e outras ferramentas de cliente BigQuery Studio, ferramenta de linha de comando bq, APIs O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comando e APIs para acesso programático.
Histórico/registro de consultas Histórico de consultas, INFORMATION_SCHEMA.JOBS O BigQuery mantém um histórico de consultas executadas, permitindo que você revise consultas anteriores, analise o desempenho e resolva problemas. O INFORMATION_SCHEMA.JOBS mantém o histórico de todos os jobs enviados nos últimos seis meses.
Recursos de segurança (controle de acesso, criptografia) Recursos de segurança (IAM, ACLs, criptografia) Ambos oferecem segurança robusta. O BigQuery usa o Google Cloud IAM para controle de acesso granular.
Controles de rede (firewalls, VPNs) VPC Service Controls e Acesso privado do Google O BigQuery se integra ao VPC Service Controls para restringir o acesso a recursos do BigQuery de redes específicas. Com o Acesso privado do Google, você pode acessar o BigQuery sem usar IPs públicos.
Gerenciamento de usuários e funções Identity and Access Management (IAM) O BigQuery usa o IAM para controle de acesso refinado. É possível conceder permissões específicas a usuários e contas de serviço nos níveis do projeto, do conjunto de dados e da tabela.
Permissões e papéis em objetos Listas de controle de acesso (ACLs) em conjuntos de dados e tabelas O BigQuery permite definir ACLs em conjuntos de dados e tabelas para controlar o acesso de forma granular.
Criptografia em repouso e em trânsito A criptografia em repouso e em trânsito, as chaves de criptografia gerenciadas pelo cliente (CMEKs, na sigla em inglês), podem ser hospedadas em sistemas externos de EKM. O BigQuery criptografa os dados por padrão. Você também pode gerenciar suas próprias chaves de criptografia para ter mais controle.
Recursos de governança e compliance de dados Políticas de governança de dados, DLP (prevenção contra perda de dados) O BigQuery oferece suporte a políticas de governança de dados e DLP para ajudar você a aplicar a segurança de dados e os requisitos de conformidade.
Utilitários de carga do Teradata (por exemplo, FastLoad, MultiLoad, bteq O serviço de transferência de dados do BigQuery, a ferramenta de linha de comando bq e as APIs O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carga especializados. O BigQuery enfatiza a escalabilidade e a velocidade da ingestão de dados.
Teradata Export Utilities, bteq Ferramenta de linha de comando bq, APIs, Exportar para o Cloud Storage O BigQuery oferece exportação de dados para vários destinos. O Teradata tem ferramentas de exportação próprias. A integração do BigQuery com o Cloud Storage é uma vantagem importante.

A API BigQuery Storage Read oferece qualquer capacidade de computação externa para ler dados em massa.
Tabelas externas Tabelas externas Ambos oferecem suporte à consulta de dados no armazenamento externo. O BigQuery se integra bem ao Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Armazenamento de Blobs do Azure e Google Drive.
Visualizações materializadas. Visualizações materializadas. Ambos oferecem visualizações materializadas para o desempenho da consulta.

O BigQuery oferece visualizações materializadas de ajuste inteligente que sempre retornam dados atuais e também fornecem regravação automática de consultas para visualizações materializadas, mesmo quando a consulta se refere à tabela base.
Funções definidas pelo usuário (UDFs) Funções definidas pelo usuário (UDFs) (SQL, JavaScript) O BigQuery oferece suporte a UDFs em SQL e JavaScript.
Programador do Teradata e outras ferramentas de programação Consultas programadas, Cloud Composer, Cloud Functions e pipelines do BigQuery O BigQuery se integra a Google Cloud serviços de programação e outras ferramentas externas de programação.
Viewpoint Administração do BigQuery para monitoramento, verificação de integridade, análise de jobs e gerenciamento de capacidade. O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada em UI, que contém vários painéis para monitorar a integridade operacional e a utilização de recursos.
Backup e recuperação Clonagem de conjuntos de dados, viagem no tempo e fail safe, snapshot e clonagem de tabelas, armazenamento regional e multirregional, backup e recuperação entre regiões. O BigQuery oferece snapshots e viagem no tempo para recuperar dados. A viagem no tempo é um recurso que permite acessar dados históricos em um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional e opções de backup e recuperação entre regiões.
Funções geoespaciais Funções geoespaciais As duas plataformas oferecem suporte a dados e funções geoespaciais.

Por onde começar?

Saiba mais sobre o processo de migração do Teradata para o BigQuery nas seções a seguir:

Executar uma avaliação de migração

Para iniciar a migração do Teradata para o BigQuery, recomendamos que você execute a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e os possíveis benefícios de mover seu data warehouse do Teradata para o BigQuery. Essa ferramenta oferece uma abordagem estruturada para entender seu ambiente Teradata atual e estimar o esforço envolvido em uma migração bem-sucedida.

A execução da ferramenta de avaliação de migração do BigQuery gera um relatório de avaliação com as seguintes seções:

  • Relatório do sistema atual: um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total em TB. Ele também lista os esquemas por tamanho e aponta para um possível provisionamento e utilização de recursos abaixo do ideal, como tabelas sem gravações ou poucas leituras.
  • Sugestões de transformação de estado estável do BigQuery: mostra como o sistema vai ficar no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery e evitar desperdícios.
  • Plano de migração: fornece informações sobre a iniciativa de migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.

Para mais informações sobre os resultados de uma avaliação de migração, consulte Analisar o relatório do Looker Studio.

Migrar o esquema e os dados do Teradata

Depois de analisar os resultados da avaliação de migração, inicie a migração do Teradata preparando o BigQuery e configurando um job de transferência de dados.

Para mais informações sobre o processo de migração do Teradata, consulte Migrar o esquema e os dados do Teradata.

Validar sua migração

Depois de migrar os dados do Teradata para o BigQuery, execute a ferramenta de validação de dados (DVT) para realizar uma validação dos dados do BigQuery recém-migrados. A DVT valida várias funções, do nível da tabela ao nível da linha, para verificar se os dados migrados funcionam conforme o esperado. Para mais informações sobre a DVT, consulte Introdução à ferramenta de validação de dados para migrações do EDW.

Você pode acessar o DVT no repositório público do GitHub do DVT.

A seguir