Replicar dados no BigQuery quase em tempo real com o Datastream

Saiba como replicar dados de um banco de dados de origem para os conjuntos de dados do BigQuery usando o Datastream.


Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Datastream API.

    Enable the API

  7. Verifique se você tem o papel Administrador do Datastream atribuído à sua conta de usuário.

    Acessar a página IAM

Se você quiser criar uma configuração de conectividade particular para uma rede VPC padrão ou compartilhada, será necessário concluir outros pré-requisitos. Para mais informações, consulte Criar uma configuração de conectividade particular.

Requisitos

O Datastream oferece uma variedade de opções de origem, opções de destino e métodos de conectividade de rede.

Neste guia de início rápido, presumimos que você está replicando dados de um banco de dados do Cloud SQL para PostgreSQL no BigQuery. Para o banco de dados de origem, configure a instância do banco de dados para aceitar conexões de endereços IP públicos do Datastream.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Para este guia de início rápido, selecione Lista de permissões de IP como método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Cloud, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, você precisa abrir o banco de dados do Cloud SQL de origem para conexões de entrada do Datastream.

Criar perfis de conexão

Ao criar perfis de conexão, você armazena algumas informações básicas sobre a origem e o destino no Datastream. Você pode reutilizar essas informações em vários fluxos.

Neste guia de início rápido, você vai selecionar PostgreSQL como o tipo de perfil de origem e BigQuery como o tipo de perfil de destino. O Datastream usa as informações nos perfis de conexão para se conectar ao banco de dados de origem e ao BigQuery.

Criar um perfil de conexão de origem para o banco de dados PostgreSQL

  1. Acesse a página Perfis de conexão do Datastream no Google Cloud Console.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Criar um perfil de conexão, clique no tipo de perfil PostgreSQL (porque você quer criar um perfil de conexão de origem para o banco de dados PostgreSQL).

  4. Forneça as seguintes informações na seção Definir configurações de conexão da página Criar perfil do PostgreSQL:

    • Insira My Source Connection Profile como o Nome do perfil de conexão do banco de dados de origem.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.

    • Insira os Detalhes da conexão:

      • No campo Nome do host ou IP, insira um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados PostgreSQL de origem. Você está fornecendo um endereço IP público porque a lista de permissões de IP será usada como o método de conectividade de rede para este guia de início rápido.
      • No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados PostgreSQL, a porta padrão geralmente é 5432.
      • Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
      • No campo Banco de dados, insira o nome que identifica a instância do banco de dados. Para bancos de dados PostgreSQL, esse valor é normalmente postgres.
  5. Na seção Definir configurações de conexão, clique em CONTINUAR. A seção Definir método de conectividade da página Criar perfil do PostgreSQL está ativa.

  6. Escolha o método de rede que você quer usar para estabelecer a conectividade entre o banco de dados de origem e o Datastream. Para este guia de início rápido, use o menu suspenso Método de conectividade para selecionar Lista de permissões de IP como método de rede.

  7. Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.

  8. Na seção Definir método de conectividade, clique em CONTINUAR. A seção Testar perfil de conexão da página Criar perfil do PostgreSQL está ativa.

  9. Clique em EXECUTAR TESTE para verificar se o banco de dados PostgreSQL de origem e o Datastream podem se comunicar entre si.

  10. Verifique se o status "Aprovado no teste" é exibido.

  11. Se o teste falhar, resolva o problema na parte apropriada do fluxo e volte a testar novamente. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas.

  12. Clique em CRIAR.

Criar um perfil de conexão de destino para o BigQuery

  1. Acesse a página Perfis de conexão do Datastream no Google Cloud Console.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Criar um perfil de conexão, clique no tipo de perfil BigQuery porque você quer criar um perfil de conexão de destino para o BigQuery.

  4. Forneça as seguintes informações na página Criar perfil do BigQuery:

    • Insira My Destination Connection Profile como o nome do perfil de conexão do serviço do BigQuery de destino.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.
  5. Clique em CRIAR.

Depois de criar um perfil de conexão de origem para o banco de dados PostgreSQL e um perfil de conexão de destino para o BigQuery, use-os para criar um stream.

Criar um stream

Nesta seção, você vai criar um fluxo para replicar dados de um banco de dados de origem do PostgreSQL para o BigQuery.

A criação de um stream inclui o seguinte:

  • Como definir as configurações da transmissão.
  • Selecione o perfil de conexão que você criou para seu banco de dados de origem (o perfil de conexão de origem). Para este guia de início rápido, o nome é My Source Connection Profile.
  • Configure informações sobre o banco de dados de origem para o fluxo especificando as propriedades de replicação e as tabelas e os esquemas no banco de dados de origem que o Datastream:
    • Pode ser transferido para o destino.
    • esteja impedido de ser transferido para o destino;
  • Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados.
  • Selecione o perfil de conexão que você criou para o BigQuery (o perfil de conexão de destino). Para este guia de início rápido, o nome é My Destination Connection Profile.
  • Configurar informações sobre o destino do stream, como os conjuntos de dados do BigQuery.
  • Validar o stream.

Definir configurações do stream

  1. Acesse a página Streams do Datastream no Google Cloud Console.

    Acessar a página "Mural"

  2. Clique em CRIAR STREAM.

  3. Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:

    • Insira My Stream como o Nome do fluxo.
    • Mantenha o código do stream gerado automaticamente.
    • No menu Região, selecione a região onde você criou seu perfil de conexão de origem.
    • No menu Tipo de origem, selecione o tipo de perfil PostgreSQL.
    • No menu Tipo de destino, selecione o tipo de perfil BigQuery.
  4. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos incluem como configurar o banco de dados de origem e o BigQuery.

  5. Clique em CONTINUAR. O painel Definir perfil de conexão do PostgreSQL da página Criar stream é exibido.

Especificar informações sobre o perfil de conexão de origem

  1. No menu Perfil de conexão de origem, selecione o perfil de conexão de origem do banco de dados PostgreSQL.

  2. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

  1. Informe os nomes do slot de replicação e da publicação do banco de dados de origem. O slot e a publicação de replicação foram criados ao configurar o banco de dados do PostgreSQL.

  2. Use o menu Objetos a serem incluídos para especificar as tabelas e esquemas no banco de dados de origem que o Datastream vai replicar no BigQuery. O menu só será carregado se o banco de dados tiver até 5.000 objetos.

    Para este guia de início rápido, o Datastream precisa transferir todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.

  3. Clique em CONTINUAR. O painel Definir perfil de conexão do BigQuery da página Criar stream é exibido.

Selecione um perfil de conexão de destino

  1. No menu Perfil de conexão de destino, selecione o perfil de conexão de destino para o BigQuery.

  2. Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

  1. Escolha a opção Conjunto de dados para cada esquema para que o Datastream crie automaticamente um conjunto de dados no BigQuery para cada esquema no banco de dados de origem.

  2. Selecione o Tipo de local em que os conjuntos de dados serão criados no BigQuery. Embora esse local não precise ser igual à região em que o stream do Datastream é criado, recomendamos manter todos os recursos e conjuntos de dados na mesma região para otimizar o custo e o desempenho.

  3. Defina o Prefixo como quickstart-. O Datastream vai adicionar essa string ao início de cada conjunto de dados que ele cria no BigQuery.

  4. Deixe o valor no Modo de gravação de fluxo definido como Mesclar. Dessa forma, as tabelas no BigQuery permanecem sincronizadas com a origem.

  5. Deixe o valor na lista suspensa Especificar o limite de inatividade dos dados definido como 15 minutos. O BigQuery usa esse valor para decidir o quão desatualizados seus dados podem estar quando consultados.

  6. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verifique os detalhes do stream, bem como os perfis de conexão de origem e de destino que serão usados para transferir dados de um banco de dados PostgreSQL de origem para o BigQuery.

  2. Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

  3. Depois que todas as verificações de validação forem aprovadas, clique em CRIAR.

  4. Na caixa de diálogo Criar stream?, clique em CRIAR.

Iniciar o stream

Na seção anterior do guia de início rápido, você criou um stream, mas ainda não o iniciou. Faça isso agora.

Para este guia de início rápido, é possível criar e iniciar um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para suspender essa carga, crie o stream sem iniciá-lo e, em seguida, inicie o stream quando ele puder ser gerado.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

  1. Acesse a página Streams do Datastream no Google Cloud Console.

    Acessar a página "Mural"

  2. Marque a caixa de seleção à esquerda do stream que você quer iniciar. Para este guia de início rápido, use Meu stream.

  3. Clique em INICIAR.

  4. Na caixa de diálogo, clique em INICIAR. O status do stream muda de Not started para Starting e Running.

    Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas do seu banco de dados PostgreSQL de origem para o BigQuery.

  1. Acesse a página Streams do Datastream no Google Cloud Console.

    Acessar a página "Mural"

  2. Clique no stream que você criou. Para este guia de início rápido, use Meu stream.

  3. Na página Detalhes do fluxo, clique no link exibido abaixo do campo Caminho de gravação de destino. O BigQuery Studio é aberto em uma guia separada.

  4. Verifique se há conjuntos de dados e tabelas que representam esquemas e tabelas do banco de dados PostgreSQL de origem.

  5. Clique em uma das tabelas para visualizar os dados.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Use o console do Google Cloud para excluir o projeto, o fluxo do Datastream, os perfis de conexão e os conjuntos de dados do BigQuery.

Ao limpar os recursos criados no Datastream, eles não consumirão a cota e você não será cobrado por eles no futuro. As próximas seções descrevem como excluir ou desativar esses recursos.

Excluir o projeto

A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou para este guia de início rápido.

  1. No console do Cloud, acesse a página Gerenciar recursos:

    Acessar a página "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.

  3. Na caixa de diálogo, insira o ID do projeto e clique em Encerrar para excluí-lo.

Excluir o stream

  1. Acesse a página Streams do Datastream no Google Cloud Console.

    Acessar a página "Mural"

  2. Clique no stream que você quer excluir. Para este guia de início rápido, use Meu stream.

  3. Clique em PAUSAR.

  4. Na caixa de diálogo, clique em PAUSAR.

  5. No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

    }
  6. Clique em EXCLUIR.

  7. Na caixa de diálogo, digite Delete no campo de texto e clique em EXCLUIR.

Excluir os perfis de conexão

  1. Acesse a página Perfis de conexão do Datastream no Google Cloud Console.

    Acessar a página "Perfis de conexão"

  2. Marque a caixa de seleção de cada perfil de conexão que você quer excluir. Para este guia de início rápido, marque as caixas de seleção de My Source Connection Profile e My Destination Connection Profile.

  3. Clique em EXCLUIR.

  4. Na caixa de diálogo, clique em EXCLUIR.

Excluir seus conjuntos de dados do BigQuery

  1. Acesse a página do BigQuery Studio no Google Cloud Console.

    Acessar o BigQuery Studio

  2. Expanda o nó do projeto em que você criou este guia de início rápido.

  3. Para cada conjunto de dados que você quer excluir, clique no menu Ver ações e em Excluir.

  4. Na caixa de diálogo, digite delete no campo de texto e clique em EXCLUIR.

A seguir