Implementar o Datastream e o Dataflow para análise de dados

Datastream

O Datastream aceita streaming de dados dos bancos de dados Oracle, MySQL e PostgreSQL diretamente para os conjuntos de dados do BigQuery. No entanto, se você precisar de mais controle sobre a lógica de processamento de fluxo, como transformação de dados ou configuração manual de chaves primárias lógicas, é possível integrar o Datastream aos modelos de jobs do Dataflow.

Neste tutorial, mostramos como o Datastream se integra ao Dataflow usando modelos de job do Dataflow para fazer streaming de visualizações materializadas atualizadas no BigQuery para análise.

Para organizações com muitas fontes de dados isoladas, o acesso aos dados corporativos em toda a organização, principalmente em tempo real, pode ser limitado e lento. Isso restringe a capacidade da organização de introspecção.

O Datastream fornece acesso quase em tempo real para alterar dados de várias fontes de dados locais e baseadas na nuvem. O Datastream oferece uma experiência de configuração em que você não precisa configurar muito os dados de streaming. O Datastream faz isso por você. O Datastream também tem uma API de consumo unificado que democratiza o acesso da sua organização aos dados corporativos mais recentes disponíveis para criar cenários integrados.

Um desses cenários é a transferência de dados de um banco de dados de origem para um serviço de armazenamento baseado em nuvem ou fila de mensagens. Depois que o Datastream transmite os dados, eles são transformados em um formato que outros aplicativos e serviços podem ler. Neste tutorial, o Dataflow é o serviço da Web que se comunica com o serviço de armazenamento ou a fila de mensagens para capturar e processar dados no Google Cloud.

Você vai aprender a usar o Datastream para transmitir alterações (dados inseridos, atualizados ou excluídos) de um banco de dados MySQL de origem para uma pasta em um bucket do Cloud Storage. Em seguida, você vai configurar o bucket do Cloud Storage para enviar notificações que o Dataflow usa para aprender sobre novos arquivos que contenham alterações de dados que o Datastream transmite do banco de dados de origem. Depois, um job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

diagrama do fluxo de usuários da integração

Objetivos

Neste tutorial, você aprenderá a:

  • Criar um bucket no Cloud Storage. Esse é o bucket de destino para onde o Datastream transmite esquemas, tabelas e dados de um banco de dados MySQL de origem.
  • Ative as notificações do Pub/Sub para o bucket do Cloud Storage. Ao fazer isso, você configura o bucket para enviar notificações que o Dataflow usa para aprender sobre novos arquivos prontos para processamento. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.
  • Crie conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados de origem que o Datastream transmite para o bucket do Cloud Storage.
  • Crie e gerencie perfis de conexão para um banco de dados de origem e um bucket de destino no Cloud Storage. Um fluxo no Datastream usa as informações dos perfis de conexão para transferir dados do banco de dados de origem para o bucket.
  • Criar e iniciar um stream. Esse stream transfere dados, esquemas e tabelas do banco de dados de origem para o bucket.
  • Verifique se o Datastream transfere os dados e as tabelas associados a um esquema do banco de dados de origem para o bucket.
  • Crie um job no Dataflow. Depois que o Datastream faz streaming das alterações de dados do banco de dados de origem para o bucket do Cloud Storage, o Dataflow envia notificações sobre novos arquivos que contêm as alterações. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.
  • Verifique se o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e transfere as alterações para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.
  • Limpe os recursos criados no Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery para que eles não ocupem cota e você não receba cobranças por eles no futuro.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. Ative a API Datastream.

    Ativar a API

  7. Verifique se você tem o papel de administrador do Datastream atribuído à sua conta de usuário.

    Acessar a página IAM

  8. Verifique se você tem um banco de dados MySQL de origem que o Datastream possa acessar. Além disso, verifique se você tem dados, tabelas e esquemas no banco de dados.
  9. Configure seu banco de dados MySQL para permitir conexões de entrada de endereços IP públicos do Datastream. Para conferir uma lista de todas as regiões do Datastream e os endereços IP públicos associados, consulte Regiões e listas de permissões de IP.
  10. Configure a captura de dados de alteração (CDC, na sigla em inglês) do banco de dados de origem. Para mais informações, consulte Configurar um banco de dados MySQL de origem.
  11. Verifique se você atende a todos os pré-requisitos para ativar as notificações do Pub/Sub para Cloud Storage.

    Neste tutorial, você vai criar um bucket de destino no Cloud Storage e ativar as notificações do Pub/Sub para o bucket. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.

Requisitos

O Datastream oferece várias opções de origem, opções de destino e métodos de conectividade de rede.

Neste tutorial, presumimos que você esteja usando um banco de dados MySQL independente e um serviço de destino do Cloud Storage. Para o banco de dados de origem, configure a rede para adicionar uma regra de firewall de entrada. O banco de dados de origem pode ser local ou em um provedor de nuvem. Para o destino do Cloud Storage, não é necessária nenhuma configuração de conectividade.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Neste tutorial, você seleciona Lista de permissões de IP como o método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Google Cloud, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, você precisa abrir o banco de dados ou o firewall de origem para conexões de entrada do Datastream.

Criar um bucket no Cloud Storage

Criar um bucket de destino no Cloud Storage para onde o Datastream transmite esquemas, tabelas e dados de um banco de dados MySQL de origem.

  1. No console do Google Cloud, acesse a página Navegador do Cloud Storage.

    Acessar a página "Navegador"

  2. Clique em Criar bucket. A página Criar um bucket é exibida.

  3. No campo de texto da região Nomeie seu bucket, insira um nome exclusivo para seu bucket e, em seguida, clique em Continuar.

  4. Aceite as configurações padrão para cada região restante da página. No final de cada região, clique em Continuar.

  5. Clique em Criar.

Ative as notificações do Pub/Sub para o bucket do Cloud Storage

Nesta seção, você ativa as notificações do Pub/Sub para o bucket do Cloud Storage criado. Ao fazer isso, você configura o bucket para notificar o Dataflow sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite de um banco de dados MySQL de origem para o bucket.

  1. Acesse o bucket do Cloud Storage criado. A página Detalhes do bucket é exibida.

  2. Clique em Ativar o Cloud Shell.

  3. No prompt, insira o seguinte comando:

    gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/

  4. Opcional: se a janela Autorizar o Cloud Shell for exibida, clique em Autorizar.

  5. Verifique se as seguintes linhas de código são exibidas:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/bucket-name/notificationConfigs/1
    
  6. No console do Google Cloud, acesse a página Tópicos do Pub/Sub.

    Acessar a página "Tópicos"

  7. Clique no tópico my_integration_notifs que você criou.

  8. Na página my_integration_notifs, role até a parte inferior da página. Verifique se a guia Assinaturas está ativa e se a mensagem Nenhuma assinatura para exibir aparece.

  9. Clique em Criar assinatura.

  10. No menu exibido, selecione Criar assinatura.

  11. Na página Adicionar assinatura ao tópico:

    1. No campo ID da assinatura, insira my_integration_notifs_sub.
    2. Defina o valor de Prazo de confirmação como 120 segundos. Isso permite que o Dataflow tenha tempo suficiente para reconhecer os arquivos processados e ajuda a melhorar o desempenho geral do job do Dataflow. Para mais informações sobre as propriedades de assinatura do Pub/Sub, consulte Propriedades de assinatura.
    3. Deixe todos os outros valores padrão na página.
    4. Clique em Criar.

Mais adiante neste tutorial, você criará um job do Dataflow. Como parte da criação desse job, você atribui o Dataflow como assinante da assinatura my_integration_notifs_sub. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no Cloud Storage, processar os arquivos e transferir as alterações de dados para o BigQuery.

Criar conjuntos de dados no BigQuery

Nesta seção, você criará conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados MySQL de origem que o Datastream transmite para seu bucket do Cloud Storage.

  1. Acesse a página do espaço de trabalho do SQL para BigQuery no console do Google Cloud.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, ao lado do nome do projeto do Google Cloud, clique em Ver ações.

  3. Selecione Criar conjunto de dados.

  4. Na janela Criar conjunto de dados:

    1. No campo ID do conjunto de dados, insira um ID para o conjunto de dados. Neste tutorial, insira My_integration_dataset_log no campo.
    2. Deixe todos os outros valores padrão na janela.
    3. Clique em Criar conjunto de dados.
  5. No painel Explorer, ao lado do nome do projeto do Google Cloud, clique em Expandir nó e verifique se você encontra o conjunto de dados que criou.

  6. Use as etapas neste procedimento para criar um segundo conjunto de dados: My_integration_dataset_final.

  7. Ao lado de cada conjunto de dados, expanda Expandir nó.

  8. Verifique se cada conjunto de dados está vazio.

Depois que o Datastream faz streaming das alterações de dados do banco de dados de origem para o bucket do Cloud Storage, um job do Dataflow processa os arquivos que contêm as alterações e as transfere para os conjuntos de dados do BigQuery.

Criar perfis de conexão no Datastream

Nesta seção, você cria perfis de conexão no Datastream para um banco de dados de origem e um destino. Como parte da criação dos perfis de conexão, selecione MySQL como o tipo de perfil para o perfil de conexão de origem e Cloud Storage como o tipo de perfil para o perfil de conexão de destino.

O Datastream usa as informações definidas nos perfis de conexão para se conectar à origem e ao destino. Assim, é possível fazer streaming de dados do banco de dados de origem para o bucket de destino no Cloud Storage.

Criar um perfil de conexão de origem para o banco de dados MySQL

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Clique em Create profile.

  3. Para criar um perfil de conexão de origem para seu banco de dados MySQL, na página Criar um perfil de conexão, clique no tipo de perfil MySQL.

  4. Na seção Definir configurações de conexão da página Criar perfil do MySQL, forneça estas informações:

    • No campo Nome do perfil de conexão, insira My Source Connection Profile.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que você quer armazenar o perfil de conexão.

    • Insira os Detalhes da conexão:

      • No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados de origem. Você está fornecendo um endereço IP público porque usa a lista de permissões de IP como o método de conectividade de rede para este tutorial.
      • No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados MySQL, a porta padrão é 3306.
      • Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
  5. Na seção Definir as configurações de conexão, clique em Continuar. A seção Secure your connection to your source da página Create MySQL profile está ativa.

  6. No menu Tipo de criptografia, selecione Nenhum. Para mais informações sobre esse menu, consulte Criar um perfil de conexão para o banco de dados MySQL.

  7. Na seção Proteger sua conexão com a origem, clique em Continuar. A seção Definir método de conectividade da página Criar perfil do MySQL está ativa.

  8. No menu suspenso Método de conectividade, escolha o método de rede que você quer usar para estabelecer a conectividade entre o Datastream e o banco de dados de origem. Para este tutorial, selecione Lista de permissões de IP como o método de conectividade.

  9. Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.

  10. Na seção Definir método de conectividade, clique em Continuar. A seção Testar perfil de conexão da página Criar perfil do MySQL está ativa.

  11. Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

  12. Verifique se o status Aprovado no teste é exibido.

  13. Clique em Criar.

Criar um perfil de conexão de destino para o Cloud Storage

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Clique em Create profile.

  3. Para criar um perfil de conexão de destino para o Cloud Storage, na página Criar um perfil de conexão, clique no tipo de perfil do Cloud Storage.

  4. Na página Criar perfil do Cloud Storage, forneça estas informações:

    • No campo Nome do perfil de conexão, insira My Destination Connection Profile.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que você quer armazenar o perfil de conexão.
    • No painel Detalhes da conexão, clique em Procurar para selecionar o bucket do Cloud Storage que você criou anteriormente neste tutorial. É o bucket para onde o Datastream transfere dados do banco de dados de origem. Depois de fazer sua seleção, clique em Selecionar.

      Seu bucket aparece no campo Nome do bucket do painel Detalhes da conexão.

    • No campo Prefixo do caminho do perfil de conexão, forneça um prefixo para o caminho que você quer anexar ao nome do bucket quando o Datastream transmitir dados para o destino. O Datastream precisa gravar os dados em um caminho dentro do bucket, não na pasta raiz do bucket. Para este tutorial, use o caminho que você definiu quando configurou sua notificação do Pub/Sub. Insira /integration/tutorial no campo.

  5. Clique em Criar.

Depois de criar um perfil de conexão de origem para seu banco de dados MySQL e um perfil de conexão de destino para o Cloud Storage, use-os para criar um stream.

Criar um fluxo no Datastream

Nesta seção, você criará um fluxo. Esse fluxo usa as informações dos perfis de conexão para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

Definir configurações do stream

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Mural"

  2. Clique em Criar stream.

  3. Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:

    • No campo Nome do fluxo, digite My Stream.
    • Mantenha o ID do stream gerado automaticamente.
    • No menu Região, selecione a região onde você criou os perfis de conexão de origem e de destino.
    • No menu Tipo de origem, selecione o tipo de perfil MySQL.
    • No menu Tipo de destino, selecione o tipo de perfil Cloud Storage.
  4. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectar o Datastream ao bucket de destino no Cloud Storage.

  5. Clique em Continuar. O painel Definir perfil de conexão do MySQL da página Criar stream é exibido.

Especificar informações sobre o perfil de conexão de origem

Nesta seção, você seleciona o perfil de conexão criado para o banco de dados de origem (o perfil de conexão de origem). Para este tutorial, é chamado Meu perfil de conexão de origem.

  1. No menu Perfil de conexão de origem, selecione o perfil de conexão de origem do banco de dados MySQL.

  2. Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em Continuar. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

Nesta seção, você configura informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:

  • Pode ser transferido para o destino.
  • esteja impedido de ser transferido para o destino;

Você também determina se o Datastream preenche os dados históricos, transmite as alterações contínuas no destino ou apenas as alterações feitas nos dados.

  1. Use o menu Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para uma pasta no bucket de destino do Cloud Storage. O menu só será carregado se o banco de dados tiver até 5.000 objetos.

    Neste tutorial, você quer que o Datastream transfira todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.

  2. Verifique se o painel Selecionar objetos a serem excluídos está definido como Nenhum. Você não quer impedir que o Datastream transfira tabelas e esquemas do seu banco de dados de origem para o Cloud Storage.

  3. Verifique se o painel Escolha o modo de preenchimento para dados históricos está definido como Automático. O Datastream transmite todos os dados atuais, além das alterações, da origem para o destino.

  4. Clique em Continuar. O painel Definir perfil de conexão do Cloud Storage é exibido na página Criar stream.

Selecione um perfil de conexão de destino

Nesta seção, você vai selecionar o perfil de conexão criado para o Cloud Storage (o perfil de conexão de destino). Para este tutorial, é chamado Meu perfil de conexão de destino.

  1. No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o Cloud Storage.

  2. Clique em Continuar. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

Nesta seção, você configura informações sobre o bucket de destino do stream. Essas informações incluem:

  • O formato de saída dos arquivos gravados no Cloud Storage.
  • A pasta do bucket de destino para o qual o Datastream transfere esquemas, tabelas e dados do banco de dados de origem.
  1. No campo Formato de saída, selecione o formato de arquivos gravados no Cloud Storage. O Datastream aceita dois formatos de saída: Avro e JSON. Neste tutorial, Avro é o formato de arquivo.

  2. Clique em Continuar. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verificar os detalhes do stream, bem como os perfis de conexão de origem e destino que o stream usa para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

  2. Para validar o stream, clique em Executar validação. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

  3. Depois que todas as verificações de validação forem aprovadas, clique em Criar.

  4. Na caixa de diálogo Criar fluxo?, clique em Criar.

Iniciar o stream

Para este tutorial, você cria e inicia um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para adiar essa carga, crie o stream sem iniciá-lo e inicie-o quando seu banco de dados puder lidar com a carga.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Mural"

  2. Marque a caixa de seleção ao lado da transmissão que você quer iniciar. Neste tutorial, usamos Meu stream.

  3. Clique em Iniciar.

  4. Na caixa de diálogo, clique em Iniciar. O status do stream muda de Not started para Starting e Running.

Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do seu bucket de destino do Cloud Storage.

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Mural"

  2. Clique no stream que você criou. Neste tutorial, usamos Meu stream.

  3. Na página Detalhes do fluxo, clique no link bucket-name/integração/tutorial, em que bucket-name é o nome que você deu ao bucket do Cloud Storage. Esse link aparece após o campo Caminho de gravação de destino. A página Detalhes do bucket do Cloud Storage é aberta em outra guia.

  4. Verifique se há pastas que representam tabelas do banco de dados de origem.

  5. Clique em uma das pastas da tabela e em cada subpasta até ver os dados associados a ela.

Criar um job do Dataflow

Nesta seção, você criará um job no Dataflow. Depois que o Datastream transmite as alterações de um banco de dados MySQL de origem para seu bucket do Cloud Storage, o Pub/Sub envia notificações ao Dataflow sobre novos arquivos com as mudanças. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

  1. No console do Google Cloud, acesse a página Jobs do Dataflow.

    Acessar a página de jobs

  2. Clique em Criar job usando um modelo.

  3. No campo Nome do job, insira o nome do job do Dataflow que você está criando na página Criar job usando um modelo. Neste tutorial, insira my-dataflow-integration-job no campo.

  4. No menu Endpoint regional, selecione a região em que você quer armazenar o job. Essa é a mesma região que você selecionou para o perfil de conexão de origem, o perfil de conexão de destino e o stream que você criou.

  5. No menu Modelo do Dataflow, selecione o modelo que você está usando para criar o job. Neste tutorial, selecione Datastream para o BigQuery.

    Após a seleção, serão exibidos campos adicionais relacionados a esse modelo.

  6. No campo Local do arquivo para a saída do arquivo do Datastream no Cloud Storage, insira o nome do bucket do Cloud Storage usando o seguinte formato: gs://bucket-name.

  7. No campo Assinatura do Pub/Sub que está sendo usada em uma política de notificação do Cloud Storage, digite o caminho que contém o nome da sua assinatura do Pub/Sub. Para este tutorial, insira projects/project-name/subscriptions/my_integration_notifs_sub.

  8. No campo Formato do arquivo de saída Datastream (avro/json)., digite avro porque, neste tutorial, o Avro é o formato de arquivo que o Datastream grava no Cloud Storage.

  9. No campo Nome ou modelo do conjunto de dados para conter tabelas de preparo, insira My_integration_dataset_log porque o Dataflow usa esse conjunto de dados para organizar as alterações de dados que recebe do Datastream.

  10. No campo Modelo para que o conjunto de dados contenha tabelas de réplica, digite My_integration_dataset_final porque as mudanças testadas no conjunto de dados My_integration_dataset_log são mescladas para criar uma réplica individual das tabelas no banco de dados de origem.

  11. No campo Diretório da fila de mensagens inativas, insira o caminho que contém o nome do bucket do Cloud Storage e uma pasta para a fila de mensagens inativas. Não use um caminho na pasta raiz e se ele é diferente daquele em que o Datastream grava dados. Todas as alterações de dados que o Dataflow não transferir para o BigQuery são armazenadas na fila. É possível corrigir o conteúdo na fila para que o Dataflow possa processá-lo novamente.

    Para este tutorial, digite gs://bucket-name/dlq no campo Diretório de fila de mensagens inativas (em que bucket-name é o nome do bucket e dlq é a pasta da fila de mensagens inativas).

  12. Cliquem em Executar job.

Verificar a integração

Na seção Verificar o stream deste tutorial, você confirmou que o Datastream transferiu os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do bucket de destino do Cloud Storage.

Nesta seção, você verá como o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e as transfere para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.

  1. No console do Google Cloud, acesse a página do espaço de trabalho do SQL para BigQuery.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorador, expanda o nó ao lado do nome do seu projeto do Google Cloud.

  3. Expanda os nós ao lado dos conjuntos de dados My_integration_dataset_log e My_integration_dataset_final.

  4. Verifique se cada conjunto de dados agora contém dados. Isso confirma que o Dataflow processou os arquivos com as alterações associadas aos dados transmitidos pelo Datastream para o Cloud Storage e os transferiu para o BigQuery.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, use o console do Google Cloud para fazer o seguinte:

  • Exclua o projeto, o fluxo do Datastream e os perfis de conexão do Datastream.
  • Interrompa o job do Dataflow.
  • Exclua os conjuntos de dados do BigQuery, o tópico e a assinatura do Pub/Sub e o bucket do Cloud Storage.

Ao limpar os recursos criados no Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, você evita que eles ocupem cota e não recebe cobranças por eles no futuro.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para este tutorial.

  1. No console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar a página "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.

  3. Para excluir o projeto, digite o ID do projeto na caixa de diálogo e clique em Encerrar.

Excluir o stream

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Mural"

  2. Clique no stream que você quer excluir. Neste tutorial, usamos Meu stream.

  3. Clique em Pausar.

  4. Na caixa de diálogo, clique em Pausar.

  5. No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

  6. Clique em Excluir.

  7. Na caixa de diálogo, no campo de texto, digite Delete e clique em Excluir.

Excluir os perfis de conexão

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Marque a caixa de seleção de cada perfil de conexão que você quer excluir: Meu perfil de conexão de origem e Meu perfil de conexão de destino.

  3. Clique em Excluir.

  4. Na caixa de diálogo, clique em Excluir.

interrompa o job do Dataflow

  1. No console do Google Cloud, acesse a página Jobs do Dataflow.

    Acessar a página de jobs

  2. Clique no job que você quer interromper. Para este tutorial, o nome é my-dataflow-integration-job.

  3. Clique em Interromper.

  4. Na caixa de diálogo Interromper job, selecione a opção Drenar e clique em Interromper job.

Excluir os conjuntos de dados do BigQuery

  1. No console do Google Cloud, acesse a página do espaço de trabalho do SQL para BigQuery.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, expanda o nó ao lado do nome do projeto do Google Cloud.

  3. Clique no botão Ver ações à direita de um dos conjuntos de dados que você criou em Criar conjuntos de dados no BigQuery. Esse botão parece uma reticência vertical.

    Para este tutorial, clique no botão Exibir ações à direita de My_integration_dataset_log.

  4. Selecione Excluir no menu suspenso exibido.

  5. Na caixa de diálogo Excluir conjunto de dados?, insira delete no campo de texto e clique em Excluir.

  6. Repita as etapas deste procedimento para excluir o segundo conjunto de dados que você criou: My_integration_dataset_final.

Exclua a assinatura e o tópico do Pub/Sub

  1. No console do Google Cloud, acesse a página Assinaturas do Pub/Sub.

    Acessar a página "Assinaturas"

  2. Clique na caixa de seleção ao lado da assinatura que você quer excluir. Para este tutorial, clique na caixa de seleção ao lado da assinatura my_integration_notifs_sub.

  3. Clique em Excluir.

  4. Na caixa de diálogo Excluir assinatura, clique em Excluir.

  5. No console do Google Cloud, acesse a página Tópicos do Pub/Sub.

    Acessar a página "Tópicos"

  6. Clique na caixa de seleção ao lado do tópico my_integration_notifs.

  7. Clique em Excluir.

  8. Na caixa de diálogo Excluir tópico, insira delete no campo de texto e clique em Excluir.

Exclua o bucket do Cloud Storage

  1. No console do Google Cloud, acesse a página Navegador do Cloud Storage.

    Acessar a página "Navegador"

  2. Marque a caixa de seleção ao lado do bucket.

  3. Clique em Excluir.

  4. Na caixa de diálogo, digite Delete no campo de texto e clique em Excluir.

A seguir