Banco de dados MySQL de origem

Essa seção contém informações sobre:

  • O comportamento de como o Datastream lida com dados que estão sendo extraídos de um banco de dados MySQL de origem
  • As versões do banco de dados MySQL compatível com o Datastream
  • Limitações conhecidas para o uso do banco de dados MySQL como fonte
  • Uma visão geral de como configurar um banco de dados MySQL de origem para que os dados possam ser transmitidos dele para um destino

Comportamento

Esta seção descreve o comportamento das origens do MySQL ao replicar dados usando o Datastream. Ao ingerir dados de bancos de dados MySQL, é possível usar a replicação baseada em binlog ou em identificador global de transação (GTID). Você seleciona o método de CDC ao criar um stream.

Replicação baseada em binlog

O Datastream pode usar arquivos de registro binário para manter um registro das mudanças de dados em bancos de dados MySQL. As informações contidas nesses arquivos de registro são replicadas para o destino para reproduzir as mudanças feitas na origem.

As principais características da replicação baseada em binlog no Datastream são:

  • É possível selecionar todos os bancos de dados ou bancos de dados específicos de uma determinada origem MySQL, bem como todas as tabelas dos bancos de dados ou tabelas específicas.
  • Todos os dados históricos são replicados.
  • Todas as alterações na linguagem de manipulação de dados (DML), como inserções, atualizações e exclusões dos bancos de dados e tabelas especificados, são replicadas.
  • Apenas alterações confirmadas são replicadas.

Replicação baseada em identificador global de transação (GTID, na sigla em inglês)

O Datastream também é compatível com a replicação baseada em identificador global (GTID).

O identificador global de transação (GTID) é um identificador exclusivo criado e associado a cada transação confirmada em uma origem do MySQL. Esse identificador é exclusivo não apenas para a origem em que foi criado, mas também em todos os servidores em uma determinada topologia de replicação, ao contrário da replicação baseada em registros binários, em que cada nó no cluster de banco de dados mantém seus próprios arquivos binários, com numeração própria. Manter arquivos binlog separados e a numeração pode se tornar um problema em caso de falha ou inatividade planejada, porque a continuidade do binlog é interrompida e a replicação baseada em binlog falha.

A replicação baseada em GTID oferece suporte a failovers, clusters de banco de dados autogerenciados e continua funcionando independentemente das mudanças no cluster de banco de dados.

As principais características da replicação baseada em GTID no Datastream são:

  • É possível selecionar todos os bancos de dados ou bancos de dados específicos de uma determinada origem MySQL, bem como todas as tabelas dos bancos de dados ou tabelas específicas.
  • Todos os dados históricos são replicados.
  • Todas as alterações na linguagem de manipulação de dados (DML), como inserções, atualizações e exclusões dos bancos de dados e tabelas especificados, são replicadas.
  • Apenas alterações confirmadas são replicadas.
  • Suporte perfeito para failovers.

Mudar da replicação baseada em binlog para a baseada em GTID

Se você quiser atualizar seu fluxo e mudar da replicação baseada em binlog para a baseada em GTID sem precisar fazer um backfill, siga estas etapas:

  1. Verifique se todos os requisitos para a replicação baseada em GTID foram atendidos. Para mais informações, consulte Configurar um banco de dados MySQL de origem.
  2. Opcionalmente, crie e execute um fluxo de teste baseado em GTID. Para mais informações, consulte Criar um stream.
  3. Crie um stream baseado em GTID. Não inicie ainda.
  4. Interrompa o tráfego de aplicativos para o banco de dados de origem.
  5. Pause o stream atual com base em binlog. Para mais informações, consulte Pausar o stream.
  6. Aguarde alguns minutos para garantir que o Datastream tenha alcançado o banco de dados. Para verificar isso, use as métricas na guia Monitoring, na página Detalhes do stream. Os valores de Atualização de dados e Taxa de transferência precisam ser 0.
  7. Inicie o stream baseado em GTID. Para mais informações, consulte Iniciar a transmissão.
  8. Retome o tráfego para o banco de dados de origem.

Se não houver problema em fazer um backfill, você poderá truncar as tabelas no BigQuery, excluir o fluxo antigo e iniciar um novo com backfill. Para mais informações sobre como gerenciar o preenchimento, consulte Gerenciar o preenchimento dos objetos de um stream.

Versões

O Datastream é compatível com as seguintes versões do banco de dados MySQL:

  • MySQL 5.6
  • MySQL 5.7
  • MySQL 8.0
  • MySQL 8.4 (compatível apenas com replicação baseada em GTID)

O Datastream é compatível com os seguintes tipos de banco de dados do MySQL:

Limitações conhecidas

Limitações conhecidas para o uso do banco de dados MySQL como fonte incluem:

  • Os streams são limitados a 10.000 tabelas.
  • Tabelas que têm uma chave primária definida como INVISIBLE não podem ser preenchidas.
  • Uma tabela com mais de 500 milhões de linhas não pode ser preenchida, a menos que as seguintes condições sejam atendidas:
    1. A tabela tem um índice exclusivo.
    2. Nenhuma das colunas do índice pode ser nula.
    3. O índice não é descendente.
    4. Todas as colunas do índice são incluídas no fluxo.
  • O Datastream busca periodicamente o esquema mais recente da origem à medida que os eventos são processados. Se um esquema mudar, o Datastream vai detectar a mudança e acionar uma busca de esquema. No entanto, alguns eventos podem ser processados incorretamente ou descartados entre as buscas de esquema, o que pode causar discrepâncias de dados.
  • Nem todas as alterações no esquema de origem podem ser detectadas automaticamente. Nesse caso, pode ocorrer corrupção de dados. As seguintes alterações de esquema podem causar corrupção de dados ou falha no processamento de eventos downstream:
    • Como descartar colunas
    • Como adicionar colunas no meio de uma tabela
    • Como alterar o tipo de dados de uma coluna
    • Como reorganizar as colunas
    • Como descartar tabelas (relevantes se a mesma tabela for recriada com novos dados adicionados)
    • Truncando tabelas
  • O Datastream não é compatível com a replicação de visualizações.
  • O Datastream não é compatível com colunas de tipos de dados espaciais. Os valores nessas colunas são substituídos por NULL.
  • O Datastream não é compatível com o valor zero (0000-00-00 00:00:00) nas colunas dos tipos de dados DATETIME, DATE ou TIMESTAMP. O valor zero é substituído pelo valor NULL.
  • O Datastream não é compatível com a replicação de linhas que incluem os seguintes valores nas colunas JSON: DECIMAL, NEWDECIMAL, TIME, TIME2, DATETIME, DATETIME2, DATE, TIMESTAMP ou TIMESTAMP2. Os eventos que contêm esses valores são descartados.
  • O Datastream não oferece suporte à compactação de transações de log binário.
  • O Datastream não oferece suporte a cadeias de certificados SSL nos perfis de conexão do MySQL de origem. Somente certificados únicos x509 codificados em PEM são aceitos.
  • O Datastream não é compatível com exclusões em cascata. Esses eventos não são gravados no registro binário e, portanto, não são propagados para o destino.
  • O Datastream não é compatível com operações DROP PARTITION. Essas operações são apenas de metadados e não são replicadas. Outros eventos não são afetados, e o stream é executado sem problemas.
  • Como o Datastream não oferece suporte a failovers para réplicas ao usar a replicação com base em registros binários, recomendamos usar a replicação com base em GTID para fontes do Cloud SQL para MySQL Enterprise Plus. As instâncias do Cloud SQL Enterprise Plus estão sujeitas a manutenção com inatividade quase zero e fazem failover para uma réplica durante a manutenção.

Outras limitações da replicação baseada em GTID

  • A recuperação de streams que usam a replicação baseada em GTID só está disponível ao usar a API Datastream.
  • Não é possível criar tabelas usando outras tabelas com as instruções CREATE TABLE ... SELECT.
  • O Datastream não é compatível com GTIDs marcados.
  • Para restrições do MySQL que se aplicam à replicação baseada em GTID, consulte a documentação do MySQL.

A seguir