Visão geral das tarefas de qualidade de dados

Com as tarefas de qualidade de dados do Catálogo Universal do Dataplex, é possível definir e executar verificações de qualidade de dados em tabelas do BigQuery e do Cloud Storage. Com as tarefas de qualidade de dados do Catálogo Universal do Dataplex, também é possível aplicar controles regulares de dados em ambientes do BigQuery.

Quando criar tarefas de qualidade de dados do Dataplex Universal Catalog

As tarefas de qualidade de dados do Dataplex Universal Catalog podem ajudar você com o seguinte:

  • Validar os dados como parte de um pipeline de produção de dados.
  • Monitorar rotineiramente a qualidade dos conjuntos de dados em relação às suas expectativas.
  • Criar relatórios de qualidade de dados para atender às exigências regulatórias.

Benefícios

  • Especificações personalizáveis. É possível usar a sintaxe YAML altamente flexível para declarar suas regras de qualidade de dados.
  • Implementação sem servidor. O Dataplex Universal Catalog não precisa de configuração de infraestrutura.
  • Copiar sem cópia e pushdown automático. As verificações YAML são convertidas em SQL e enviadas para o BigQuery, sem resultar em cópia de dados.
  • Verificações de qualidade de dados programáveis. É possível agendar verificações de qualidade de dados pelo programador sem servidor no Dataplex Universal Catalog ou usar a API Dataplex por programadores externos, como o Cloud Composer para integração de pipelines.
  • Experiência gerenciada. O Dataplex Universal Catalog usa um mecanismo de qualidade de dados de código aberto, o CloudDQ, para executar verificações de qualidade de dados. No entanto, o Dataplex Universal Catalog oferece uma experiência gerenciada perfeita para realizar essas verificações.

Como as tarefas de qualidade de dados funcionam

O diagrama a seguir mostra como as tarefas de qualidade de dados do Dataplex Universal Catalog funcionam:

imagem

  • Entrada dos usuários
    • Especificação YAML: um conjunto de um ou mais arquivos YAML que definem regras de qualidade de dados com base na sintaxe de especificação. Você armazena os arquivos YAML em um bucket do Cloud Storage no seu projeto. Os usuários podem executar várias regras simultaneamente, e essas regras podem ser aplicadas a diferentes tabelas do BigQuery, incluindo tabelas em diferentes conjuntos de dados ou projetos do Google Cloud. A especificação aceita execuções incrementais apenas para validar novos dados. Para criar uma especificação YAML, consulte Criar um arquivo de especificação.
    • Tabela de resultados do BigQuery: uma tabela especificada pelo usuário em que os resultados da validação da qualidade de dados são armazenados. O projeto Google Cloud em que essa tabela reside pode ser diferente daquele em que a tarefa de qualidade de dados do Dataplex Universal Catalog é usada.
  • Tabelas para validação
    • Na especificação YAML, você precisa especificar quais tabelas quer validar e para quais regras, também conhecido como uma vinculação de regra. Elas podem ser tabelas nativas ou externas do BigQuery no Cloud Storage. Com a especificação YAML, é possível especificar tabelas dentro ou fora de uma zona do Dataplex Universal Catalog.
    • As tabelas do BigQuery e do Cloud Storage validadas em uma única execução podem pertencer a projetos diferentes.
  • Tarefa de qualidade de dados do Catálogo Universal do Dataplex: uma tarefa de qualidade de dados do Catálogo Universal do Dataplex é configurada com um binário PySpark do CloudDQ pré-criado e mantido, além de usar a especificação YAML e a tabela de resultados do BigQuery como entrada. Assim como outras tarefas do Catálogo Universal do Dataplex, a tarefa de qualidade de dados do Catálogo Universal do Dataplex é executada em um ambiente sem servidor do Spark, converte a especificação YAML em consultas do BigQuery e executa essas consultas nas tabelas definidas no arquivo de especificação.

Preços

Quando você executa tarefas de qualidade de dados do Catálogo Universal do Dataplex, você é cobrado pelo uso do BigQuery e do Dataproc sem servidor (Batches).

  • A tarefa de qualidade de dados do Catálogo Universal do Dataplex converte o arquivo de especificação em consultas do BigQuery e as executa no projeto do usuário. Consulte Preços do BigQuery.

  • O Dataplex Universal Catalog usa o Spark para executar o programa de driver CloudDQ de código aberto pré-criado e mantido pelo Google para converter a especificação do usuário em consultas do BigQuery. Consulte Preços do Dataproc sem servidor.

Não há cobranças pelo uso do Dataplex Universal Catalog para organizar dados ou pelo uso do programador sem servidor no Dataplex Universal Catalog para programar verificações de qualidade de dados. Consulte os preços do Dataplex Universal Catalog.

A seguir