Sobre a criação de perfil de dados

Com a criação de perfil de dados do Dataplex Universal Catalog, é possível identificar características estatísticas comuns das colunas nas tabelas do BigQuery. Essas informações ajudam você a entender e analisar seus dados com mais eficiência.

Informações como valores de dados típicos, distribuição de dados e contagens de nulos podem acelerar a análise. Quando combinada com a classificação de dados, a criação de perfis de dados pode detectar classes de dados ou informações sensíveis que, por sua vez, podem ativar políticas de controle de acesso.

O Dataplex Universal Catalog também usa essas informações para recomendar regras para verificações de qualidade de dados.

Modelo conceitual

Com o Dataplex Universal Catalog, é possível entender melhor o perfil dos seus dados criando uma verificação de perfil de dados.

O diagrama a seguir mostra como o Dataplex Universal Catalog verifica os dados para gerar relatórios sobre características estatísticas.

Uma verificação de perfil de dados analisa os dados da tabela para gerar um relatório sobre as características estatísticas.

Uma verificação de perfil de dados está associada a uma tabela do BigQuery e verifica a tabela para gerar os resultados da criação de perfil de dados. Uma verificação de perfil de dados é compatível com várias opções de configuração.

Opções de configuração

Esta seção descreve as opções de configuração disponíveis para executar verificações de perfil de dados.

Opções de programação

É possível programar uma verificação de perfil de dados com uma frequência definida ou executar a verificação sob demanda.

Escopo

Você pode especificar o escopo dos dados a serem verificados:

  • Tabela completa: toda a tabela é verificada na verificação de perfil de dados. A amostragem e os filtros de linha e coluna são aplicados à tabela inteira antes de calcular as estatísticas de criação de perfil.

  • Incremental: os dados incrementais especificados são verificados na verificação de perfil de dados. Especifique uma coluna Date ou Timestamp na tabela a ser usada como um incremento. Normalmente, essa é a coluna em que a tabela é particionada. A amostragem e os filtros de linha e coluna são aplicados aos dados incrementais antes do cálculo das estatísticas de criação de perfil.

Filtrar dados

É possível filtrar os dados que serão verificados para criação de perfis usando filtros de linha e coluna. O uso de filtros ajuda a reduzir o tempo de execução e o custo, além de excluir dados sensíveis e inúteis.

  • Filtros de linha: permitem focar em dados de um período ou segmento específico, como região. Por exemplo, é possível filtrar dados com um carimbo de data/hora anterior a uma determinada data.

  • Filtros de coluna: permitem incluir e excluir colunas específicas da tabela para executar a verificação de perfil de dados.

Dados de amostra

É possível especificar uma porcentagem de registros dos seus dados para criar uma amostra e executar uma verificação de perfil de dados. Criar verificações de perfil de dados em uma amostra menor de dados pode reduzir o tempo de execução e o custo de consulta do conjunto de dados inteiro.

Várias verificações do perfil de dados

É possível criar várias verificações de perfil de dados ao mesmo tempo usando o console do Google Cloud . É possível selecionar até 100 tabelas de um conjunto de dados e criar uma verificação de perfil de dados para cada um deles. Para mais informações, consulte Criar várias verificações de perfil de dados.

Exportar os resultados da verificação para uma tabela do BigQuery

É possível exportar os resultados da verificação do perfil de dados para uma tabela do BigQuery e fazer uma análise mais detalhada. Para personalizar os relatórios, conecte os dados da tabela do BigQuery a um painel do Looker. É possível criar um relatório agregado usando a mesma tabela de resultados em várias verificações.

Resultados da criação de perfil de dados

Os resultados da criação de perfil de dados incluem os seguintes valores:

Tipo de coluna Resultados da criação de perfil de dados
Coluna numérica
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 valores mais comuns na coluna. Ele pode ser menor que 10 se o número de valores únicos na coluna for menor que 10 (valores nulos não são incluídos). Para cada um desses valores mais comuns, a porcentagem de ocorrência nos dados verificados na verificação atual é mostrada.
  • Valores de média, desvio padrão, mínimo, quartil inferior aproximado, mediana aproximada, quartil superior aproximado e máximo.
Coluna de string
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 valores mais comuns na coluna, que podem ser menos de 10 se o número de valores únicos na coluna for menor que 10.
  • Comprimento médio, mínimo e máximo da string.
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binário etc.)
  • Porcentagem de valores nulos.
  • Porcentagem de valores aproximados únicos (distintos).
  • Os 10 valores mais comuns na coluna, que podem ser menos de 10 se o número de valores únicos na coluna for menor que 10.
Todas as outras colunas aninhadas ou de tipo de dados complexos (como Record, Array, JSON) ou qualquer coluna com o modo repeated.
  • Porcentagem de valores nulos.

Os resultados incluem o número de registros verificados em cada job.

Relatórios e monitoramento

É possível monitorar e analisar os resultados da criação de perfil de dados usando os seguintes relatórios e métodos:

  • Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Universal Catalog do Dataplex

    Se você configurou uma verificação de perfil de dados para publicar os resultados nas páginas do catálogo universal do BigQuery e do Dataplex no consoleGoogle Cloud , é possível conferir os resultados mais recentes da verificação de perfil de dados nessas páginas, na guia Perfil de dados da tabela de origem, em qualquer projeto.

    Relatórios publicados.

  • Relatório histórico por job

    Na página Criação de perfil e qualidade de dados > Verificação de perfil de dados do Catálogo Universal do Dataplex e do BigQuery, é possível conferir os relatórios detalhados dos jobs mais recentes e históricos. Isso inclui informações de perfil no nível da coluna e a configuração usada.

    Relatório histórico por job.

  • Guia "Análise"

    Na página Criação de perfil e qualidade de dados > Verificação de perfil de dados do Catálogo Universal do Dataplex e do BigQuery, use a guia Análise para conferir as tendências de uma determinada estatística de uma coluna em vários jobs de criação de perfil. Por exemplo, se você tiver uma verificação incremental, poderá conferir como a média de um valor mudou ao longo do tempo.

    Guia "Análise".

  • Criar seu próprio painel ou análise

    Se você configurou uma verificação de perfil de dados para exportar resultados para uma tabela do BigQuery, poderá criar seus próprios painéis usando ferramentas como o Looker Studio.

Limitações

  • A criação de perfil de dados é compatível com tabelas do BigQuery que têm todos os tipos de coluna, exceto BIGNUMERIC. Uma verificação criada para uma tabela com uma coluna BIGNUMERIC resulta em um erro de validação e não é criada.

Preços

  • O Dataplex Universal Catalog usa a SKU de processamento premium para cobrar pela criação de perfis de dados. Para mais informações, consulte Preços.

  • O processamento premium do Dataplex Universal Catalog para criação de perfil de dados é faturado por segundo, com um mínimo de um minuto.

  • Não há cobrança por verificações de perfil de dados com falha.

  • A cobrança depende do número de linhas e colunas, da quantidade de dados verificados, das configurações de particionamento e clustering na tabela e da frequência da verificação.

  • Há várias opções para reduzir o custo das verificações do perfil de dados:

    • Amostragem
    • Verificações incrementais
    • Filtragem de colunas
    • Filtragem de linhas
  • Para separar as cobranças de criação de perfil de dados de outras cobranças na SKU de processamento premium do Dataplex Universal Catalog, no relatório do Cloud Billing, use o rótulo goog-dataplex-workload-type com o valor DATA_PROFILE.

  • Para filtrar cobranças agregadas, use os seguintes rótulos:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

A seguir