Criar e usar verificações de perfil de dados

Nesta página, mostramos como criar e gerenciar verificações de perfil de dados. Com a criação de perfil de dados, é possível identificar características estatísticas comuns das colunas nas tabelas do BigQuery. Essas informações ajudam você a entender e analisar seus dados com mais eficiência.

Para mais informações sobre as verificações de perfil de dados do Dataplex Universal Catalog, consulte Sobre a criação de perfil de dados.

Antes de começar

Enable the Dataplex API.

Enable the API

Funções exigidas

Para criar perfis de tabelas do BigQuery, você precisa das seguintes permissões:

  • Para executar uma verificação do perfil de dados em uma tabela do BigQuery, você precisa de permissão para ler a tabela e para criar um job do BigQuery no projeto usado para verificar a tabela.

  • Se a tabela do BigQuery e a verificação do perfil de dados estiverem em projetos diferentes, conceda à conta de serviço do catálogo universal do Dataplex a permissão de leitura na tabela correspondente do BigQuery.

  • Se os dados do BigQuery estiverem organizados em um data lake do Catálogo Universal do Dataplex, para criar uma verificação de perfil de dados, você precisará das funções roles/dataplex.metadataReader e roles/dataplex.viewer do Catálogo Universal do Dataplex. Isso concede as seguintes permissões:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se você estiver verificando uma tabela externa do BigQuery no Cloud Storage, atribua à conta de serviço do Universal Catalog do Dataplex o papel de Leitor de objetos do Storage (roles/storage.objectViewer) ou as seguintes permissões no bucket:

    • storage.buckets.get
    • storage.objects.get
  • Se você quiser publicar os resultados da verificação de perfil de dados nas páginas do Catálogo universal do BigQuery e do Dataplex no consoleGoogle Cloud para as tabelas de origem, é necessário ter o papel de editor de dados do BigQuery (roles/bigquery.dataEditor) na tabela. Como alternativa, você precisa de todas as seguintes permissões:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Para exportar os resultados da verificação para uma tabela do BigQuery, sua conta de serviço do Dataplex Universal Catalog precisa da função Editor de dados do BigQuery (roles/bigquery.dataEditor). Isso concede as seguintes permissões:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se você precisar acessar colunas protegidas por políticas de acesso no nível da coluna do BigQuery, atribua permissões da conta de serviço do Dataplex Universal Catalog a essas colunas. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões nas colunas.

  • Se uma tabela tiver políticas de acesso no nível da linha do BigQuery ativadas, só será possível verificar as linhas visíveis para a conta de serviço do Dataplex Universal Catalog. Os privilégios de acesso do usuário individual não são avaliados para políticas no nível da linha.

Permissões e papéis de verificação de dados

Para usar a criação de perfil de dados, peça ao administrador para conceder a você um dos seguintes papéis do IAM:

  • roles/dataplex.dataScanAdmin: acesso total aos recursos DataScan.
  • roles/dataplex.dataScanEditor: acesso de gravação aos recursos DataScan.
  • roles/dataplex.dataScanViewer: acesso de leitura aos recursos DataScan, exceto os resultados.
  • roles/dataplex.dataScanDataViewer: acesso de leitura aos recursos DataScan, incluindo os resultados.

A tabela a seguir lista as permissões de verificação de dados:

Nome da permissão Concede permissão para fazer o seguinte:
dataplex.datascans.create Criar um DataScan
dataplex.datascans.delete Excluir um DataScan
dataplex.datascans.get Ver detalhes de DataScan excluindo resultados
dataplex.datascans.getData Ver detalhes de DataScan, incluindo resultados
dataplex.datascans.list Listar DataScans
dataplex.datascans.run Executar um DataScan
dataplex.datascans.update Atualizar a descrição de um DataScan
dataplex.datascans.getIamPolicy Conferir as permissões atuais do IAM na verificação
dataplex.datascans.setIamPolicy Definir permissões do IAM na verificação

Criar uma verificação do perfil de dados

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique em Criar verificação do perfil de dados.

  3. Opcional: insira um Nome de exibição.

  4. Insira um ID. Consulte as Convenções de nomenclatura de recursos.

  5. Opcional: digite uma Descrição.

  6. No campo Tabela, clique em Procurar. Escolha a tabela para verificar e clique em Selecionar.

    Para tabelas em conjuntos de dados multirregionais, escolha uma região em que a verificação de dados será criada.

    Para procurar as tabelas organizadas nos lakes do Dataplex Universal Catalog, clique em Procurar dentro de lakes do Dataplex.

  7. No campo Escopo, escolha Incremental ou Dados inteiros.

    • Se você escolher Dados incrementais, no campo Coluna de carimbo de data/hora, selecione uma coluna do tipo DATE ou TIMESTAMP na tabela do BigQuery que aumenta à medida que novos registros são adicionados e que pode ser usada para identificar novos registros. Para tabelas particionadas em uma coluna do tipo DATE ou TIMESTAMP, recomendamos usar a coluna de partição como o campo de carimbo de data/hora.
  8. Opcional: para filtrar seus dados, faça o seguinte:

    • Para filtrar por linhas, marque a caixa de seleção Filtrar linhas. Insira uma expressão SQL válida que possa ser usada em uma cláusula WHERE na sintaxe do GoogleSQL. Exemplo: col1 >= 0.

      O filtro pode ser uma combinação de condições SQL em várias colunas. Por exemplo, col1 >= 0 AND col2 < 10.

    • Para filtrar por colunas, marque a caixa de seleção Filtrar colunas.

      • Para incluir colunas na verificação de perfil, no campo Incluir colunas, clique em Procurar. Selecione as colunas que você quer incluir e clique em Selecionar.

      • Para excluir colunas da verificação de perfil, no campo Excluir colunas, clique em Procurar. Selecione as colunas a serem excluídas e clique em Selecionar.

  9. Para aplicar a amostragem à verificação de perfil de dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem. Escolha uma porcentagem entre 0,0% e 100,0% com até três casas decimais.

    • Para conjuntos de dados maiores, escolha uma porcentagem de amostragem menor. Por exemplo, para uma tabela de 1 PB, se você inserir um valor entre 0,1% e 1,0%, o perfil de dados vai amostrar entre 1 e 10 TB de dados.

    • É necessário ter pelo menos 100 registros nos dados amostrados para retornar um resultado.

    • Nas verificações de dados incrementais, a verificação de perfil de dados aplica amostragem ao incremento mais recente.

  10. Opcional: publique os resultados da verificação de perfil de dados nas páginas do BigQuery e do Universal Catalog do Dataplex no consoleGoogle Cloud da tabela de origem. Marque a caixa de seleção Publicar resultados na interface do BigQuery e do Dataplex Catalog.

    É possível conferir os resultados mais recentes da verificação na guia Perfil de dados nas páginas do BigQuery e do Universal Catalog do Dataplex para a tabela de origem. Para permitir que os usuários acessem os resultados da verificação publicada, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

    A opção de publicação pode não estar disponível nos seguintes casos:

    • Você não tem as permissões necessárias na tabela.
    • Outra verificação de qualidade de dados está definida para publicar resultados.
  11. Na seção Programação, escolha uma das seguintes opções:

    • Repetir: execute a verificação de perfil de dados em uma programação: por hora, diária, semanal, mensal ou personalizada. Especifique a frequência e o horário da verificação. Se você escolher "Personalizado", use o formato cron para especificar a programação.

    • Sob demanda: execute a verificação do perfil de dados sob demanda.

  12. Clique em Continuar.

  13. Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Na seção Exportar os resultados da verificação para a tabela do BigQuery, faça o seguinte:

    1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da verificação do perfil de dados.

    2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da verificação de perfil de dados. Se você estiver usando uma tabela, verifique se ela é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog vai criá-la.

  14. Opcional: adicione rótulos. Rótulos são pares de chave-valor que permitem agrupar objetos relacionados entre si ou com outros recursos do Google Cloud .

  15. Para criar a verificação, clique em Criar.

    Se você definir a programação como "sob demanda", também poderá executar a verificação agora clicando em Executar verificação.

gcloud

Para criar uma verificação do perfil de dados, use o comando gcloud dataplex datascans create data-profile.

Se os dados de origem estiverem organizados em um lake do Dataplex Universal Catalog, inclua a flag --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Se os dados de origem não estiverem organizados em um lake do Dataplex Universal Catalog, inclua a flag --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de perfil de dados.
  • LOCATION: a região Google Cloud em que a verificação de perfil de dados será criada.
  • DATA_SOURCE_ENTITY: a entidade do Dataplex Universal Catalog que contém os dados da verificação de perfil de dados. Por exemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: o nome do recurso que contém os dados da verificação de perfil de dados. Por exemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Para criar uma verificação do perfil de dados, use o método dataScans.create.

Exportar esquema da tabela

Se você quiser exportar os resultados da verificação de perfil de dados para uma tabela do BigQuery, verifique se ela é compatível com o seguinte esquema de tabela:

Nome da coluna Tipo de dados da coluna Nome do subcampo (se aplicável) Tipo de dados do subcampo Modo Exemplo
data_profile_scan struct/record resource_name string nullable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string nullable test-project
location string nullable us-central1
data_scan_id string nullable test-datascan
data_source struct/record resource_name string nullable

Caso da entidade: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso da tabela: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string nullable test-project
dataplex_entity_project_number integer nullable 123456789012
dataplex_lake_id string nullable

(Válido apenas se a origem for uma entidade)

test-lake

dataplex_zone_id string nullable

(Válido apenas se a origem for uma entidade)

test-zone

dataplex_entity_id string nullable

(Válido apenas se a origem for uma entidade)

test-entity

table_project_id string nullable dataplex-table
table_project_number int64 nullable 345678901234
dataset_id string nullable

(Válido apenas se a origem for uma tabela)

test-dataset

table_id string nullable

(Válido apenas se a origem for uma tabela)

test-table

data_profile_job_id string nullable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string nullable ondemand/schedule
incremental boolean nullable true/false
sampling_percent float nullable

(0-100)

20.0 (indica 20%)

row_filter string nullable col1 >= 0 AND col2 < 10
column_filter json nullable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json nullable {"key1":value1}
job_start_time timestamp nullable 2023-01-01 00:00:00 UTC
job_end_time timestamp nullable 2023-01-01 00:00:00 UTC
job_rows_scanned integer nullable 7500
column_name string nullable column-1
column_type string nullable string
column_mode string nullable repeated
percent_null float nullable

(0.0-100.0)

20.0 (indica 20%)

percent_unique float nullable

(0.0-100.0)

92.5

min_string_length integer nullable

Válido apenas se o tipo de coluna for string.

10

max_string_length integer nullable

Válido apenas se o tipo de coluna for string.

4

average_string_length float nullable

Válido apenas se o tipo de coluna for string.

7.2

min_value float nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
max_value float nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
average_value float nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
standard_deviation float nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
quartile_lower integer nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
quartile_median integer nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
quartile_upper integer nullable Válido apenas se o tipo de coluna for numérico (inteiro/float)
top_n struct/record - repeated value string nullable "4009"
count integer nullable 20
percent float nullable 10 (indica 10%)

Configuração da exportação de tabela

Ao exportar para tabelas do BigQueryExport, siga estas diretrizes:

  • Para o campo resultsTable, use o formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Use uma tabela padrão do BigQuery.
  • Se a tabela não existir quando a verificação for criada ou atualizada, o Dataplex Universal Catalog vai criá-la.
  • Por padrão, a tabela é particionada diariamente na coluna job_start_time.
  • Se você quiser que a tabela seja particionada em outras configurações ou se não quiser a partição, recrie a tabela com o esquema e as configurações necessárias e forneça a tabela pré-criada como a tabela de resultados.
  • Verifique se a tabela de resultados está no mesmo local que a tabela de origem.
  • Se a VPC-SC estiver configurada no projeto, a tabela de resultados precisará estar no mesmo perímetro da VPC-SC que a tabela de origem.
  • Se a tabela for modificada durante a fase de execução da verificação, o job em execução atual será exportado para a tabela de resultados anterior, e a mudança na tabela entrará em vigor a partir do próximo job de verificação.
  • Não modifique o esquema da tabela. Se você precisar de colunas personalizadas, crie uma visualização na tabela.
  • Para reduzir custos, defina uma expiração na partição com base no seu caso de uso. Para mais informações, consulte como definir a validade da partição.

Criar várias verificações de perfil de dados

É possível configurar verificações de perfil de dados para várias tabelas em um conjunto de dados do BigQuery ao mesmo tempo usando o console Google Cloud .

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique em Criar verificação do perfil de dados.

  3. Selecione a opção Várias verificações do perfil de dados.

  4. Insira um prefixo de ID. O Dataplex Universal Catalog gera automaticamente IDs de verificação usando o prefixo fornecido e sufixos exclusivos.

  5. Insira uma Descrição para todas as verificações de perfil de dados.

  6. No campo Conjunto de dados, clique em Procurar. Selecione um conjunto de dados para escolher tabelas. Clique em Selecionar.

  7. Se o conjunto de dados for multirregional, selecione uma região para criar as verificações de perfil de dados.

  8. Configure as configurações comuns das verificações:

    1. No campo Escopo, escolha Incremental ou Dados inteiros.

    2. Para aplicar a amostragem às verificações de perfil de dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem.

      Escolha uma porcentagem entre 0,0% e 100,0% com até três casas decimais.

    3. Opcional: publique os resultados da verificação de perfil de dados nas páginas do BigQuery e do Universal Catalog do Dataplex no consoleGoogle Cloud da tabela de origem. Marque a caixa de seleção Publicar resultados na interface do BigQuery e do Dataplex Catalog.

      É possível conferir os resultados mais recentes da verificação na guia Perfil de dados nas páginas do BigQuery e do Universal Catalog do Dataplex para a tabela de origem. Para permitir que os usuários acessem os resultados da verificação publicada, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

    4. Na seção Programação, escolha uma das seguintes opções:

      • Repetir: execute as verificações de perfil de dados em uma programação: por hora, diária, semanal, mensal ou personalizada. Especifique a frequência e o horário das verificações. Se você escolher "Personalizado", use o formato cron para especificar a programação.

      • Sob demanda: execute as verificações de perfil de dados sob demanda.

  9. Clique em Continuar.

  10. No campo Escolher tabelas, clique em Procurar. Escolha uma ou mais tabelas para verificar e clique em Selecionar.

  11. Clique em Continuar.

  12. Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Na seção Exportar os resultados da verificação para a tabela do BigQuery, faça o seguinte:

    1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da verificação do perfil de dados.

    2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da verificação de perfil de dados. Se você estiver usando uma tabela, verifique se ela é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog vai criá-la para você.

      O Dataplex Universal Catalog usa a mesma tabela de resultados para todas as verificações de perfil de dados.

  13. Opcional: adicione rótulos. Rótulos são pares de chave-valor que permitem agrupar objetos relacionados entre si ou com outros recursos do Google Cloud .

  14. Para criar as verificações, clique em Criar.

    Se você definir a programação como "sob demanda", também poderá executar as verificações agora clicando em Executar verificação.

Executar uma verificação do perfil de dados

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique na verificação do perfil de dados para executar.
  3. Clique em Executar agora.

gcloud

Para executar uma verificação de perfil de dados, use o comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de perfil de dados.
  • LOCATION: a Google Cloud região em que a verificação de perfil de dados foi criada.

REST

Para executar uma verificação de perfil de dados, use o método dataScans.run.

Ver resultados da verificação do perfil de dados

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique no nome de uma verificação do perfil de dados.

    • A seção Visão geral mostra informações sobre os jobs mais recentes, incluindo quando a verificação foi executada, o número de registros de tabela verificados e o status do job.

    • A seção Configuração da verificação de perfil de dados mostra detalhes sobre a verificação.

  3. Para ver informações detalhadas sobre um job, como as colunas da tabela verificada, estatísticas sobre as colunas encontradas na verificação e os registros do job, clique na guia Histórico de jobs. Em seguida, clique em um ID do job.

gcloud

Para conferir os resultados de um job de verificação de perfil de dados, use o comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Substitua as seguintes variáveis:

  • JOB: o ID do job de verificação de perfil de dados.
  • LOCATION: a Google Cloud região em que a verificação de perfil de dados foi criada.
  • DATASCAN: o nome da verificação de perfil de dados a que o job pertence.
  • --view=FULL: para conferir o resultado do job de verificação, especifique FULL.

REST

Para ver os resultados de uma verificação do perfil de dados, use o método dataScans.get.

Ver resultados publicados

Se os resultados da verificação de perfil de dados forem publicados nas páginas do BigQuery e do Universal Catalog do Dataplex no console do Google Cloud , você poderá conferir os resultados mais recentes na guia Perfil de dados da tabela de origem.

  1. No console Google Cloud , acesse a página Pesquisa do Universal Catalog do Dataplex.

    Acesse Pesquisar

  2. Pesquise e selecione a tabela.

  3. Clique na guia Perfil de dados.

    Os resultados publicados mais recentes são mostrados.

Ver o job de verificação de perfil de dados mais recente

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique no nome de uma verificação do perfil de dados.

  3. Clique na guia Resultados do job mais recente.

    A guia Resultados do job mais recente, quando há pelo menos uma execução concluída com sucesso, fornece informações sobre o job mais recente. Ela lista as colunas e estatísticas da tabela verificada sobre as colunas encontradas na verificação.

gcloud

Para conferir a verificação de perfil de dados mais recente, use o comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de perfil de dados para conferir o job mais recente.
  • LOCATION: a região Google Cloud em que a verificação de perfil de dados foi criada.
  • --view=FULL: para conferir o resultado do job de verificação, especifique FULL.

REST

Para conferir o job de verificação mais recente, use o método dataScans.get.

Ver o histórico de resultados das verificações

O Dataplex Universal Catalog salva o histórico de verificação de perfil de dados dos últimos 300 jobs ou do ano anterior, o que ocorrer primeiro.

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique no nome de uma verificação do perfil de dados.

  3. Clique na guia Histórico de jobs.

    A guia Histórico de jobs fornece informações sobre jobs anteriores, como o número de registros verificados em cada job, o status do job e a hora em que ele foi executado.

  4. Para ver informações detalhadas sobre um job, clique em qualquer um deles na coluna ID do job.

gcloud

Para conferir os jobs históricos de verificação de perfil de dados, use o comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Substitua as seguintes variáveis:

  • LOCATION: a região Google Cloud em que a verificação de perfil de dados foi criada.
  • DATASCAN: o nome da verificação de perfil de dados para visualizar jobs.

REST

Para conferir os jobs de verificação do perfil de dados históricos, use o método dataScans.jobs.list.

Conceder acesso aos resultados da verificação do perfil de dados

Para permitir que os usuários da sua organização vejam os resultados da verificação, faça o seguinte:

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique na verificação de qualidade de dados cujos resultados você quer compartilhar.

  3. Clique na guia Permissões.

  4. Faça o seguinte:

    • Para conceder acesso a um principal, clique em Conceder acesso. Conceda o papel Leitor de dados do DataScan Dataplex ao principal associado.
    • Para remover o acesso de um principal, selecione o principal de quem você quer remover o papel Leitor de dados do DataScan do Dataplex. Clique em Remover acesso e confirme quando solicitado.

Gerenciar verificações de perfil de dados para uma tabela específica

As etapas neste documento mostram como gerenciar verificações de perfil de dados em todo o projeto usando a página Criação de perfil e qualidade de dados do Dataplex Universal Catalog no console Google Cloud .

Também é possível criar e gerenciar verificações de perfil de dados ao trabalhar com uma tabela específica. No console Google Cloud , na página do Universal Catalog do Dataplex para a tabela, use a guia Perfil de dados. Faça o seguinte:

  1. No console Google Cloud , acesse a página Pesquisa do Universal Catalog do Dataplex.

    Acesse Pesquisar

    Pesquise e selecione a tabela.

  2. Clique na guia Perfil de dados.

  3. Dependendo de se a tabela tem uma verificação de perfil de dados com resultados publicados, é possível trabalhar com as verificações de perfil de dados da tabela das seguintes maneiras:

    • Os resultados da verificação de perfil de dados são publicados: os resultados da verificação mais recente publicada são mostrados na página.

      Para gerenciar as verificações de perfil de dados dessa tabela, clique em Verificação do perfil de dados e selecione uma das seguintes opções:

      • Criar nova verificação: crie uma nova verificação do perfil de dados. Para mais informações, consulte a seção Criar uma verificação de perfil de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.

      • Executar agora: executa a verificação.

      • Editar configuração de verificação: edite as configurações, incluindo o nome de exibição, os filtros, o tamanho da amostragem e a programação.

      • Gerenciar permissões de verificação: controle quem pode acessar os resultados da verificação. Para mais informações, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

      • Ver resultados históricos: confira informações detalhadas sobre jobs anteriores de verificação do perfil de dados. Para mais informações, consulte as seções Ver resultados da verificação do perfil de dados e Ver resultados históricos da verificação deste documento.

      • Ver todas as verificações: confira uma lista de verificações de perfil de dados que se aplicam a esta tabela.

    • Os resultados da verificação de perfil de dados não são publicados: clique no menu ao lado de Perfil de dados rápido e selecione uma das seguintes opções:

      • Personalizar a criação de perfil de dados: crie uma nova verificação de perfil de dados. Para mais informações, consulte a seção Criar uma verificação de perfil de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.

      • Mostrar perfis anteriores: confira uma lista de verificações de perfil de dados que se aplicam a essa tabela.

Atualizar uma verificação de perfil de dados

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique no nome de uma verificação do perfil de dados.

  3. Clique em Editar e mude os valores.

  4. Clique em Salvar.

gcloud

Para atualizar uma verificação de perfil de dados, use o comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de perfil de dados a ser atualizada.
  • LOCATION: a região Google Cloud em que a verificação de perfil de dados foi criada.
  • DESCRIPTION: a nova descrição da verificação de perfil de dados.

REST

Para editar uma verificação de perfil de dados, use o método dataScans.patch.

Excluir uma verificação de perfil de dados

Console

  1. No console Google Cloud , acesse a página Criação de perfil e qualidade de dados do Universal Catalog do Dataplex.

    Acessar "Qualidade e perfilamento de dados"

  2. Clique na verificação que você quer excluir.

  3. Clique em Excluir e confirme quando solicitado.

gcloud

Para excluir uma verificação de perfil de dados, use o comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de perfil de dados a ser excluída.
  • LOCATION: a região Google Cloud em que a verificação de perfil de dados foi criada.

REST

Para excluir uma verificação do perfil de dados, use o método dataScans.delete.

A seguir