Sincronizar o Dataproc Metastore com o Data Catalog

Neste documento, mostramos como sincronizar os metadados do metastore do Dataproc com o Data Catalog.

Depois de sincronizar esses dois serviços, será possível usar o Data Catalog para gerenciar os metadados do metastore do Dataproc. Por exemplo, ao usar Data Catalog, é possível marcar e pesquisar metadados específicos do Dataproc recursos, como bancos de dados e tabelas.

O que é o Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável. Ele oferece visualização unificada e mecanismos de inclusão de tag para recursos e metadados comerciais.

Para mais informações, consulte os seguintes guias de recursos do Data Catalog:

Antes de começar

Funções exigidas

Para receber as permissões necessárias para sincronizar os metadados do Metastore do Dataproc com o Data Catalog, peça ao administrador para conceder a você o papel do IAM Acessar as entradas sincronizadas do Metastore do Dataproc no Data Catalog (roles/metastore.metadataViewer) no seu projeto, com base no princípio do privilégio mínimo. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog:

  • Para acessar bancos de dados do Dataproc Metastore: metastore.databases.get
  • Para listar bancos de dados do metastore do Dataproc: metastore.databases.list
  • Para receber tabelas do metastore do Dataproc: metastore.tables.get
  • Para listar tabelas do metastore do Dataproc: metastore.tables.list

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Para mais informações sobre permissões e papéis específicos do metastore do Dataproc, consulte Gerenciar acesso com o IAM.

Como funcionam as permissões entre os serviços

O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.

O Data Catalog verifica as permissões de cada metastore e uma tabela no momento do acesso, para que apenas os usuários com acesso ao O serviço do Dataproc Metastore pode conferir o serviço sincronizado recursos como entradas no Data Catalog.

Como a sincronização do Data Catalog funciona com o metastore do Dataproc

É possível ativar o metastore do Dataproc para o Data Catalog sincronizar ao criar ou atualizar um serviço do Dataproc Metastore usando no console do Google Cloud. É possível desativar a sincronização da mesma maneira.

Depois de ativar a sincronização do Data Catalog, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.

O Data Catalog sincroniza os seguintes metadados:

  • Instances.
  • Bancos de dados, incluindo nome e descrição.
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições).

Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso metastore do Dataproc Recurso do Data Catalog
Instância Entrada no grupo
Entrada
Banco de dados Entrada
Tabela Entrada
Coluna Esquema

Considerações

  • Pode levar até seis horas para que seu metastore do Dataproc os metadados são totalmente sincronizados com o Data Catalog. Após a inicial for concluída, as alterações incrementais serão sincronizadas sob demanda (como tabelas ou do banco de dados). Se uma sincronização sob demanda falhar, ela será incluída em um lote que ocorre a cada seis horas.

  • Se você suspeitar que há um problema com a sincronização, verifique os registros de publicação de metadados no Cloud Logging do metastore do Dataproc com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados vão parar de ser sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.

  • Os metadados do metastore do Dataproc armazenados no Data Catalog seguem os períodos de retenção padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.

Criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog está desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço, siga estas instruções.

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Acesse Dataproc Metastore

  2. Na parte superior da página Metastore do Dataproc, clique em Criar.

    A página Criar serviço é aberta.

  3. Selecione a versão do Metastore do Dataproc que você quer usar.

  4. Em Integração de metadados, clique em Sincronização do Data Catalog.

  5. Para as demais opções de configuração de serviço, use os padrões fornecidos. Ou configure seu serviço conforme necessário.

  6. Clique em Enviar.

Ativar ou desativar a sincronização do Data Catalog para um serviço atual

Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, use as instruções a seguir.

Console

  1. No console do Google Cloud, abra a página do metastore do Dataproc:

    Acesse Dataproc Metastore

  2. Na página Metastore do Dataproc, clique no serviço que você quer atualizar.

    A página Detalhes do serviço desse serviço é aberta.

  3. Na guia Configuration, clique em Edit.

    A página Editar serviço é aberta.

  4. Em Integração de metadados, ative a opção Sincronização do Data Catalog.

  5. Clique em Enviar.

Pesquisar com o Data Catalog

Você pode pesquisar metadados sincronizados do metastore do Dataproc usando o Data Catalog.

Não há opções personalizadas de pesquisa para o metastore do Dataproc, mas existem várias maneiras de procurar diferentes recursos do metastore do Dataproc, incluindo:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Funções padrão do Data Catalog, por exemplo, usando tags
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags
  • Tabela
    • Por nome de exibição
    • Por descrição
    • Por nome da coluna
    • Por descrição de coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags

A seguir