Exportar metadados do metastore do Dataproc

Nesta página, explicamos como exportar metadados do metastore do Dataproc.

Com o recurso de exportação de metadados, é possível salvar seus metadados em um formato de armazenamento portátil.

Depois de exportar os dados, você pode importar os metadados para outro serviço do metastore do Dataproc ou um metastore do Hive (HMS) autogerenciado.

Sobre a exportação de metadados

Ao exportar metadados do metastore do Dataproc, o serviço armazena os dados em um dos seguintes formatos de arquivo:

  • Um conjunto de arquivos Avro armazenados em uma pasta.
  • Um único arquivo dump do MySQL armazenado em uma pasta do Cloud Storage.

Avro

As exportações baseadas em Avro são compatíveis apenas com as versões 2.3.6 e 3.1.2 do Hive. Ao exportar arquivos Avro, o metastore do Dataproc cria um arquivo <table-name>.avro para cada tabela no seu banco de dados.

Para exportar arquivos Avro, seu serviço do metastore do Dataproc pode usar o tipo de banco de dados MySQL ou Spanner.

MySQL

As exportações baseadas em MySQL são compatíveis com todas as versões do Hive. Ao exportar arquivos MySQL, o metastore do Dataproc cria um único arquivo SQL que contém todas as informações da tabela.

Para exportar arquivos do MySQL, o serviço metastore do Dataproc precisa usar o tipo de banco de dados MySQL. O tipo de banco de dados do Spanner não é compatível com importações do MySQL.

Antes de começar

Funções exigidas

Para ter as permissões necessárias para exportar metadados para o Dataproc Metastore, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para exportar metadados para o Dataproc Metastore. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para exportar metadados para o metastore do Dataproc:

  • Para exportar metadados: metastore.services.export no serviço do metastore
  • Para MySQL e Avro, conceda à sua conta de usuário e ao agente de serviço do metastore do Dataproc: storage.objects.create no bucket do Cloud Storage

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Para mais informações sobre papéis e permissões específicos do metastore do Dataproc, consulte Visão geral do IAM do metastore do Dataproc.

Exportar metadados

Antes de exportar os metadados, observe as seguintes considerações:

  • Enquanto uma exportação está em execução, não é possível atualizar um serviço do metastore do Dataproc, por exemplo, mudando as configurações de configuração. No entanto, ainda é possível usá-lo para operações normais, como acessar os metadados de clusters autogerenciados ou do Dataproc anexados.
  • O recurso de exportação de metadados exporta apenas metadados. Os dados criados pelo Apache Hive em tabelas internas não são replicados na exportação.

Para exportar metadados de um serviço do metastore do Dataproc, siga estas etapas:

Console

  1. No console do Google Cloud , abra a página Metastore do Dataproc:

    Abrir o metastore do Dataproc

  2. Na página Metastore do Dataproc, clique no nome do serviço do qual você quer exportar metadados.

    A página Detalhes do serviço é aberta.

    Página de detalhes do serviço
    Página de detalhes do serviço metastore do Dataproc
  3. Na barra de navegação, clique em Exportar.

    A página Exportar metadados é aberta.

  4. Na seção Destino, escolha MySQL ou Avro.

  5. No campo URI de destino, clique em Procurar e selecione o URI do Cloud Storage para onde você quer exportar os arquivos.

    Você também pode inserir o local do bucket no campo de texto fornecido. Use o seguinte formato: bucket/object ou bucket/folder/object.

  6. Para iniciar a exportação, clique em Enviar.

    Quando terminar, a exportação vai aparecer em uma tabela na página Detalhes do serviço, na guia Importar/exportar.

    Quando a exportação é concluída, o metastore do Dataproc retorna automaticamente ao estado ativo, mesmo que ela não tenha sido bem-sucedida.

CLI da gcloud

  1. Para exportar metadados de um serviço, execute o seguinte comando gcloud metastore services export gcs:

    gcloud metastore services export gcs SERVICE \
        --location=LOCATION \
        --destination-folder=gs://bucket-name/path/to/folder \
        --dump-type=DUMP_TYPE
    

    Substitua:

    • SERVICE: o nome do seu serviço metastore do Dataproc.
    • LOCATION: a Google Cloud região em que seu serviço do metastore do Dataproc está localizado.
    • bucket-name/path/to/folder: a pasta de destino do Cloud Storage em que você quer armazenar a exportação.
    • DUMP_TYPE: o tipo de despejo de banco de dados a ser gerado pela exportação. Os valores aceitos incluem mysql e avro. O valor padrão é mysql.
  2. Verifique se a exportação foi bem-sucedida.

    Quando a exportação é concluída, o metastore do Dataproc retorna automaticamente ao estado ativo, mesmo que ela não tenha sido bem-sucedida.

REST

Siga as instruções da API para exportar metadados para um serviço usando o APIs Explorer.

Quando a exportação é concluída, o serviço volta automaticamente ao estado ativo, mesmo que ela não tenha sido bem-sucedida.

Ver histórico de exportação

Para conferir o histórico de exportação de um serviço do metastore do Dataproc no consoleGoogle Cloud , siga estas etapas:

  1. No console do Google Cloud , abra a página Metastore do Dataproc.
  2. Na barra de navegação, clique em Importar/Exportar.

    Seu histórico de exportação aparece na tabela Histórico de exportação.

    O histórico mostra até as últimas 25 exportações.

A exclusão de um serviço do metastore do Dataproc também exclui todo o histórico de exportação associado.

Resolver problemas comuns

Confira alguns problemas comuns:

Para mais ajuda na solução de problemas comuns, consulte Cenários de erros de importação e exportação.

A seguir