Sobre os protocolos de endpoint do metastore do Dataproc

Ao criar um serviço do metastore do Dataproc, é necessário escolher um dos seguintes protocolos de endpoint:

  • O protocolo Apache Thrift
  • O protocolo gRPC

Esse protocolo define como os clientes do metastore Hive acessam os metadados armazenados no serviço metastore do Dataproc. Essa escolha também pode afetar os recursos que você pode integrar e usar com seu serviço.

Nesta página, explicamos as diferenças conceituais entre cada um dos protocolos de endpoint.

Apache Thrift

O protocolo Apache Thrift é a opção padrão legada pré-selecionada quando você cria um serviço do Dataproc Metastore.

Se você precisar do Kerberos na sua implementação, use essa opção. Se você não precisar do Kerberos, use o protocolo gRPC, que oferece acesso a outros recursos.

Se você usar um endpoint Thrift, escolha o número da porta a que a interface Thrift se conecta. Por padrão, o número da porta 9083 é usado.

Depois de escolher o protocolo Thrift

Depois de criar um metastore do Dataproc usando o Thrift, é possível se conectar a ele de um cluster do Dataproc ou autogerenciado. Em seguida, o cluster usa o metastore do Dataproc como metastore Hive.

gRPC

O protocolo gRPC é a opção moderna, portátil e de alta performance que você precisa selecionar explicitamente ao criar um serviço do Dataproc Metastore.

Se você escolher o protocolo gRPC, não será possível atualizá-lo para Thrift em uma data posterior. Se você quiser migrar do gRPC para o Thrift, crie um novo metastore do Dataproc.

Se você usar um endpoint gRPC, não poderá escolher o número da porta usada pela interface gRPC. Em vez disso, o número da porta 443 é atribuído automaticamente à sua interface.

Depois de escolher o protocolo gRPC

Depois de criar um metastore do Dataproc usando o protocolo de endpoint gRPC, é necessário conceder outros papéis do IAM. Depois, você pode se conectar a ele de um cluster do Dataproc. Em seguida, o cluster usa o metastore do Dataproc como metastore Hive.

A seguir