Concetti fondamentali di Dataproc Metastore

Utilizza i seguenti concetti per comprendere il funzionamento di Dataproc Metastore e le diverse funzionalità che puoi utilizzare con il tuo servizio.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 utilizza un fattore di scala per determinare quante risorse vengono utilizzate dal servizio in un determinato momento. Dopo aver creato un Dataproc Metastore 2, puoi scalare il servizio verso l'alto o verso il basso modificando il fattore di scala.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore. Per ulteriori informazioni, consulta la sezione Funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso rispetto a Dataproc Metastore. Per ulteriori informazioni, consulta i piani tariffari e le configurazioni di scalabilità.

Dataproc Metastore 1

Dataproc Metastore 1 utilizza i livelli di servizio per determinare quante risorse vengono utilizzate dal servizio in un determinato momento. I livelli di servizio forniscono una quantità di risorse predeterminata e prevedibile.

Controllare la versione di Dataproc Metastore

Puoi controllare la versione di Dataproc Metastore in uso nella console Google Cloud.

  • Dataproc Metastore 2: la tabella di configurazione contiene il seguente valore: Versione Enterprise - Singola regione.
  • Dataproc Metastore 1: la tabella di configurazione contiene uno dei seguenti valori: Livello: DEVELOPER o Livello: ENTERPRISE.

Termini comuni di Dataproc Metastore

I seguenti termini sono usati comunemente nell'ecosistema e nella documentazione di Dataproc Metastore.

Servizi

  • Apache Hive. Hive è un popolare sistema di data warehouse open source basato su Apache Hadoop. Hive offre un linguaggio di query simile a SQL chiamato HiveQL, che viene utilizzato per analizzare set di dati di grandi dimensioni e strutturati.
  • Metastore Apache Hive. Il metastore Hive contiene i metadati delle tabelle Hive, ad esempio lo schema e la posizione.
  • Dataproc. Dataproc è un servizio completamente gestito, veloce e facile da utilizzare su Google Cloud per l'esecuzione di carichi di lavoro Apache Spark e Apache Hadoop in modo semplice ed economico. Dopo aver creato un Dataproc Metastore, puoi connetterti da un cluster Dataproc.
  • Cluster Dataproc. Dopo aver creato un servizio Dataproc Metastore, puoi connetterti da un cluster Dataproc. Puoi anche utilizzare Dataproc Metastore con vari altri cluster, ad esempio cluster Apache Hive, Apache Spark o Presto autogestiti.
  • Servizio Dataproc Metastore. Il nome dell'istanza del metastore che crei in Google Cloud. Nella tua implementazione puoi avere uno o più servizi metastore diversi.
  • Private Service Connect. Private Service Connect ti consente di impostare una connessione privata ai metadati di Dataproc Metastore nelle reti VPC. Puoi utilizzarlo per la rete come alternativa al peering VPC.
  • Controlli di servizio VPC. I Controlli di servizio VPC migliorano la tua capacità di mitigare il rischio di esfiltrazione di dati dai servizi Google Cloud consentendoti di creare perimetri che proteggono le risorse e i dati dei servizi che specifichi esplicitamente.

Concetti

  • Tables. Tutte le applicazioni Hive hanno tabelle esterne interne o non gestite che archiviano i dati.
  • Directory del data warehouse Hive. La posizione predefinita in cui vengono archiviati i dati delle tabelle gestite.
  • Bucket di artefatti. Un bucket Cloud Storage creato automaticamente nel progetto con ogni servizio metastore che crei. Questo bucket può essere utilizzato per archiviare gli artefatti di servizio, ad esempio i metadati esportati e i dati delle tabelle gestite. Per impostazione predefinita, il bucket degli elementi archivia la directory del magazzino predefinita del servizio Dataproc Metastore.
  • Endpoint. Un servizio Dataproc Metastore fornisce ai client accesso ai metadati del metastore Hive archiviati tramite uno o più endpoint di rete. Dataproc Metastore fornisce gli URI per questi endpoint.
  • Protocolli endpoint. Il protocollo di rete over-the-wire utilizzato per la comunicazione tra i client Dataproc Metastore e Hive Metastore. Dataproc Metastore supporta gli endpoint Apache Thrift e gRPC.
  • Metadata Federation. Una funzionalità che consente di accedere ai metadati memorizzati in più istanze Dataproc Metastore.
  • Versioni ausiliarie. Una funzionalità che ti consente di collegare più versioni del client Hive allo stesso servizio Dataproc Metastore.

Concetti di metastore Hive

L'utilizzo di un servizio Dataproc Metastore richiede la conoscenza dei concetti di base del metastore Hive. Per ulteriori informazioni, consulta Hive Metastore.

Requisiti di rete

Il servizio Dataproc Metastore richiede l'accesso alla rete per funzionare correttamente. Per ulteriori informazioni, consulta Configurare i requisiti di rete.

Configurazioni del progetto

Esistono diverse configurazioni possibili del progetto che puoi utilizzare per eseguire il deployment di un cluster Dataproc e di un servizio Dataproc Metastore. Per ulteriori informazioni, consulta la sezione Deployment tra progetti.

Passaggi successivi