Utilizza i seguenti concetti per capire come funziona Dataproc Metastore e le diverse funzionalità che puoi utilizzare con il tuo servizio.
Versioni di Dataproc Metastore
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 utilizza un fattore di scalabilità per determinare la quantità di risorse utilizzate dal servizio in un determinato momento. Dopo aver creato un servizio Dataproc Metastore 2, puoi aumentarlo o ridurlo modificando il fattore di scalabilità.
Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore. Per saperne di più, consulta funzionalità e vantaggi.
Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per ulteriori informazioni, consulta piani tariffari e configurazioni di scalabilità.
Dataproc Metastore 1
Dataproc Metastore 1 utilizza i livelli di servizio per determinare il numero di risorse utilizzate dal servizio in un determinato momento. I livelli di servizio forniscono una quantità prevedibile e predeterminata di risorse.
Controllare la versione di Dataproc Metastore
Puoi controllare la versione di Dataproc Metastore che utilizzi nella consoleGoogle Cloud .
- Dataproc Metastore 2: la tabella di configurazione contiene il seguente valore: Edition Enterprise - Single Region.
- Dataproc Metastore 1: la tabella di configurazione contiene uno dei seguenti valori: Tier: DEVELOPER o Tier: ENTERPRISE.
Termini comuni di Dataproc Metastore
I seguenti termini vengono utilizzati comunemente nell'ecosistema e nella documentazione di Dataproc Metastore.
Servizi
- Apache Hive. Hive è un popolare sistema di data warehouse open source basato su Apache Hadoop. Hive offre un linguaggio di query simile a SQL chiamato HiveQL, che viene utilizzato per analizzare set di dati strutturati di grandi dimensioni.
- Metastore Apache Hive. Il metastore Hive contiene metadati sulle tabelle Hive, come lo schema e la posizione.
- Dataproc. Dataproc è un servizio completamente gestito, veloce e facile da utilizzare su Google Cloud per l'esecuzione di carichi di lavoro Apache Spark e Apache Hadoop in modo semplice ed economico. Dopo aver creato un Dataproc Metastore, puoi connetterti da un cluster Dataproc.
- Cluster Dataproc. Dopo aver creato un servizio Dataproc Metastore, puoi connetterti a un cluster Dataproc. Puoi anche utilizzare Dataproc Metastore con vari altri cluster, come cluster Apache Hive, Apache Spark o Presto autogestiti.
- Servizio Dataproc Metastore. Il nome dell'istanza del metastore che crei in Google Cloud. Puoi avere uno o più servizi metastore diversi nella tua implementazione.
- Private Service Connect. Private Service Connect consente di configurare una connessione privata ai metadati di Dataproc Metastore nelle reti VPC. Puoi utilizzarlo per il networking in alternativa al peering VPC.
- Controlli di servizio VPC. I Controlli di servizio VPC migliorano la tua capacità di mitigare il rischio di esfiltrazione di dati dai servizi Google Cloud consentendoti di creare perimetri che proteggono le risorse e i dati dei servizi che specifichi in modo esplicito.
Concetti
- Tabelle. Tutte le applicazioni Hive hanno tabelle interne gestite o esterne non gestite che archiviano i tuoi dati.
- Directory del warehouse Hive. La posizione predefinita in cui vengono archiviati i dati delle tabelle gestite.
- Bucket degli artefatti. Un bucket Cloud Storage creato automaticamente nel tuo progetto con ogni servizio metastore che crei. Questo bucket può essere utilizzato per archiviare gli artefatti del servizio, come i metadati esportati e i dati delle tabelle gestite. Per impostazione predefinita, il bucket degli artefatti archivia la directory del warehouse predefinita del servizio Dataproc Metastore.
- Endpoint. Un servizio Dataproc Metastore fornisce ai client l'accesso ai metadati di Hive Metastore archiviati tramite uno o più endpoint di rete. Dataproc Metastore fornisce URI per questi endpoint.
- Protocolli endpoint. Il protocollo di rete over-the-wire utilizzato per la comunicazione tra Dataproc Metastore e i client Hive Metastore. Dataproc Metastore supporta gli endpoint Apache Thrift e gRPC.
- Federazione dei metadati. Una funzionalità che consente di accedere ai metadati archiviati in più istanze Dataproc Metastore.
- Versioni ausiliarie. Una funzionalità che consente di connettere più versioni del client Hive allo stesso servizio Dataproc Metastore.
Concetti di metastore Hive
L'utilizzo di un servizio Dataproc Metastore richiede la comprensione dei concetti di base del metastore Hive. Per maggiori informazioni, consulta Hive Metastore.
Requisiti di rete
Il servizio Dataproc Metastore richiede l'accesso alla rete per funzionare correttamente. Per saperne di più, consulta Configurare i requisiti di rete.
Configurazioni del progetto
Esistono diverse configurazioni di progetto possibili che puoi utilizzare quando esegui il deployment di un cluster Dataproc e di un servizio Dataproc Metastore. Per saperne di più, consulta la sezione Deployment tra progetti.