Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che viene eseguito su Google Cloud. Un (HMS) è lo standard consolidato nell'ecosistema open source di big data per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.
Dataproc Metastore è ad alta disponibilità, autoriparazione e serverless. Utilizzalo per gestire i metadati del data lake e fornire interoperabilità tra i vari motori e strumenti di elaborazione dei dati che utilizzi.
Come funziona Dataproc Metastore
Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.
Questa integrazione ti consente di conservare le informazioni delle tabelle tra i job o di rendere i metadati disponibili per altri cluster e altri motori di elaborazione.
Ad esempio, l'implementazione di un metastore può aiutarti a indicare che un sottoinsieme dei tuoi file contiene dati sulle entrate, anziché tenere traccia manualmente dei nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché, puoi connetterlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.
Versioni di Dataproc Metastore
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.
Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per saperne di più, consulta funzionalità e vantaggi.
Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per ulteriori informazioni, consulta piani tariffari e configurazioni di scalabilità.
Casi d'uso comuni
Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.
Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Dataproc temporanei. Utilizza diversi motori software open source (OSS), come Apache Hive , Apache Spark e Presto.
Crea una visualizzazione unificata dei dati. Fornisci l'interoperabilità tra serviziGoogle Cloud , come Dataproc, Catalogo universale Dataplex e BigQuery, oppure utilizza altre offerte di partner basate su open source su Google Cloud.
Funzionalità e vantaggi
Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.
Compatibilità con software open source. Connettiti ai tuoi motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto.
Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e operazioni completamente configurate.
Integrazione. Integrati con altri prodotti Google Cloud , ad esempio utilizzando BigQuery come origine dei metadati per un cluster Dataproc.
Sicurezza integrata. Utilizza protocolli di sicurezza Google Cloud consolidati, come Identity and Access Management (IAM) e l'autenticazione Kerberos.
Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno in un servizio Dataproc Metastore.
Backup automatici. Configura i backup automatici del metastore per evitare la perdita di dati.
Monitoraggio del rendimento. Imposta i livelli di prestazioni per rispondere dinamicamente a carichi di lavoro e picchi molto intensi, senza preriscaldamento o memorizzazione nella cache.
Alta disponibilità (HA).
- Dataproc Metastore 2. Fornisce alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli. Oltre all'alta affidabilità zonale, Dataproc Metastore 2 supporta l'alta affidabilità regionale e il disaster recovery (RE).
- Dataproc Metastore 1. Per impostazione predefinita, fornisce alta disponibilità (HA) zonale senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli.
Per saperne di più sulle considerazioni specifiche per le regioni, consulta Area geografica e regioni.
Scalabilità.
- Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse deve utilizzare il tuo servizio in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato sulla scalabilità automatica in base alle esigenze.
- Dataproc Metastore 1. Scegli tra un livello per sviluppatori o un livello Enterprise quando configuri il servizio. Questo livello determina il numero di risorse che il tuo servizio deve utilizzare in un determinato momento.
Assistenza. Usufruisci di SLA e canali di assistenza Google Cloud standard.
Integrazioni con Google Cloud
Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, se non diversamente indicato.
- Dataproc. Connettiti a un cluster Dataproc per poter pubblicare i metadati per i carichi di lavoro di big data OSS.
- BigQuery. Esegui query sui set di dati BigQuery nei tuoi carichi di lavoro Dataproc.
- Dataplex Universal Catalog. Esegui query sui dati strutturati e semi-strutturati rilevati in un lake Dataplex Universal Catalog.
- Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per attivare la ricerca e l'individuazione dei metadati.
- Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Cloud Logging.
- Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri prodottiGoogle Cloud , che supporta l'utilizzo di ruoli Identity and Access Management granulari per attivare controllo dell'accesso dell'accesso per le singole risorse.
Passaggi successivi
- Inizia con la guida rapida Deployment di un servizio Dataproc Metastore.
- Comprendi i prezzi di Dataproc Metastore.
- Scopri le quote e i limiti per Dataproc Metastore.
- Leggi le note di rilascio di Dataproc Metastore.
- Accedi a Dataproc Metastore utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc Metastore.