Panoramica di Dataproc Metastore

Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che viene eseguito su Google Cloud. Un (HMS) è lo standard consolidato nell'ecosistema open source di big data per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.

Dataproc Metastore è ad alta disponibilità, autoriparazione e serverless. Utilizzalo per gestire i metadati del data lake e fornire interoperabilità tra i vari motori e strumenti di elaborazione dei dati che utilizzi.

Come funziona Dataproc Metastore

Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.

Questa integrazione ti consente di conservare le informazioni delle tabelle tra i job o di rendere i metadati disponibili per altri cluster e altri motori di elaborazione.

Ad esempio, l'implementazione di un metastore può aiutarti a indicare che un sottoinsieme dei tuoi file contiene dati sulle entrate, anziché tenere traccia manualmente dei nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché, puoi connetterlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per saperne di più, consulta funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per ulteriori informazioni, consulta piani tariffari e configurazioni di scalabilità.

Casi d'uso comuni

Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.

  • Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Dataproc temporanei. Utilizza diversi motori software open source (OSS), come Apache Hive , Apache Spark e Presto.

  • Crea una visualizzazione unificata dei dati. Fornisci l'interoperabilità tra serviziGoogle Cloud , come Dataproc, Catalogo universale Dataplex e BigQuery, oppure utilizza altre offerte di partner basate su open source su Google Cloud.

Funzionalità e vantaggi

Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.

  • Compatibilità con software open source. Connettiti ai tuoi motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto.

  • Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e operazioni completamente configurate.

  • Integrazione. Integrati con altri prodotti Google Cloud , ad esempio utilizzando BigQuery come origine dei metadati per un cluster Dataproc.

  • Sicurezza integrata. Utilizza protocolli di sicurezza Google Cloud consolidati, come Identity and Access Management (IAM) e l'autenticazione Kerberos.

  • Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno in un servizio Dataproc Metastore.

  • Backup automatici. Configura i backup automatici del metastore per evitare la perdita di dati.

  • Monitoraggio del rendimento. Imposta i livelli di prestazioni per rispondere dinamicamente a carichi di lavoro e picchi molto intensi, senza preriscaldamento o memorizzazione nella cache.

  • Alta disponibilità (HA).

    • Dataproc Metastore 2. Fornisce alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli. Oltre all'alta affidabilità zonale, Dataproc Metastore 2 supporta l'alta affidabilità regionale e il disaster recovery (RE).
    • Dataproc Metastore 1. Per impostazione predefinita, fornisce alta disponibilità (HA) zonale senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli.

    Per saperne di più sulle considerazioni specifiche per le regioni, consulta Area geografica e regioni.

  • Scalabilità.

    • Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse deve utilizzare il tuo servizio in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato sulla scalabilità automatica in base alle esigenze.
    • Dataproc Metastore 1. Scegli tra un livello per sviluppatori o un livello Enterprise quando configuri il servizio. Questo livello determina il numero di risorse che il tuo servizio deve utilizzare in un determinato momento.
  • Assistenza. Usufruisci di SLA e canali di assistenza Google Cloud standard.

Integrazioni con Google Cloud

Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, se non diversamente indicato.

  • Dataproc. Connettiti a un cluster Dataproc per poter pubblicare i metadati per i carichi di lavoro di big data OSS.
  • BigQuery. Esegui query sui set di dati BigQuery nei tuoi carichi di lavoro Dataproc.
  • Dataplex Universal Catalog. Esegui query sui dati strutturati e semi-strutturati rilevati in un lake Dataplex Universal Catalog.
  • Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per attivare la ricerca e l'individuazione dei metadati.
  • Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Cloud Logging.
  • Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri prodottiGoogle Cloud , che supporta l'utilizzo di ruoli Identity and Access Management granulari per attivare controllo dell'accesso dell'accesso per le singole risorse.

Passaggi successivi