Panoramica di Dataproc Metastore

Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che funziona su Google Cloud. Un HMS è lo standard stabilito nell'ecosistema big data open source per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.

Dataproc Metastore è ad alta disponibilità, con riparazione automatica e serverless. Utilizzalo per gestire i metadati del data lake e per garantire l'interoperabilità tra i vari motori di elaborazione dei dati e gli strumenti che utilizzi.

Come funziona Dataproc Metastore

Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per gestire la pianificazione e l'esecuzione delle query.

Questa integrazione ti consente di conservare le informazioni sulle tabelle tra i job o di rendere disponibili i metadati per altri cluster e altri motori di elaborazione.

Ad esempio, l'implementazione di un metastore potrebbe aiutarti a designare un sottoinsieme di file contenenti dati sulle entrate, anziché monitorare manualmente i nomi file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché puoi collegarlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.

Versioni di Dataproc Metastore

Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.

  • Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per ulteriori informazioni, consulta la sezione Funzionalità e vantaggi.

  • Dataproc Metastore 2 ha un piano tariffario diverso rispetto a Dataproc Metastore. Per ulteriori informazioni, consulta i piani tariffari e le configurazioni di scalabilità.

Casi d'uso comuni

Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente specificato.

  • Assegna un significato ai dati. Crea un repository di metadati centralizzato che viene condiviso tra molti cluster Dataproc effimeri. Utilizza diversi motori di software open source (OSS), come Apache Hive, Apache Spark e Presto.

  • Crea una visualizzazione unificata dei tuoi dati. Fornisci l'interoperabilità tra i serviziGoogle Cloud , come Dataproc, Dataplex Universal Catalog e BigQuery, oppure utilizza altre offerte dei partner basate su open source suGoogle Cloud.

Funzionalità e vantaggi

Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, salvo diversa indicazione.

  • Compatibilità con software open source. Collegarti ai tuoi motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto.

  • Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e gestione completamente configurate.

  • Integrazione. Integrazione con altri Google Cloud prodotti, ad esempio l'utilizzo di BigQuery come origine dei metadati per un cluster Dataproc.

  • Sicurezza integrata. Utilizza Google Cloud protocolli di sicurezza stabiliti, come Identity and Access Management (IAM) e l'autenticazione Kerberos.

  • Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno in un servizio Dataproc Metastore.

  • Backup automatici. Configura i backup automatici del metastore per contribuire a evitare la perdita di dati.

  • Monitoraggio del rendimento. Imposta i livelli di prestazioni in modo che rispondano in modo dinamico a picchi e carichi di lavoro molto intensi, senza preriscaldamento o memorizzazione nella cache.

  • Disponibilità elevata (HA).

    • Dataproc Metastore 2. Offre alta disponibilità (HA) di zona senza richiedere alcuna configurazione o gestione continua specifica. Questo viene ottenuto replicando automaticamente i database di backend e i server HMS in più zone della regione scelta. Oltre all'HA zonale, Dataproc Metastore 2 supporta l'HA regionale e la gestione del rischio di catastrofe (RE).
    • Dataproc Metastore 1. Per impostazione predefinita, offre alta disponibilità (HA) di zona senza richiedere alcuna configurazione o gestione continua specifica. Ciò viene ottenuto replicando automaticamente i database di backend e i server HMS in più zone della regione scelta.

    Per saperne di più sulle considerazioni specifiche per le regioni, consulta Geografia e regioni.

  • Scalabilità.

    • Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse deve utilizzare il tuo servizio in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato su scalabilità automatica se necessario.
    • Dataproc Metastore 1. Quando configuri il servizio, scegli tra un livello sviluppatore o un livello enterprise. Questo livello determina il numero di risorse di cui il tuo servizio deve usufruire in un determinato momento.
  • Assistenza. Usufruisci degli Google Cloud SLA e dei canali di assistenza standard.

Integrazioni con Google Cloud

Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, salvo diversa indicazione.

  • Dataproc. Connettiti a un cluster Dataproc per poter pubblicare i metadati per i carichi di lavoro big data OSS.
  • BigQuery. Esegui query sui set di dati BigQuery nei carichi di lavoro Dataproc.
  • Dataplex Universal Catalog. Esegui query sui dati strutturati e semistrutturati rilevati in un data lake di Dataplex Universal Catalog.
  • Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per abilitare la ricerca e il rilevamento dei metadati.
  • Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Logging.
  • Autenticazione e IAM. Utilizza l'autenticazione OAuth standard utilizzata da altri Google Cloud prodotti, che supporta l'utilizzo di ruoli granulari di Identity and Access Management per attivare controllo dell'accesso per le singole risorse.

Passaggi successivi