Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) totalmente gestionado que se ejecuta en Google Cloud. Un HMS es el estándar establecido en el ecosistema de big data de código abierto para gestionar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.
Dataproc Metastore tiene alta disponibilidad, se autorrepara y no tiene servidor. Úsalo para gestionar los metadatos del data lake y proporcionar interoperabilidad entre los distintos motores y herramientas de procesamiento de datos que utilices.
Cómo funciona Dataproc Metastore
Puedes usar un servicio de Dataproc Metastore conectándolo a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que dependen de un HMS para llevar a cabo la planificación y la ejecución de consultas.
Esta integración te permite conservar la información de las tablas entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.
Por ejemplo, implementar un metastore puede ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de los archivos. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Después, puedes conectarla a un clúster de Dataproc y consultar la tabla para obtener información mediante Hive, Spark SQL u otros servicios de consulta.
Versiones de Dataproc Metastore
Cuando creas un servicio de Dataproc Metastore, puedes elegir entre un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.
Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore 1. Para obtener más información, consulta las funciones y ventajas.
Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y las configuraciones de escalado.
Casos prácticos habituales
Todos los casos prácticos que se indican en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.
Asigna un significado a tus datos. Crea un repositorio de metadatos centralizado que se comparta entre muchos clústeres de Dataproc efímeros. Usa diferentes motores de software libre, como Apache Hive, Apache Spark y Presto.
Crea una vista unificada de tus datos. Ofrece interoperabilidad entre Google Cloud servicios, como Dataproc, Dataplex Universal Catalog y BigQuery, o usa otras ofertas de partners basadas en código abierto en Google Cloud.
Características y ventajas
Todas las funciones que se indican en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.
Compatibilidad con software de código abierto. Conéctate a tus motores de procesamiento de datos, como Apache Hive, Apache Spark y Presto.
Gestión. Crea o actualiza un metastore en cuestión de minutos, con tareas de monitorización y operación totalmente configuradas.
Integración. Integrarse con otros productos, como usar BigQuery como fuente de metadatos de un clúster de Dataproc. Google Cloud
Seguridad integrada. Usa Google Cloud protocolos de seguridad Google Cloud establecidos, como la gestión de identidades y accesos (IAM) y la autenticación Kerberos.
Importación sencilla. Importar metadatos almacenados en un metastore de Hive externo a un servicio de Dataproc Metastore.
Copias de seguridad automáticas. Configura copias de seguridad automáticas del metastore para evitar la pérdida de datos.
Monitorización del rendimiento. Define niveles de rendimiento para responder dinámicamente a cargas de trabajo y picos de uso muy intensivos sin necesidad de precalentamiento ni almacenamiento en caché.
Alta disponibilidad (HA).
- Dataproc Metastore 2. Proporciona alta disponibilidad zonal sin necesidad de ninguna configuración específica ni gestión continua. Para ello, se replican automáticamente las bases de datos backend y los servidores HMS en varias zonas de la región que elijas. Además de la alta disponibilidad zonal, Dataproc Metastore 2 admite la alta disponibilidad regional y la recuperación tras desastres.
- Dataproc Metastore 1. De forma predeterminada, ofrece alta disponibilidad zonal sin necesidad de realizar ninguna configuración específica ni gestión continua. Para ello, se replican automáticamente las bases de datos backend y los servidores HMS en varias zonas de la región que elijas.
Para obtener más información sobre las consideraciones específicas de cada región, consulta el artículo sobre geografía y regiones.
Escalabilidad.
- Dataproc Metastore 2. Usa un factor de escalado horizontal para determinar cuántos recursos necesita tu servicio en un momento dado. El factor de escalado se puede controlar manualmente o configurar para que se ajuste automáticamente cuando sea necesario.
- Dataproc Metastore 1. Cuando configures tu servicio, elige entre el nivel de desarrollador o el nivel Enterprise. Este nivel determina cuántos recursos necesita usar tu servicio en un momento dado.
Asistencia. Disfruta de los Google Cloud SLAs y los canales de asistencia estándar.
Integraciones con Google Cloud
Dataproc Metastore 1 y Dataproc Metastore 2 admiten todas las integraciones que se indican en esta sección, a menos que se indique lo contrario.
- Dataproc. Conéctate a un clúster de Dataproc para poder servir metadatos de cargas de trabajo de Big Data de software libre.
- BigQuery. Consulta conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc.
- Dataplex Universal Catalog Consulta datos estructurados y semiestructurados descubiertos en un lago de Dataplex Universal Catalog.
- Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
- Logging y Monitoring. Integra Dataproc Metastore con los productos Cloud Monitoring y Cloud Logging.
- Autenticación y gestión de identidades y accesos Utiliza la autenticación OAuth estándar que usan otros productos deGoogle Cloud , que admite el uso de roles de gestión de identidades y accesos granulares para habilitar el control de acceso a recursos concretos.
Pasos siguientes
- Consulta la guía de inicio rápido Desplegar un servicio Dataproc Metastore.
- Consulta los precios de Dataproc Metastore.
- Consulta las cuotas y los límites de Dataproc Metastore.
- Lee las notas de la versión de Dataproc Metastore.
- Accede a Dataproc Metastore mediante la Google Cloud consola, la CLI de Google Cloud o la API Dataproc Metastore.