Usa los siguientes conceptos para comprender cómo funciona Dataproc Metastore y las diferentes funciones que puedes usar con tu servicio.
Versiones de Dataproc Metastore
Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 usa un factor de ajuste para determinar cuántos recursos usa tu servicio en un momento determinado. Después de crear un servicio de Dataproc Metastore 2, puedes aumentar o disminuir su escala modificando el factor de ajuste.
Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore. Para obtener más información, consulta las funciones y los beneficios.
Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y las configuraciones de escalamiento.
Dataproc Metastore 1
Dataproc Metastore 1 usa niveles de servicio para determinar cuántos recursos usa tu servicio en un momento determinado. Los niveles de servicio proporcionan una cantidad predeterminada y predecible de recursos.
Cómo verificar tu versión de Dataproc Metastore
Puedes verificar qué versión de Dataproc Metastore estás usando en la consola deGoogle Cloud .
- Dataproc Metastore 2: La tabla de configuración contiene el siguiente valor: Edition Enterprise - Single Region.
- Dataproc Metastore 1: La tabla de configuración contiene uno de los siguientes valores: Tier: DEVELOPER o Tier: ENTERPRISE.
Términos comunes de Dataproc Metastore
Los siguientes términos se usan comúnmente en todo el ecosistema y la documentación de Dataproc Metastore.
Servicios
- Apache Hive Hive es un popular sistema de almacén de datos de código abierto desarrollado en Apache Hadoop. Hive ofrece un lenguaje de consulta similar a SQL llamado HiveQL, que se usa para analizar grandes conjuntos de datos estructurados.
- Almacén de metadatos de Apache Hive El almacén de metadatos de Hive conserva los metadatos de las tablas de Hive, como esquemas y ubicaciones.
- Dataproc. Dataproc es un servicio completamente administrado, rápido y fácil de usar en Google Cloud para ejecutar cargas de trabajo de Apache Spark y Apache Hadoop de manera simple y rentable. Después de crear un almacén de metadatos de Dataproc, puedes conectarte a él desde un clúster de Dataproc.
- Clúster de Dataproc. Después de crear un servicio de Dataproc Metastore, puedes conectarte a él desde un clúster de Dataproc. También puedes usar Dataproc Metastore con otros clústeres, como los clústeres autoadministrados de Apache Hive, Apache Spark o Presto.
- Servicio de Dataproc Metastore El nombre de la instancia del metastore que creas en Google Cloud. Puedes tener uno o varios servicios de metastore diferentes en tu implementación.
- Private Service Connect. Private Service Connect te permite configurar una conexión privada a los metadatos de Dataproc Metastore en redes de VPC. Puedes usarla para redes como alternativa al intercambio de tráfico entre VPCs.
- Controles del servicio de VPC. Los Controles del servicio de VPC mejoran tu capacidad de mitigar el riesgo de robo de datos de los servicios de Google Cloud , ya que te permiten crear perímetros que protegen los recursos y los datos de los servicios que especificas de forma explícita.
Conceptos
- Tablas Todas las aplicaciones de Hive tienen tablas internas administradas o externas no administradas que almacenan tus datos.
- Directorio de almacenes de Hive Es la ubicación predeterminada en la que se almacenan los datos de la tabla administrada.
- Bucket de artefactos. Es un bucket de Cloud Storage que se crea automáticamente en tu proyecto con cada servicio de metastore que creas. Este bucket se puede usar para almacenar los artefactos de tu servicio, como los metadatos exportados y los datos de la tabla administrada. De forma predeterminada, el bucket de artefactos almacena el directorio de almacén predeterminado de tu servicio de Dataproc Metastore.
- Endpoints Un servicio de Dataproc Metastore proporciona a los clientes acceso a los metadatos almacenados de Hive Metastore a través de uno o más extremos de red. Dataproc Metastore proporciona URIs para estos extremos.
- Protocolos de extremos Es el protocolo de red a través del cable que se usa para la comunicación entre Dataproc Metastore y los clientes de Hive Metastore. Dataproc Metastore admite extremos de Apache Thrift y gRPC.
- Federación de metadatos. Es una función que te permite acceder a los metadatos almacenados en varias instancias de Dataproc Metastore.
- Versiones auxiliares Es una función que te permite conectar varias versiones de clientes de Hive al mismo servicio de Dataproc Metastore.
Conceptos del almacén de metadatos de Hive
Para usar un servicio de Dataproc Metastore, debes comprender los conceptos básicos del almacén de metadatos de Hive. Para obtener más información, consulta Hive Metastore.
Requisitos de red
El servicio de Dataproc Metastore requiere acceso a la red para funcionar correctamente. Para obtener más información, consulta Cómo configurar los requisitos de red.
Configuración del proyecto
Existen varias configuraciones posibles del proyecto que puedes usar cuando implementas un clúster de Dataproc y un servicio de Dataproc Metastore. Para obtener más información, consulta la implementación entre proyectos.