Conceptos básicos de Dataproc Metastore

Consulta los siguientes conceptos para entender cómo funciona Dataproc Metastore y las diferentes funciones que puedes usar con tu servicio.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes elegir entre un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 usa un factor de escalado para determinar cuántos recursos usa tu servicio en un momento dado. Después de crear un Dataproc Metastore 2, puedes aumentar o reducir la escala del servicio modificando el factor de escala.

  • Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore. Para obtener más información, consulta las funciones y ventajas.

  • Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y las configuraciones de escalado.

Dataproc Metastore 1

Dataproc Metastore 1 usa niveles de servicio para determinar cuántos recursos utiliza tu servicio en un momento dado. Los niveles de servicio proporcionan una cantidad de recursos predeterminada y predecible.

Comprobar la versión de Dataproc Metastore

Puedes consultar la versión de Dataproc Metastore que estás usando en laGoogle Cloud consola.

  • Dataproc Metastore 2: la tabla de configuración contiene el siguiente valor: Edition Enterprise - Single Region (Edición Enterprise - Una sola región).
  • Dataproc Metastore 1: la tabla de configuración contiene uno de los siguientes valores: Tier: DEVELOPER o Tier: ENTERPRISE.

Términos comunes de Dataproc Metastore

Los siguientes términos se usan con frecuencia en todo el ecosistema y la documentación de Dataproc Metastore.

Servicios

  • Apache Hive. Hive es un sistema de almacén de datos de código abierto popular creado en Apache Hadoop. Hive ofrece un lenguaje de consulta similar a SQL llamado HiveQL, que se usa para analizar conjuntos de datos grandes y estructurados.
  • Metastore de Apache Hive. El metastore de Hive contiene metadatos sobre las tablas de Hive, como su esquema y su ubicación.
  • Dataproc. Dataproc es un servicio rápido, fácil de usar y totalmente gestionado en Google Cloud para ejecutar cargas de trabajo de Apache Spark y Apache Hadoop de una forma sencilla y rentable. Una vez que hayas creado un Dataproc Metastore, podrás conectarte a él desde un clúster de Dataproc.
  • Clúster de Dataproc. Una vez que hayas creado un servicio de Dataproc Metastore, podrás conectarte a él desde un clúster de Dataproc. También puedes usar Dataproc Metastore con otros clústeres, como clústeres autogestionados de Apache Hive, Apache Spark o Presto.
  • Servicio Dataproc Metastore. El nombre de la instancia de metastore que creas en Google Cloud. Puedes tener uno o varios servicios de metastore diferentes en tu implementación.
  • Private Service Connect. Private Service Connect te permite configurar una conexión privada a los metadatos de Dataproc Metastore en redes VPC. Puedes usarla para crear redes como alternativa al peering de VPC.
  • Controles de Servicio de VPC. Controles de Servicio de VPC te permite mitigar el riesgo de filtración externa de datos de los Google Cloud servicios, ya que puedes crear perímetros que protejan los recursos y los datos de los servicios que especifiques explícitamente.

Conceptos

  • Tablas. Todas las aplicaciones de Hive tienen tablas internas gestionadas o externas no gestionadas que almacenan tus datos.
  • Directorio de almacenes de Hive. Ubicación predeterminada en la que se almacenan los datos de la tabla gestionada.
  • Contenedor de artefactos. Un segmento de Cloud Storage que se crea automáticamente en tu proyecto con cada servicio de metastore que crees. Este contenedor se puede usar para almacenar los artefactos de tu servicio, como los metadatos exportados y los datos de las tablas gestionadas. De forma predeterminada, el segmento de artefactos almacena el directorio del almacén predeterminado de tu servicio Dataproc Metastore.
  • Endpoints. Un servicio de Dataproc Metastore proporciona a los clientes acceso a los metadatos de Hive Metastore almacenados a través de uno o varios endpoints de red. Dataproc Metastore proporciona URIs para estos endpoints.
  • Protocolos de endpoint. Protocolo de red a través de cable que se usa para la comunicación entre Dataproc Metastore y los clientes de Hive Metastore. Dataproc Metastore admite los endpoints de Apache Thrift y gRPC.
  • Federación de metadatos. Función que te permite acceder a los metadatos almacenados en varias instancias de Dataproc Metastore.
  • Versiones auxiliares. Función que te permite conectar varias versiones de cliente de Hive al mismo servicio de Dataproc Metastore.

Conceptos de metastore de Hive

Para usar un servicio Dataproc Metastore, debes conocer los conceptos básicos de Hive Metastore. Para obtener más información, consulta Hive Metastore.

Requisitos de red

El servicio Dataproc Metastore requiere acceso a la red para funcionar correctamente. Para obtener más información, consulta Configurar los requisitos de red.

Configuraciones del proyecto

Hay varias configuraciones de proyecto que puedes usar al implementar un clúster de Dataproc y un servicio Dataproc Metastore. Para obtener más información, consulta el artículo sobre la implementación entre proyectos.

Siguientes pasos