Crea y protege un clúster de almacén de metadatos de Hive

Descripción general

Cuando creas un clúster de Dataproc, la aplicación Apache Hive y su de la infraestructura, incluido el almacén de metadatos de Hive, se instalan en el clúster. se establece una contraseña predeterminada en el archivo hive-site.xml ubicado en nodo instancia principal del clúster.

Se recomienda especificar la contraseña del almacén de metadatos de Hive los siguientes objetivos:

  • Como medida de seguridad de práctica recomendada para garantizar que controlas el acceso al almacén de metadatos de Hive local proporcionando tu propia contraseña

  • Para especificar una contraseña conocida que controle el acceso a Los almacenes de metadatos de Hive utilizados con bases de datos externas que se comparten entre diferentes clústeres

Configura la contraseña del almacén de metadatos de Hive

Ejecuta el siguiente comando: Creación de clústeres de Dataproc de Google Cloud CLI para crear un clúster de Dataproc y especificar un contraseña del almacén de metadatos.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Notas:

  • Consulta Crea una clave para crearla en Cloud Key Management Service.
  • La contraseña del almacén de metadatos de Hive solo se almacena en los nodos de instancia principal del clúster, no en nodos trabajadores.

Para obtener información adicional sobre la protección de los clústeres de Dataproc, consulta Prácticas recomendadas de seguridad de Dataproc.

Situaciones no admitidas

Dataproc no admite las siguientes situaciones de almacén de metadatos de Hive. sin importar si usas la contraseña de almacén de metadatos de Hive predeterminada o proporcionada por el usuario:

  • Usas un cliente de almacén de metadatos incorporado en el controlador de Spark que se ejecuta en modo de clúster. para que los nodos trabajadores requieran contraseñas de Hive. Esta situación puede causar de conectividad con la base de datos del almacén de metadatos no se realiza a través del proceso HiveMetaStore que se ejecuta en el Nodo principal de Dataproc.

  • Desactiva el almacén de metadatos de Hive y hive-server2 para usar tu propia base de datos de MySQL. En este caso, el spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore no tiene efecto.