Descripción general
Cuando creas un clúster de Dataproc, la aplicación de Apache Hive y sus componentes, incluido Hive metastore, se instalan en el clúster, y se establece una contraseña predeterminada en el archivo hive-site.xml
ubicado en el nodo instancia principal del clúster.
Se recomienda especificar tu propia contraseña del almacén de metadatos de Hive para lograr los siguientes objetivos:
Como medida de seguridad recomendada para garantizar que controlas el acceso al almacén de metadatos de Hive local proporcionando tu propia contraseña
Especificar una contraseña conocida que controle el acceso a metastores externos de Hive que se usan con bases de datos externas que se comparten entre diferentes clústeres
Cómo establecer la contraseña del almacén de metadatos de Hive
Ejecuta el siguiente comando de Google Cloud CLI Dataproc clusters create para crear un clúster de Dataproc y especificar una contraseña del metastore de Hive.
gcloud dataproc clusters create cluster-name --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"
Notas:
- Consulta Crea una clave para crear una clave en Cloud Key Management Service.
- La contraseña del almacén de metadatos de Hive solo se almacena en los nodos instancia principal del clúster, no en los nodos trabajadores.
Para obtener más información sobre cómo proteger los clústeres de Dataproc, consulta las prácticas recomendadas de seguridad de Dataproc.
Situaciones no admitidas
Dataproc no admite las siguientes situaciones de Hive Metastore, independientemente de si usas la contraseña predeterminada o una contraseña de Hive Metastore proporcionada por el usuario:
Usas un cliente de metastore integrado en el controlador de Spark que se ejecuta en modo de clúster, por lo que los nodos trabajadores requieren contraseñas de Hive. Esta situación puede causar problemas de conectividad con la base de datos del almacén de metadatos, ya que la conexión no se realiza a través del proceso
HiveMetaStore
que se ejecuta en el nodo principal de Dataproc.Desactivas el almacén de metadatos de Hive y
hive-server2
para usar tu propia base de datos de MySQL. En este caso, la propiedadspark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore
no tiene efecto.