Cambios importantes en la versión 2.3:
La versión
2.3
es una imagen liviana que solo contiene componentes principales, lo que reduce la exposición a vulnerabilidades y riesgos comunes (CVE). Para cumplir con requisitos de seguridad más estrictos, usa la versión de imagen2.3
o posterior cuando crees un clúster de Dataproc.Si eliges instalar componentes opcionales cuando crees un clúster de Dataproc con la imagen
2.3
, se descargarán y se instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar esta demora, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Esto se logra ejecutandogenerate_custom_image.py
con la marca--optional-components
.
Notas:
Los siguientes son los componentes opcionales en las imágenes 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook de JupyterLab
- Ranger
- Solr
- Notebook de Zeppelin
- Zookeeper
yarn.nodemanager.recovery.enabled
y el registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.micromamba, en lugar de conda en versiones de imágenes anteriores, se instala como parte de la instalación de Python.
Problemas de instalación de Docker y Zeppelin:
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
. - La instalación puede fallar si el clúster está fijado en una versión secundaria anterior de la imagen: Los paquetes se instalan a pedido desde repositorios de OSS públicos, y es posible que un paquete no esté disponible de forma upstream para admitir la instalación.
Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
.
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta