Cuando habilitas el almacenamiento en caché del clúster de Dataproc, este proceso Datos de Cloud Storage a los que acceden tus trabajos de Spark con frecuencia.
Beneficios
- Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento del trabajo reduciendo la cantidad. de tiempo dedicado a recuperar datos del almacenamiento.
- Reducción de costos de almacenamiento: Debido a que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.
Limitaciones y requisitos
- El almacenamiento en caché se aplica solo a los trabajos de Spark de Dataproc.
- Solo se almacenan en caché los datos de Cloud Storage.
- El almacenamiento en caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:
- El clúster tiene una instancia principal y
n
trabajadores No se admiten los clústeres de alta disponibilidad (HA) ni de nodo único. - Esta función está disponible en Dataproc en Compute Engine.
versiones de imágenes
2.0.72+ or 2.1.20+
- Cada nodo del clúster debe tener SSD locales que se adjunta con el NVME (Memoria exprés no volátil) (discos persistentes [PD] no son compatibles). Los datos se almacenan en caché en NVME solo en SSD locales.
- El clúster usa el cuenta de servicio de VM predeterminada para la autenticación. Cuentas de servicio de VM personalizadas no son compatibles.
- El clúster tiene una instancia principal y
Habilitar el almacenamiento en caché del clúster
Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc.
Consola de Google Cloud
- Abre el panel de Dataproc. Crea un clúster en Compute Engine en la consola de Google Cloud.
- Se selecciona el panel Configurar clúster. En la Mejoras en el rendimiento de Spark, selecciona Habilita el almacenamiento en caché de Google Cloud Storage.
- Después de confirmar y especificar los detalles del clúster, crea los paneles. Haz clic en Crear.
gcloud CLI
Ejecuta el comando gcloud dataproc clusters create
de forma local en una ventana de terminal o en
Cloud Shell
usando el dataproc:dataproc.cluster.caching.enabled=true
propiedad del clúster.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API de REST
Configura SoftwareConfig.properties.
para incluir el "dataproc:dataproc.cluster.caching.enabled": "true"
propiedad del clúster
como parte de una
clusters.create
para cada solicitud.