Cuando habilitas el almacenamiento en caché de clústeres de Dataproc, el clúster almacena en caché los datos de Cloud Storage a los que acceden con frecuencia tus trabajos de Spark.
Ventajas
- Rendimiento mejorado: el almacenamiento en caché puede mejorar el rendimiento de los trabajos al reducir el tiempo que se tarda en obtener datos del almacenamiento.
- Costes de almacenamiento reducidos: como los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API de almacenamiento para recuperar datos.
- Aplicabilidad de las tareas de Spark: cuando se habilita el almacenamiento en caché de clústeres en un clúster, se aplica a todas las tareas de Spark que se ejecutan en el clúster, tanto si se envían al servicio de Dataproc como si se ejecutan de forma independiente en el clúster.
Limitaciones y requisitos
- El almacenamiento en caché solo se aplica a las tareas de Spark de Dataproc.
- Solo se almacenan en caché los datos de Cloud Storage.
- El almacenamiento en caché solo se aplica a los clústeres que cumplan los siguientes requisitos:
- El clúster tiene un maestro y
n
trabajadores (no se admiten los clústeres de alta disponibilidad ni los de un solo nodo). - Esta función está disponible en las versiones de imagen
2.0.72+
,2.1.20+
y2.2.0+
de Dataproc en Compute Engine. - Cada nodo del clúster debe tener unidades SSD locales conectadas con la interfaz NVME (Non-Volatile Memory Express) (no se admiten discos persistentes). Los datos solo se almacenan en caché en unidades SSD locales NVMe.
- El clúster usa la cuenta de servicio de VM predeterminada para la autenticación. No se admiten cuentas de servicio de máquinas virtuales personalizadas.
- El clúster tiene un maestro y
Habilitar el almacenamiento en caché de clústeres
Puedes habilitar el almacenamiento en caché de clústeres al crear un clúster de Dataproc con la Google Cloud consola, la CLI de Google Cloud o la API de Dataproc.
Google Cloud consola
- Abre la página de Dataproc Crear un clúster en Compute Engine en la Google Cloud consola.
- El panel Configurar clúster está seleccionado. En la sección Mejoras del rendimiento de Spark, selecciona Habilitar el almacenamiento en caché de Google Cloud Storage.
- Después de confirmar y especificar los detalles del clúster en los paneles de creación de clústeres, haz clic en Crear.
CLI de gcloud
Ejecuta el comando gcloud dataproc clusters create
de forma local en una ventana de terminal o en
Cloud Shell
con la dataproc:dataproc.cluster.caching.enabled=true
propiedad del clúster.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Define SoftwareConfig.properties
para incluir la "dataproc:dataproc.cluster.caching.enabled": "true"
propiedad de clúster
como parte de una solicitud clusters.create.