Cuando habilitas el almacenamiento en caché del clúster de Dataproc, el clúster almacena en caché los datos de Cloud Storage a los que acceden con frecuencia tus trabajos de Spark.
Beneficios
- Rendimiento mejorado: El almacenamiento en caché puede mejorar el rendimiento de las tareas, ya que reduce la cantidad de tiempo que se dedica a recuperar datos del almacenamiento.
- Costos de almacenamiento reducidos: Dado que los datos activos se almacenan en caché en el disco local, se realizan menos llamadas a la API al almacenamiento para recuperar datos.
Limitaciones y requisitos
- El almacenamiento en caché solo se aplica a los trabajos de Spark de Dataproc.
- Solo se almacenan en caché los datos de Cloud Storage.
- La caché solo se aplica a los clústeres que cumplen con los siguientes requisitos:
- El clúster tiene un nodo principal y
n
trabajadores (no se admiten los clústeres de alta disponibilidad (HA) ni de un solo nodo). - Esta función está disponible en Dataproc en las versiones de imagen
2.0.72+ or 2.1.20+
de Compute Engine. - Cada nodo del clúster debe tener SSD locales conectados con la interfaz NVMe (memoria no volátil exprés) (no se admiten discos persistentes [PDs]). Los datos solo se almacenan en caché en SSDs locales NVME.
- El clúster usa la cuenta de servicio predeterminada de la VM para la autenticación. No se admiten las cuentas de servicio de VM personalizadas.
- El clúster tiene un nodo principal y
Habilita el almacenamiento en caché del clúster
Puedes habilitar el almacenamiento en caché del clúster cuando creas un clúster de Dataproc con la consola de Google Cloud, Google Cloud CLI o la API de Dataproc.
Consola de Google Cloud
- Abre la página de Dataproc Crea un clúster en Compute Engine en la consola de Google Cloud.
- Se selecciona el panel Configura clúster. En la sección Spark performance enhancements, selecciona Enable Google Cloud Storage caching.
- Después de confirmar y especificar los detalles del clúster en los paneles de creación de clústeres, haz clic en Crear.
gcloud CLI
Ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell con la propiedad de clúster dataproc:dataproc.cluster.caching.enabled=true
.
Ejemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API de REST
Establece SoftwareConfig.properties para incluir la propiedad del clúster "dataproc:dataproc.cluster.caching.enabled": "true"
como parte de una solicitud clusters.create.