Esta página se ha traducido con Cloud Translation API.

Almacenamiento en caché de archivos en Cloud Storage FUSE

En este documento se ofrece una descripción general del almacenamiento en caché de archivos de Cloud Storage FUSE y se explica cómo configurar y usar el almacenamiento en caché de archivos.

El almacenamiento en caché de archivos de Cloud Storage FUSE es una caché de lectura del lado del cliente que mejora el rendimiento de las operaciones de lectura al servir lecturas de archivos repetidas desde un almacenamiento en caché más rápido de tu elección. Cuando el almacenamiento en caché de archivos está habilitado, Cloud Storage FUSE almacena copias de los archivos a los que se accede con frecuencia de forma local, lo que permite que las lecturas posteriores se sirvan directamente desde la caché, lo que reduce la latencia y mejora el rendimiento.

Ventajas del almacenamiento en caché de archivos

El almacenamiento en caché de archivos ofrece las siguientes ventajas:

Rendimiento mejorado para E/S pequeñas y aleatorias: el almacenamiento en caché de archivos mejora la latencia y el rendimiento al servir lecturas directamente desde el medio de la caché. Las operaciones de E/S pequeñas y aleatorias pueden ser significativamente más rápidas cuando se sirven desde la caché.
Descargas paralelas habilitadas automáticamente: las descargas paralelas se habilitan automáticamente en las versiones 2.12 y posteriores de Cloud Storage FUSE cuando la caché de archivos está habilitada. Las descargas paralelas utilizan varios procesos para descargar un archivo en paralelo usando el directorio de caché de archivos como búfer de prefetched, lo que puede dar lugar a que el tiempo de carga del modelo sea hasta nueve veces más rápido. Te recomendamos que uses descargas paralelas en situaciones de lectura de un solo subproceso que carguen archivos grandes, como el servicio de modelos y la restauración de puntos de control.
Uso de la capacidad disponible: el almacenamiento en caché de archivos puede usar la capacidad de la máquina aprovisionada para tu directorio de caché sin incurrir en cargos por almacenamiento adicional. Esto incluye los SSD locales que se incluyen con los tipos de máquina de GPUs de Cloud, como a2-ultragpu y a3-highgpu, el disco persistente (que es el disco de arranque que usa cada VM) o la memoria /tmpfs.
Reducción de los cargos: los aciertos de caché se sirven de forma local y no generan cargos de operación ni de red de Cloud Storage.
Mejora del coste total de propiedad para el entrenamiento de IA y aprendizaje automático: el almacenamiento en caché de archivos aumenta la utilización de las GPUs y las TPUs de Cloud al cargar los datos más rápido, lo que reduce el tiempo de entrenamiento y proporciona una mejor relación precio-rendimiento para las cargas de trabajo de entrenamiento de IA y aprendizaje automático.

Descargas paralelas

Las descargas paralelas pueden mejorar el rendimiento de lectura mediante el uso de varios procesos de trabajo para descargar varias partes de un archivo en paralelo usando el directorio de caché de archivos como búfer de prefetched. Recomendamos usar descargas paralelas para los casos de lectura que cargan archivos de gran tamaño, como el servicio de modelos, la restauración de puntos de control y el entrenamiento con objetos de gran tamaño.

Estos son algunos de los casos prácticos en los que se puede habilitar el almacenamiento en caché de archivos con descargas paralelas:

Tipo de caso práctico Descripción

Formación

Tipo de caso práctico	Descripción
Formación	Habilita el almacenamiento en caché de archivos si los datos a los que quieres acceder se leen varias veces, ya sea el mismo archivo varias veces o diferentes desplazamientos del mismo archivo. Si el conjunto de datos es más grande que la caché de archivos, esta debe permanecer inhabilitada. En su lugar, utilice uno de los siguientes métodos: Opción `--file-cache-cache-file-for-range-read` `gcsfuse` Campo archivo de configuración `file-cache:cache-file-for-range-read`
Servicio de ponderaciones de modelos y lecturas de puntos de control	Habilita el almacenamiento en caché de archivos con descargas paralelas para poder utilizar las descargas paralelas, que cargan archivos grandes mucho más rápido que si no se utilizan el almacenamiento en caché de archivos y las descargas paralelas.

Habilita el almacenamiento en caché de archivos si los datos a los que quieres acceder se leen varias veces, ya sea el mismo archivo varias veces o diferentes desplazamientos del mismo archivo. Si el conjunto de datos es más grande que la caché de archivos, esta debe permanecer inhabilitada. En su lugar, utilice uno de los siguientes métodos:

Servicio de ponderaciones de modelos y lecturas de puntos de control Habilita el almacenamiento en caché de archivos con descargas paralelas para poder utilizar las descargas paralelas, que cargan archivos grandes mucho más rápido que si no se utilizan el almacenamiento en caché de archivos y las descargas paralelas.

Cuestiones importantes

Tiempo de vida (TTL) de la caché de archivos: si una entrada de la caché de archivos aún no ha caducado según su TTL y el archivo está en la caché, las operaciones de lectura de ese archivo se sirven desde la caché del cliente local sin que se envíe ninguna solicitud a Cloud Storage.
Vencimiento de la entrada de la caché de archivos: si una entrada de la caché de archivos ha vencido, primero se realiza una llamada de GET atributos de archivo a Cloud Storage. Si falta el archivo o sus atributos o contenido han cambiado, se recupera el nuevo contenido. Si los atributos solo se han invalidado, pero el contenido sigue siendo válido (es decir, la generación de objetos no ha cambiado), el contenido se servirá desde la caché solo después de que la llamada de atributo confirme su validez. Ambas operaciones incurren en latencias de red.
Invalidación de la caché de archivos: cuando un cliente de Cloud Storage FUSE modifica un archivo almacenado en caché o sus atributos, la entrada de caché de ese cliente se invalida inmediatamente para mantener la coherencia. Sin embargo, otros clientes que accedan al mismo archivo seguirán leyendo sus versiones almacenadas en caché hasta que sus ajustes de TTL individuales provoquen una invalidación.
Tamaño del archivo y capacidad disponible: el archivo que se va a leer debe caber en la capacidad disponible del directorio de caché de archivos, que se puede controlar mediante la opción --file-cache-max-size-mb o el campo file-cache:max-size-mb.
Desalojo de la caché: el desalojo de los metadatos y los datos almacenados en caché se basa en un algoritmo de uso menos reciente (LRU) que se inicia cuando se alcanza el umbral de espacio configurado por el límite de --file-cache-max-size-mb. Si la entrada caduca según su TTL, primero se hace una llamada de metadatos GET a Cloud Storage, que está sujeta a latencias de red. Como los datos y los metadatos se gestionan por separado, es posible que se expulse o se invalide una entidad y no la otra.
Persistencia de la caché: las cachés de Cloud Storage FUSE no se conservan al desmontar y reiniciar. En el caso del almacenamiento en caché de archivos, aunque las entradas de metadatos necesarias para servir archivos desde la caché se eliminan al desmontar y reiniciar, los datos de la caché de archivos pueden seguir presentes en el directorio de archivos. Te recomendamos que elimines los datos del directorio de caché de archivos después de desmontar o reiniciar.
Gestión de lecturas aleatorias y parciales: cuando la primera operación de lectura de un archivo empieza al principio del archivo, en el desplazamiento 0, la caché de archivos de Cloud Storage FUSE ingiere y carga todo el archivo en la caché, aunque solo leas un pequeño subconjunto del intervalo. De esta forma, las lecturas aleatorias o parciales posteriores del mismo objeto se sirven directamente desde la caché.

De forma predeterminada, la lectura desde cualquier otro desplazamiento no activa una obtención asíncrona del archivo completo. Para cambiar este comportamiento de forma que Cloud Storage FUSE ingiera un archivo en la caché tras una lectura aleatoria inicial, asigna el valor true a la opción --file-cache-cache-file-for-range-read o al campo file-cache:cache-file-for-range-read.

Te recomendamos que habilites esta propiedad si se realizan muchas operaciones de lectura aleatorias o parciales diferentes en el mismo objeto.
Seguridad de los datos: cuando habilitas el almacenamiento en caché, Cloud Storage FUSE usa el directorio de caché que has especificado con la opción --cache-dir o el campo cache-dir como directorio subyacente para que la caché conserve los archivos de tu segmento de Cloud Storage en formato cifrado. Cualquier usuario o proceso que tenga acceso a este directorio de caché puede acceder a estos archivos. Te recomendamos que restrinjas el acceso a este directorio.
Acceso directo o múltiple a la caché de archivos: si se usa un proceso distinto de Cloud Storage FUSE para acceder a un archivo del directorio de caché o modificarlo, se pueden dañar los datos. Las cachés de Cloud Storage FUSE son específicas de cada proceso de Cloud Storage FUSE en ejecución y no tienen conocimiento de los diferentes procesos de Cloud Storage FUSE que se ejecutan en la misma máquina o en máquinas diferentes. Por lo tanto, no recomendamos usar el mismo directorio de caché para diferentes procesos de Cloud Storage FUSE.
Ejecutar varios procesos de Cloud Storage FUSE en la misma máquina: si es necesario ejecutar varios procesos de Cloud Storage FUSE en la misma máquina, cada proceso de Cloud Storage FUSE debe tener su propio directorio de caché específico o usar uno de los siguientes métodos para asegurarse de que los datos no se dañen:
- Montar todos los contenedores con una caché compartida: usa el montaje dinámico para montar todos los contenedores a los que tengas acceso en un solo proceso con una caché compartida. Para obtener más información, consulta Montaje dinámico de FUSE de Cloud Storage.
- Habilitar el almacenamiento en caché en un segmento específico: habilita el almacenamiento en caché solo en un segmento específico mediante el montaje estático. Para obtener más información, consulta Montaje estático de FUSE de Cloud Storage.
- Almacenar en caché solo una carpeta o un directorio específicos: monta y almacena en caché solo una carpeta específica a nivel de segmento en lugar de montar un segmento completo. Para obtener más información, consulta Montar un directorio en un segmento.

Antes de empezar

La caché de archivos requiere una ruta de directorio para almacenar archivos en caché. Puedes crear un directorio en un sistema de archivos o crear un sistema de archivos en el almacenamiento aprovisionado. Si vas a aprovisionar nuevo almacenamiento para usarlo, sigue estas instrucciones para crear un sistema de archivos:

En el caso de Hyperdisk de Google Cloud, consulta Crear un volumen de Hyperdisk de Google Cloud.
En el caso de Persistent Disk, consulta Crear un volumen de Persistent Disk.
Para obtener información sobre las SSD locales, consulta Añadir una SSD local a una VM.
Para obtener información sobre los discos de RAM en memoria, consulta Crear discos de RAM en memoria.

Habilitar y configurar el comportamiento del almacenamiento en caché de archivos

Seleccione el método con el que quiera habilitar y configurar el almacenamiento en caché de archivos mediante uno de los siguientes métodos:
- Indícalo como valor de la opción gcsfuse.
- Especificarlo en un archivo de configuración de Cloud Storage FUSE
Nota: También puedes usar configuraciones de ejemplo para habilitar y configurar el almacenamiento en caché de archivos. Para obtener más información, consulta el ejemplo de configuración para habilitar el almacenamiento en caché de archivos y las descargas paralelas
.
Especifica el directorio de caché que quieras usar con uno de los siguientes métodos. De esta forma, puedes habilitar la caché de archivos para las implementaciones que no sean de Google Kubernetes Engine:
- gcsfuse opción: --cache-dir
- Campo del archivo de configuración: cache-dir
Si usas una implementación de Google Kubernetes Engine con el controlador CSI de Cloud Storage FUSE para Google Kubernetes Engine, especifica uno de los siguientes métodos:
- gcsfuse opción: --file-cache-max-size-mb
- Campo del archivo de configuración: file-cache:max-size-mb
Nota: Para obtener más información sobre cómo habilitar el almacenamiento en caché de archivos en Google Kubernetes Engine, consulta Habilitar y usar el almacenamiento en caché de archivos.
Opcional: habilita las descargas paralelas configurando uno de los siguientes métodos en true si no se han habilitado automáticamente:
- gcsfuse opción: --file-cache-enable-parallel-downloads
- Campo del archivo de configuración: file-cache:enable-parallel-downloads
Limita la capacidad total que puede usar la caché de FUSE de Cloud Storage en su directorio montado. Para ello, ajusta una de las siguientes opciones, que se establece automáticamente en el valor -1 cuando especificas un directorio de caché:
- gcsfuse opción: --file-cache-max-size-mb
- Campo del archivo de configuración: file-cache:max-size-mb
También puede especificar un valor en MiB o GiB para limitar el tamaño de la caché.

Nota: Si usas máquinas virtuales de Compute Engine, como implementaciones independientes de Cloud Storage FUSE o que no estén basadas en Google Kubernetes Engine, la opción --file-cache-max-size-mb o el campo file-cache:max-size-mb se habilitarán automáticamente y se definirán en -1 cuando habilites cache-dir.
Opcional: omite el vencimiento del TTL de las entradas almacenadas en caché y sirve los metadatos del archivo desde la caché si están disponibles. Para ello, utiliza uno de los siguientes métodos y asigna el valor -1:
- gcsfuse opción: --metadata-cache-ttl-secs
- Campo del archivo de configuración: metadata-cache:ttl-secs
El valor predeterminado es de 60 segundos y el valor -1 lo establece en ilimitado. También puede especificar un valor alto en función de sus requisitos. Te recomendamos que asignes al valor ttl-secs el valor más alto que te permita tu carga de trabajo. Para obtener más información sobre el TTL de las entradas almacenadas en caché, consulta la sección Consideraciones.
Opcional: habilita la capacidad de la caché de archivos para cargar de forma asíncrona todo el archivo en la caché si la primera operación de lectura del archivo empieza en cualquier lugar que no sea offset 0, de modo que las lecturas posteriores de diferentes desplazamientos del mismo archivo también se puedan servir desde la caché. Usa uno de los siguientes métodos y activa la opción true:
- gcsfuse opción: --file-cache-cache-file-for-range-read
- Campo del archivo de configuración: file-cache:cache-file-for-range-read
Opcional: configura el almacenamiento en caché de estadísticas y el almacenamiento en caché de tipos. Para obtener más información sobre las cachés de estadísticas y de tipos, consulta Introducción al almacenamiento en caché de tipos o Introducción al almacenamiento en caché de estadísticas.
Ejecuta manualmente el comando ls -R en tu contenedor montado antes de ejecutar tu carga de trabajo para rellenar previamente los metadatos y asegurarte de que la caché de tipos se rellena antes de la primera lectura con un método más rápido y por lotes. Para obtener más información sobre cómo mejorar el rendimiento de la primera lectura, consulta el artículo Mejorar las primeras lecturas.

Una vez que habilites el almacenamiento en caché de archivos, las descargas paralelas se habilitarán automáticamente en Cloud Storage FUSE 2.12 y versiones posteriores. Si usas una versión anterior de Cloud Storage FUSE, define la opción enable-parallel-downloads como true para habilitar las descargas paralelas.

Configurar propiedades de asistencia para descargas paralelas

También puede configurar las siguientes propiedades de asistencia para las descargas paralelas mediante la CLI de Cloud Storage FUSE o un archivo de configuración de Cloud Storage FUSE:

Descripción de la propiedad	Opción `gcsfuse`	Campo de archivo de configuración
Número máximo de trabajadores que se pueden generar por archivo para descargar el objeto de Cloud Storage en la caché de archivos.	`--file-cache-parallel-downloads-per-file`	`file-cache:parallel-downloads-per-file`
Número máximo de trabajadores que se pueden generar en cualquier momento en todos los trabajos de descarga de archivos. El valor predeterminado es el doble del número de núcleos de CPU de tu máquina. Para no especificar ningún límite, introduce el valor `-1`.	`--file-cache-max-parallel-downloads`	`file-cache:max-parallel-downloads`
Tamaño de cada solicitud de lectura en MiB que realiza cada trabajador a Cloud Storage al descargar el objeto en la caché de archivos. Ten en cuenta que una descarga paralela solo se activa si el archivo que se está leyendo tiene el tamaño especificado.	`--file-cache-download-chunk-size-mb`	`file-cache:download-chunk-size-mb`

Inhabilitar descargas paralelas

Para inhabilitar las descargas paralelas, asigna el valor false a una de las siguientes opciones:

gcsfuse opción: --file-cache-enable-parallel-downloads
Campo de archivo de configuración: file-cache:enable-parallel-downloads

Siguientes pasos

Consulta las consideraciones sobre el almacenamiento en caché en Cloud Storage FUSE.
Consulta cómo mejorar el rendimiento de Cloud Storage FUSE.