Opciones de almacenamiento para datos de Cloud TPU

En este documento, se describen las opciones de almacenamiento de datos que se pueden usar cuando se entrenan modelos en Cloud TPU.

Introducción

Cloud TPU requiere el almacenamiento de datos para lo siguiente:

  • Descarga y procesamiento previo de conjuntos de datos
  • Procesa la canalización de entrada del host
  • Entrada de entrenamiento del modelo
  • Salida del entrenamiento de modelos

Las opciones de almacenamiento para los datos de la aplicación y los conjuntos de datos de entrenamiento de Cloud TPU son las siguientes:

Para obtener más información sobre cómo administrar el almacenamiento, consulta las siguientes páginas:

Almacenamiento en bloque duradero

El almacenamiento en bloque duradero, también conocido como discos o volúmenes, se usa para los datos que deseas conservar después de detener, suspender o borrar tu VM de TPU. El almacenamiento en bloques duradero seguirá disponible incluso si la VM de TPU falla o se bloquea. Puedes usar el disco de arranque de la VM de TPU o conectar almacenamiento en bloque adicional a tu TPU.

Te recomendamos que conectes un disco adicional en las siguientes situaciones:

  • El tamaño de tu conjunto de datos de entrenamiento supera el tamaño del disco de arranque de la TPU.
  • Tienes datos de solo lectura y deseas un acceso de lectura más rápido con un volumen de Hyperdisk ML.

Puedes conectar dos tipos de almacenamiento en bloque duradero a una Cloud TPU: Google Cloud Hyperdisk y Persistent Disk. Persistent Disk no es compatible con las series de máquinas más recientes, incluida la Cloud TPU v6e. Google recomienda usar Google Cloud Hyperdisk para obtener el mayor rendimiento y las funciones avanzadas.

Disco de arranque de la VM de TPU

De forma predeterminada, cada VM de Cloud TPU tiene un solo disco de arranque de 100 GiB que contiene el sistema operativo. El disco de inicio también se puede usar para el almacenamiento temporal de conjuntos de datos descargados para el procesamiento previo y los datos de entrada y salida del modelo, siempre que la cantidad total no supere el espacio disponible en el disco de inicio.

No puedes cambiar el tamaño del disco de arranque en una Cloud TPU. Si tu aplicación requiere espacio de almacenamiento adicional más allá del disco de arranque predeterminado, puedes agregar uno o más discos duraderos a tu instancia de VM de TPU. Para obtener más información, consulta Cómo conectar almacenamiento en bloque duradero a una VM de TPU.

Almacenamiento conectado

Hyperdisk y Persistent Disk son dispositivos de almacenamiento de red duraderos a los que tus instancias de VM pueden acceder al igual que discos físicos de una computadora de escritorio o un servidor. Ambos tipos de discos se crean de forma independiente de las instancias de tu máquina virtual (VM), por lo que puedes conservar tus datos incluso después de borrar las instancias de VM.

Entre las ventajas de usar Hyperdisk en lugar de Persistent Disk, se incluyen un rendimiento personalizable, IOPS más altos y límites de capacidad de procesamiento. Para obtener más información sobre Hyperdisk y Persistent Disk, consulta Elige un tipo de disco.

Para obtener más información sobre el uso del almacenamiento en bloque duradero con las VMs de TPU, consulta Cómo conectar almacenamiento en bloque duradero a una VM de TPU.

Copias de seguridad de disco

Puede ser difícil recuperar los datos del disco de arranque si la VM de TPU se bloquea en un estado "desconocido" o recuperar los datos borrados. Asegúrate de crear una copia de seguridad de tus datos con otra opción de almacenamiento, como los buckets de Cloud Storage.

Si almacenas datos en un disco adjunto, puedes usar instantáneas de disco, que crean copias de seguridad de los datos de un disco de forma incremental. Las instantáneas de disco no son compatibles con el disco de arranque de la TPU. Para obtener más información, consulta Información sobre las instantáneas de disco.

Depósitos de Cloud Storage

Los buckets de Cloud Storage son la opción de almacenamiento más flexible, escalable y duradera para tus instancias de VM. Si tu trabajo de entrenamiento no requiere la latencia más baja del almacenamiento en bloque duradero, puedes almacenar tu conjunto de datos en un bucket de Cloud Storage.

El rendimiento de los buckets de Cloud Storage depende de la clase de almacenamiento que selecciones y la ubicación del bucket en relación con tu instancia.

Si creas tu bucket de Cloud Storage en la misma zona que tu VM de TPU, obtienes un rendimiento comparable al del almacenamiento en bloque duradero, pero con mayor latencia y características de capacidad de procesamiento menos coherentes.

Todos los buckets de Cloud Storage tienen redundancia incorporada para proteger tus datos contra fallas del equipo y garantizar la disponibilidad de datos a través de eventos de mantenimiento del centro de datos. Las sumas de verificación se calculan en todas las operaciones de Cloud Storage a fin de garantizar que lo que lees es lo que escribiste.

A diferencia del almacenamiento en bloques duradero, los buckets de Cloud Storage no están restringidos a la zona donde se encuentra tu instancia. Además, puedes leer y escribir datos en un bucket desde varias instancias en simultáneo. Por ejemplo, puedes configurar instancias en varias zonas para leer y escribir datos en el mismo bucket, en lugar de replicar los datos en el almacenamiento en bloques duradero en varias zonas.

Para obtener más información sobre cómo conectar tu VM de TPU a un bucket de Cloud Storage, consulta Cómo conectarse a buckets de Cloud Storage.

Cloud Storage FUSE

Cloud Storage FUSE te permite activar los buckets de Cloud Storage y acceder a ellos como sistemas de archivos locales. Esto permite que las aplicaciones lean y escriban objetos en tu bucket con la semántica del sistema de archivos estándar.

Consulta la documentación de FUSE de Cloud Storage para obtener detalles sobre cómo funciona Cloud Storage FUSE y una descripción de cómo las operaciones de Cloud Storage FUSE se asignan a las operaciones de Cloud Storage. Puedes encontrar información adicional sobre cómo usar Cloud Storage FUSE, como instalar la CLI de Cloud Storage FUSE y activar buckets en GitHub.

Archivo compartido de Filestore

El archivo compartido de Filestore es un almacenamiento conectado a la red (NAS) completamente administrado para Compute Engine. Filestore ofrece compatibilidad con aplicaciones empresariales existentes y admite cualquier cliente compatible con NFSv3.

Filestore ofrece latencia baja para las operaciones con archivos. En el caso de las cargas de trabajo sensibles a la latencia, Filestore admite una capacidad de hasta 100 TiB y una capacidad de procesamiento de 25 GiB por segundo y 720,000 IOPS, con una variabilidad mínima del rendimiento.

Con Filestore, puedes activar archivos compartidos en VMs de TPU.

¿Qué sigue?