Opciones de almacenamiento de datos de Cloud TPU
En este documento se describen las opciones de almacenamiento de datos que se pueden usar al entrenar modelos en TPU de Cloud.
Introducción
Cloud TPU requiere almacenamiento de datos para lo siguiente:
- Descarga y preprocesamiento de conjuntos de datos
- Procesamiento de la cadena de entrada del host
- Entrada de entrenamiento del modelo
- Salida de la preparación de modelos
Las opciones de almacenamiento para los datos de la aplicación y los conjuntos de datos de entrenamiento de Cloud TPU son las siguientes:
- Almacenamiento en bloques duradero, incluidos el disco de arranque y los discos de almacenamiento conectados
- Segmentos de Cloud Storage
- Cloud Storage FUSE
- Sistema de archivos compartido de Filestore en una VM de Compute Engine
Para obtener más información sobre cómo gestionar el almacenamiento, consulta las siguientes páginas:
- Elige un tipo de disco
- Configurar los discos para cumplir los requisitos de rendimiento
- Precios de discos e imágenes
Almacenamiento en bloques duradero
El almacenamiento en bloques duradero, también conocido como discos o volúmenes, se usa para los datos que quieras conservar después de detener, suspender o eliminar tu máquina virtual de TPU. El almacenamiento en bloques duradero sigue estando disponible aunque la VM de TPU falle o se bloquee. Puedes usar el disco de arranque de la VM de TPU o conectar almacenamiento en bloque adicional a tu TPU.
Puede que quieras adjuntar un disco adicional en los siguientes casos:
- El tamaño de tu conjunto de datos de entrenamiento supera el tamaño del disco de arranque de la TPU.
- Tienes datos de solo lectura y quieres un acceso de lectura más rápido mediante un volumen de Hyperdisk ML.
Puedes conectar dos tipos de almacenamiento en bloques duradero a una TPU de Cloud: Google Cloud Hyperdisk y Persistent Disk. Persistent Disk no es compatible con la serie de máquinas más reciente, incluida Cloud TPU v6e. Google recomienda usar Google Cloud Hyperdisk para obtener el máximo rendimiento y disfrutar de funciones avanzadas.
Disco de arranque de la máquina virtual de TPU
De forma predeterminada, cada VM de TPU de Cloud tiene un único disco de arranque de 100 GiB que contiene el sistema operativo. El disco de arranque también se puede usar para almacenar temporalmente conjuntos de datos descargados para el preprocesamiento y los datos de entrada y salida del modelo, siempre que la cantidad total no supere el espacio disponible en el disco de arranque.
No puedes cambiar el tamaño del disco de arranque en una TPU de Cloud. Si tu aplicación requiere espacio de almacenamiento adicional más allá del predeterminado del disco de arranque, puedes añadir uno o varios discos duraderos a tu instancia de máquina virtual de TPU. Para obtener más información, consulta Adjuntar almacenamiento en bloque duradero a una VM de TPU.
Almacenamiento conectado
Tanto Hyperdisk como Persistent Disk son dispositivos de almacenamiento en red duraderos a los que pueden acceder tus instancias de VM, como si fueran discos físicos de un ordenador o un servidor. Ambos tipos de discos se crean de forma independiente a las instancias de máquinas virtuales (VM), por lo que puedes conservar los datos aunque elimines las instancias de VM.
Entre las ventajas de usar Hyperdisk en lugar de discos persistentes se incluyen el rendimiento personalizable y los límites de IOPS y de rendimiento más altos. Para obtener más información sobre Hyperdisk y Persistent Disk, consulta Elegir un tipo de disco.
Para obtener más información sobre cómo usar el almacenamiento en bloques duradero con VMs de TPU, consulta Adjuntar almacenamiento en bloques duradero a una VM de TPU.
Copias de seguridad en disco
Puede ser difícil recuperar los datos del disco de arranque si la VM de TPU se queda atascada en un estado "desconocido" o recuperar los datos eliminados. Asegúrate de crear una copia de seguridad de tus datos con otra opción de almacenamiento, como los segmentos de Cloud Storage.
Si almacenas datos en un disco conectado, puedes usar capturas de disco, que crean copias de seguridad incrementales de los datos de un disco. No se admiten instantáneas de disco para el disco de arranque de TPU. Para obtener más información, consulta el artículo Información sobre las instantáneas de disco.
Segmentos de Cloud Storage
Los segmentos de Cloud Storage son la opción de almacenamiento más flexible, escalable y duradera para tus instancias de máquina virtual. Si tu trabajo de entrenamiento no requiere la menor latencia del almacenamiento en bloques duradero, puedes almacenar tu conjunto de datos en un segmento de Cloud Storage.
El rendimiento de los segmentos de Cloud Storage depende de la clase de almacenamiento que selecciones y de la ubicación del segmento en relación con tu instancia.
Si creas tu segmento de Cloud Storage en la misma zona que tu VM de TPU, obtendrás un rendimiento comparable al del almacenamiento en bloques duradero, pero con una latencia mayor y unas características de rendimiento menos coherentes.
Todos los contenedores de Cloud Storage tienen redundancia integrada para proteger tus datos frente a fallos de los equipos y para asegurar la disponibilidad de los datos durante los eventos de mantenimiento de los centros de datos. Se calculan sumas de comprobación para todas las operaciones de Cloud Storage con el fin de asegurar que lo que lees es lo que has escrito.
A diferencia del almacenamiento en bloque duradero, los segmentos de Cloud Storage no están restringidos a la zona en la que se encuentra tu instancia. Además, puedes leer y escribir datos en un contenedor desde varias instancias simultáneamente. Por ejemplo, puede configurar instancias en varias zonas para leer y escribir datos en el mismo segmento en lugar de replicar los datos en un almacenamiento de bloques duradero en varias zonas.
Para obtener más información sobre cómo conectar tu VM de TPU a un segmento de Cloud Storage, consulta Conectarse a segmentos de Cloud Storage.
FUSE de Cloud Storage
Cloud Storage FUSE te permite montar y acceder a segmentos de Cloud Storage como sistemas de archivos locales. Esto permite que las aplicaciones lean y escriban objetos en tu segmento mediante la semántica estándar del sistema de archivos.
Consulta la documentación de FUSE de Cloud Storage para obtener información detallada sobre cómo funciona Cloud Storage FUSE y una descripción de cómo se asignan las operaciones de Cloud Storage FUSE a las operaciones de Cloud Storage. Puedes encontrar más información sobre cómo usar Cloud Storage FUSE, como instalar la CLI de Cloud Storage FUSE y montar segmentos, en GitHub.
Sistema de archivos compartidos de Filestore
Sistema de archivos compartido de Filestore es un almacenamiento conectado a una red (NAS) totalmente gestionado para Compute Engine. Filestore ofrece compatibilidad con las aplicaciones empresariales que ya utilizas y admite cualquier cliente compatible con NFSv3.
Filestore ofrece baja latencia para las operaciones con archivos. En el caso de las cargas de trabajo sensibles a la latencia, Filestore admite una capacidad de hasta 100 TiB, un rendimiento de 25 GiB por segundo y 720.000 IOPS, con una variabilidad mínima en el rendimiento.
Con Filestore, puedes montar sistemas de archivos compartidos en máquinas virtuales de TPU.
Siguientes pasos
- Consulta cómo añadir almacenamiento en bloque duradero a tu instancia.
- Consulta cómo conectar tu instancia a un segmento de Cloud Storage.