El almacenamiento de archivos, también conocido como almacenamiento conectado a la red (NAS), proporciona acceso a nivel de archivo a las aplicaciones para leer y actualizar información que se puede compartir en varias máquinas. Algunas soluciones de almacenamiento de archivos locales tienen una arquitectura de escalamiento vertical y solo agregan almacenamiento a una cantidad fija de recursos de procesamiento. Otras soluciones de almacenamiento de archivos tienen una arquitectura de escalamiento horizontal en la que la capacidad y el procesamiento (rendimiento) se pueden agregar de forma incremental a un sistema de archivos existente según sea necesario. En ambas arquitecturas de almacenamiento, una o varias máquinas virtuales (VMs) pueden acceder al almacenamiento.
Aunque algunos sistemas de archivos usan un cliente POSIX nativo, muchos sistemas de almacenamiento usan un protocolo que habilita a las máquinas cliente para activar un sistema de archivos y acceder a los archivos como si estuvieran alojados de forma local. Los protocolos más comunes a fin de exportar archivos compartidos son el sistema de archivos de red (NFS) para Linux (y, en algunos casos, Windows) y el Bloque de mensajes del servidor (SMB) para Windows.
En este documento, se describen las siguientes opciones para compartir archivos:
- Hyperdisk, Persistent Disk o SSD local de Google Cloud
- Soluciones administradas:
- Soluciones de socios en Google Cloud Marketplace:
Un factor subyacente en el rendimiento y la previsibilidad de todos los servicios de Google Cloud es la pila de red que Google desarrolló durante muchos años. Con Jupiter Fabric, Google creó una pila de herramientas de redes sólida, escalable y estable que puede continuar evolucionando sin afectar tus cargas de trabajo. A medida que Google mejora y refuerza sus capacidades de red internamente, la solución para compartir archivos se beneficia del rendimiento agregado.
Una de las características de Google Cloud que puede ayudarte a aprovechar al máximo tu inversión es la capacidad de especificar tipos de VM personalizados. Cuando eliges el tamaño del archivador, puedes optar por la combinación correcta de memoria y CPU, de modo que el archivador funcione con un rendimiento óptimo sin que se lo suscriba en exceso.
Ten en cuenta que Cloud Storage también es una excelente manera de almacenar petabytes o exabytes de datos con altos niveles de redundancia a un costo bajo, pero Cloud Storage presenta un perfil de rendimiento y una API diferentes a los servidores de archivos que se analizan aquí.
Resumen de las soluciones de servidores de archivos
En la siguiente tabla, se resumen las soluciones y las funciones de servidores de archivos:
Solución | Conjunto de datos óptimo | Capacidad de procesamiento | Asistencia administrada | Protocolos de exportación |
---|---|---|---|---|
Filestore Basic | 1 TiB a 64 TiB | Hasta 1.2 GiB/s | Completamente administrado por Google | NFSv3 |
Filestore Zonal | 1 TiB a 100 TiB | Hasta 26 GiB/s | Completamente administrado por Google | NFSv3 y NFSv4.1 |
Filestore regional | 1 TiB a 100 TiB | Hasta 26 GiB/s | Completamente administrado por Google | NFSv3 y NFSv4.1 |
Google Cloud NetApp Volumes | 1 GiB a 1 PiB | De 1 MB/s a 30 GiB/s | Completamente administrado por Google | NFSv3, NFSv4.1, SMB3 |
Disco persistente de solo lectura | < 64 TB | De 240 a 1,200 Mbps | No | Adjunto directo |
Discos duraderos y SSD locales
Si tienes datos a los que solo puede acceder una VM o que no cambian con el tiempo, puedes evitar un servidor de archivos por completo con los discos duraderos que ofrece Compute Engine: Hyperdisk o Persistent Disk. Puedes formatear volúmenes cortos de Hyperdisk y Persistent Disk con un sistema de archivos, como Ext4 o XFS, y conectarlos a VMs en modo de lectura-escritura o de solo lectura. Esto significa que primero puedes adjuntar un volumen a una instancia, cargar ese volumen con los datos que necesites y, luego, adjuntarlo como disco de solo lectura a cientos de VMs de manera simultánea. El empleo de discos de solo lectura no funciona en todos los casos de uso, pero puede reducir en gran medida la complejidad, en comparación con el uso de un servidor de archivos.
Los discos duraderos ofrecen un rendimiento coherente. Todos los volúmenes de disco persistente del mismo tamaño (y la misma cantidad de CPU virtuales para discos persistentes SSD) que conectes a la instancia presentarán las mismas características de rendimiento. No necesitas probar o preparar los discos antes de usarlos para la producción.
El costo de los discos persistentes es fácil de determinar, ya que no hay costos de E/S que debas tener en cuenta después de aprovisionar el volumen. También se puede cambiar el tamaño de los discos persistentes cuando sea necesario. Esto te permite comenzar con un costo y un volumen de capacidad bajos; además, no necesitas crear instancias ni discos adicionales para escalar tu capacidad.
Si la capacidad de almacenamiento total es el requisito principal, puedes usar discos persistentes estándar de costo bajo. Para obtener el mejor rendimiento y, al mismo tiempo, asegurarte de que sea duradero, usa discos persistentes SSD.
Además, es importante que elijas la capacidad de disco persistente correcta de Compute Engine y la cantidad de CPU virtuales para garantizar que los dispositivos de almacenamiento del servidor de archivos reciban el ancho de banda de almacenamiento, los IOPS y el ancho de banda de red necesarios. El ancho de banda de red de las VMs depende del tipo de máquina que elijas. Por ejemplo, las VMs A4 tienen un ancho de banda de red máximo de hasta 3,600 Gbps. Para obtener más información, consulta la guía de comparación y recurso de familias de máquinas. Para obtener información sobre cómo ajustar los discos persistentes, consulta Acerca del rendimiento de Persistent Disk.
Si tus datos son efímeros y requieren una latencia de menos de un milisegundo, así como operaciones de E/S por segundo (IOPS) altas, puedes aprovechar las SSD locales de hasta 9 TB para obtener un máximo rendimiento. Las SSD locales proporcionan Gbps de ancho de banda y millones de IOPS, siempre que no agoten el ancho de banda de red asignado a tus instancias. Es importante recordar que los SSD locales tienen ciertas compensaciones en cuanto a disponibilidad, durabilidad y flexibilidad.
Si quieres obtener más información sobre las opciones de almacenamiento de Compute Engine, consulta Diseña una estrategia de almacenamiento óptima para tu carga de trabajo en la nube.
Consideraciones para elegir una solución de almacenamiento de archivos
Elegir una solución de almacenamiento de archivos requiere realizar compensaciones con respecto al costo, la administración, el rendimiento y la escalabilidad. Es más fácil elegir si tienes una carga de trabajo bien definida, lo que no suele ser el caso. Cuando las cargas de trabajo evolucionan con el tiempo o son muy variables, es prudente cambiar los ahorros en costos por flexibilidad y elasticidad a fin de que tu solución sea más eficiente. Por otro lado, si tienes una carga de trabajo temporal y conocida, puedes crear una arquitectura de almacenamiento de archivos diseñada con una finalidad específica, que puedes eliminar y volver a compilar para satisfacer tus necesidades de almacenamiento inmediatas.
Una de las primeras decisiones que debes tomar es si deseas pagar por un servicio de almacenamiento administrado, una solución que incluya asistencia para productos o una solución sin asistencia.
- Los servicios de almacenamiento de archivos administrados son más fáciles de operar, ya que Google o un socio se encargan de todas las operaciones. Es posible que estos servicios proporcionen un Acuerdo de Nivel de Servicio (ANS) para la disponibilidad, al igual que la mayoría de los demás servicios de Google Cloud .
- Las soluciones no administradas, pero compatibles, ofrecen flexibilidad adicional. Los socios pueden ayudar con cualquier problema, pero la operación diaria de la solución de almacenamiento es tarea del usuario.
- Las soluciones no compatibles requieren mayor esfuerzo de implementación y mantenimiento, lo que deja todos los problemas a cargo del usuario. Estas soluciones no se tratan en este documento.
La siguiente decisión implica determinar los requisitos de durabilidad y disponibilidad de la solución. La mayoría de las soluciones de archivos son zonales y no proporcionan protección predeterminada si la zona falla. Por lo tanto, es importante considerar si se requiere una solución de recuperación ante desastres (DR) que otorgue protección contra fallas zonales. También es importante comprender los requisitos de la aplicación respecto a la durabilidad y la disponibilidad. Por ejemplo, la elección de SSD locales o discos persistentes en la implementación tiene un gran impacto, al igual que la configuración del software de solución de archivos. Cada solución requiere una planificación adecuada para lograr una durabilidad, una disponibilidad y una protección que sean eficaces contra fallas zonales y regionales.
Por último, considera las ubicaciones (es decir, las zonas, las regiones y los centros de datos locales) desde las cuales necesitas acceder a los datos. Las ubicaciones de las granjas de procesamiento que acceden a tus datos influyen en la elección de la solución de almacenamiento de archivos, porque solo algunas soluciones permiten el acceso híbrido local y en la nube.
Soluciones de almacenamiento de archivos administradas
En esta sección, se describen las soluciones administradas por Google para el almacenamiento de archivos.
Filestore Basic
Las instancias de Filestore Basic son adecuadas para el uso compartido de archivos, el desarrollo de software y las cargas de trabajo de GKE. Puedes elegir HDD o SSD para almacenar datos. SSD ofrece un mejor rendimiento. Con cualquiera de las opciones, la capacidad escala verticalmente y puedes proteger los datos mediante copias de seguridad.
Filestore Zonal
Filestore Zonal simplifica el almacenamiento empresarial y la administración de datos en Google Cloud y en nubes híbridas. Filestore Zonal ofrece un acceso paralelo rentable y de alto rendimiento a los datos globales, y al mismo tiempo mantiene una coherencia estricta con la tecnología de un sistema de archivos distribuido y escalable de forma dinámica. Con Filestore Zonal, las aplicaciones NFS existentes y los flujos de trabajo de NAS pueden ejecutarse en la nube sin necesidad de refactorizar, pero retienen los beneficios de los servicios de datos empresariales (por ejemplo, instantáneas y copias de seguridad). El controlador CSI de Filestore permite la persistencia, la portabilidad y el uso compartido de los datos sin interrupciones para las cargas de trabajo alojadas en contenedores.
Puedes escalar instancias zonales de Filestore a pedido. Esto te permite crear y expandir la infraestructura del sistema de archivos cuando sea necesario, lo que garantiza que el rendimiento y la capacidad de almacenamiento siempre se alineen con los requisitos dinámicos del flujo de trabajo. A medida que se expande un clúster zonal de Filestore, tanto los metadatos como el rendimiento de E/S se ajustan de forma lineal. Este escalamiento te permite mejorar y acelerar un rango amplio de flujos de trabajo con uso intensivo de datos, que incluyen computación de alto rendimiento, estadísticas, agregación de datos entre sitios, DevOps y muchas opciones más. Por lo tanto, Filestore Zonal es una muy buena opción para usar en industrias centradas en datos, como las ciencias biológicas (por ejemplo, la secuenciación del genoma), los servicios financieros y los medios de comunicación y entretenimiento.
Para proteger aún más los datos críticos, Filestore Zonal también te permite tomar y mantener instantáneas periódicas, crear copias de seguridad y replicarlas en otra región. Con Filestore, puedes recuperar un archivo individual o un sistema de archivos completo en menos de 10 minutos desde cualquiera de los puntos de recuperación anteriores.
Filestore regional
Filestore Regional es una solución de NFS nativa de la nube y completamente administrada que te permite implementar aplicaciones basadas en archivos en Google Cloud, respaldadas por un ANS que ofrece una disponibilidad regional del 99.99%. Con un ANS de disponibilidad regional del 99.99%, Filestore Regional está diseñado para aplicaciones que requieren alta disponibilidad. Con solo unos clics del mouse (o con algunos comandos gcloud
o llamadas a la API), puedes aprovisionar recursos compartidos de NFS que se replican de forma síncrona en tres zonas dentro de una región. Si alguna zona dentro de la región deja de estar disponible, Filestore Regional continúa entregando datos a la aplicación con transparencia sin ninguna intervención operativa.
Para proteger aún más los datos críticos, Filestore Regional también te permite tomar y mantener instantáneas periódicas, crear copias de seguridad y replicarlas en otra región. Con Filestore, puedes recuperar un archivo individual o un sistema de archivos completo en menos de 10 minutos desde cualquiera de los puntos de recuperación anteriores.
Para proteger aún más los datos críticos, Filestore también te permite tomar y mantener instantáneas periódicas del sistema de archivos. Con Filestore, puedes recuperar un archivo individual o un sistema de archivos completo en menos de 10 minutos desde cualquiera de los puntos de recuperación anteriores.
Para aplicaciones esenciales como SAP, los niveles de base de datos y de la aplicación deben tener alta disponibilidad. Para cumplir con este requisito, puedes implementar el nivel de la base de datos de SAP en Hyperdisk Extreme de Google Cloud en varias zonas con la alta disponibilidad de la base de datos integrada. De manera similar, el nivel de la aplicación NetWeaver, que requiere ejecutables compartidos en muchas VMs, se puede implementar en Filestore Regional, que replica los datos de Netweaver en varias zonas dentro de una región. El resultado final es una arquitectura de aplicación crítica de tres niveles con alta disponibilidad.
Las organizaciones de TI también implementan cada vez más aplicaciones con estado en contenedores en Google Kubernetes Engine (GKE). A menudo, esto hace que vuelvan a pensar qué infraestructura de almacenamiento usar para admitir esas aplicaciones. Puedes usar almacenamiento en bloque (Hyperdisk o Persistent Disk), almacenamiento de archivos (Filestore básico, zonal o regional) o almacenamiento de objetos (Cloud Storage). El HDD básico de Filestore para GKE y los recursos compartidos de Filestore para GKE combinados con el controlador de CSI de Filestore permiten que las organizaciones que requieren varios pods de GKE tengan acceso a archivos compartidos, lo que proporciona un mayor nivel de disponibilidad para las cargas de trabajo esenciales.
NetApp Volumes
NetApp Volumes es un servicio de Google completamente administrado que te permite activar con rapidez el almacenamiento de archivos compartidos en las instancias de procesamiento de Google Cloud . NetApp Volumes admite SMB, NFS y acceso de varios protocolos. NetApp Volumes ofrece un alto rendimiento a tus aplicaciones, con baja latencia y capacidades sólidas de protección de datos en instantáneas, copias, replicación entre regiones y copias de seguridad. El servicio es adecuado para aplicaciones que requieren cargas de trabajo secuenciales y aleatorias, que pueden escalar en cientos o miles de instancias de Compute Engine. En segundos, los volúmenes que varían en tamaño de GiB a PiB se pueden aprovisionar y proteger con capacidades sólidas de protección de datos. Con varios niveles de servicio (Flex, Standard, Premium y Extreme), NetApp Volumes ofrece el rendimiento adecuado para tu carga de trabajo sin afectar la disponibilidad.
Google Cloud Managed Lustre
Managed Lustre es un servicio administrado por Google que proporciona almacenamiento de alta capacidad de procesamiento y baja latencia para cargas de trabajo de HPC con acoplamiento alto. Acelera significativamente las cargas de trabajo de HPC y el entrenamiento y la inferencia de IA, ya que proporciona acceso de alta capacidad de procesamiento y baja latencia a conjuntos de datos masivos. Para obtener información sobre el uso de Managed Lustre para cargas de trabajo de IA y AA, consulta Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud. Lustre administrado distribuye los datos en varios nodos de almacenamiento, lo que permite el acceso simultáneo de muchas VMs. Este acceso paralelo elimina los cuellos de botella que se producen con los sistemas de archivos convencionales y permite que las cargas de trabajo transfieran y procesen rápidamente las grandes cantidades de datos que se requieren.
Soluciones de socios en Cloud Marketplace
Las siguientes soluciones que proporcionan los socios están disponibles en Cloud Marketplace.
Cloud Volumes ONTAP de NetApp
NetApp Cloud Volumes ONTAP (NetApp CVO) es una solución administrada por el cliente y basada en la nube que brinda el conjunto completo de funciones de ONTAP, el sistema operativo de administración de datos líder de NetApp, a Google Cloud. NetApp CVO se implementa dentro de tu VPC, con facturación y asistencia de Google. El software de ONTAP se ejecuta en una VM de Compute Engine y usa una combinación de discos persistentes y buckets de Cloud Storage (si los niveles están habilitados) para almacenar los datos de NAS. El archivador integrado se adapta a los volúmenes de NAS mediante el aprovisionamiento delgado, por lo que solo pagues por el almacenamiento que uses. A medida que los datos crecen, se agregan discos persistentes adicionales al grupo de capacidad agregada.
NetApp CVO abstrae la infraestructura subyacente y te permite crear volúmenes de datos virtuales extraídos del grupo agregado que son coherentes con todos los otros volúmenes de ONTAP en cualquier nube o entorno local. Los volúmenes de datos que creas admiten todas las versiones de NFS, SMB, iSCSI y NFS/SMB de varios protocolos. Admiten una amplia variedad de cargas de trabajo basadas en archivos, incluidos el contenido web y de rich media, que se usa en muchas industrias, como en la automatización del diseño electrónico (EDA), y en los medios de comunicación y entretenimiento.
NetApp CVO admite instantáneas de un momento determinado que ahorran espacio, almacenamiento integrado a nivel de bloque, copia de seguridad incremental permanente en Cloud Storage y replicación asíncrona interregional para la recuperación ante desastres. La opción de seleccionar el tipo de instancia de Compute Engine y discos persistentes te permite lograr el rendimiento que deseas para tus cargas de trabajo. Incluso cuando se opera en una configuración de alto rendimiento, NetApp CVO implementa eficiencias de almacenamiento, como anulación de duplicación, compactación y compresión, además de datos de nivel automático que se usan con poca frecuencia al bucket de Cloud Storage, lo que te permite almacenar petabytes de datos y, de este modo, reducir de forma significativa los costos generales de almacenamiento.
DDN Infinia
Si necesitas una orquestación avanzada de datos de IA, puedes usar DDN Infinia, que está disponible en Google Cloud Marketplace. Infinia proporciona una solución de inteligencia de datos enfocada en la IA que está optimizada para la inferencia, el entrenamiento y la analítica en tiempo real. Permite la transferencia de datos ultrarrápida, el indexado rico en metadatos y la integración perfecta con frameworks de IA, como TensorFlow y PyTorch.
Las siguientes son las características clave de DDN Infinia:
- Alto rendimiento: Ofrece una latencia de menos de un milisegundo y una capacidad de procesamiento de varios TB/s.
- Escalabilidad: Admite el escalamiento de terabytes a exabytes y puede admitir hasta más de 100,000 GPUs y un millón de clientes simultáneos en una sola implementación.
- Multitenancy con calidad de servicio (QoS) predecible: Ofrece entornos seguros y aislados para varios inquilinos con QoS predecible para un rendimiento coherente en todas las cargas de trabajo.
- Acceso a datos unificado: Permite la integración sin interrupciones con aplicaciones y flujos de trabajo existentes a través de la compatibilidad con varios protocolos integrada, lo que incluye CSI, Cinder y compatibilidad con Amazon S3.
- Seguridad avanzada: Incluye encriptación integrada, codificación de borrado consciente del dominio de fallas y instantáneas que ayudan a garantizar la protección de datos y el cumplimiento.
Nasuni Cloud File Storage
Nasuni reemplaza los servidores de archivos empresariales, los dispositivos NAS y todas las infraestructuras asociadas, incluidas las copias de seguridad y el hardware de DR, por una alternativa a la nube más simple y de bajo costo. Nasuni usa el Google Cloud almacenamiento de objetos para ofrecer una solución de almacenamiento de software como servicio (SaaS) más eficiente que escala para controlar el crecimiento de datos de archivos no estructurado y rápido. Nasuni está diseñado a fin de controlar flujos de trabajo de aplicaciones, departamentos y proyectos, y flujos de trabajo de aplicaciones para cada empleado, sin importar dónde trabaje.
Nasuni ofrece tres paquetes con precios para empresas y organizaciones de todos los tamaños, de modo que puedan crecer y expandirse según sea necesario.
Sus beneficios incluyen los siguientes:
El almacenamiento de archivos principales basado en la nube cuesta hasta un 70% menos. La arquitectura de Nasuni aprovecha las políticas integradas de administración del ciclo de vida de los objetos. Estas políticas permiten una flexibilidad total para usar las clases de Cloud Storage, incluidos Standard, Nearline, Coldline y Archive. Si usas la clase Archive de acceso inmediato para el almacenamiento principal con Nasuni, puedes ahorrar hasta un 70% en costos.
Archivos compartidos de nivel de organización y departamento en la nube. La arquitectura basada en la nube de Nasuni ofrece un espacio de nombres global único entre regiones deGoogle Cloud , sin límites para la cantidad de archivos, tamaños de archivos o instantáneas, lo que te permite almacenar archivos directamente desde tu escritorio enGoogle Cloud a través de protocolos de asignación de unidad de NAS (SMB) estándar.
Copia de seguridad integrada y recuperación ante desastres. Las operaciones “configurar y olvidar” de Nasuni facilitan la administración del almacenamiento global de archivos. Se incluyen la copia de seguridad y la DR, y una sola consola de administración te permite supervisar y controlar el entorno en cualquier momento y lugar.
Reemplaza los servidores de archivos antiguos. Nasuni facilita la migración de los servidores de archivos de Microsoft Windows y otros sistemas de almacenamiento de archivos existentes a Google Cloud, lo que reduce los costos y la complejidad de la administración de estos entornos.
Para obtener más información, consulta lo siguiente:
- Visita guiada de Nasuni
- Asociación de Google Cloud Nasuni
- Resumen de la solución de Nasuni Enterprise File Storage para Google Cloud (PDF)
- Nasuni Cloud File Storage en Cloud Marketplace
- Blog de Google Cloud Nasuni
Sycomp Storage basado en IBM Storage Scale
Sycomp Storage potenciado por IBM Storage Scale, que está disponible en Google Cloud Marketplace, te permite ejecutar tu computación de alto rendimiento (HPC), la IA y el AA, y las cargas de trabajo de macrodatos en Google Cloud. Con Sycomp Storage, puedes acceder a los datos de miles de VMs a la vez, reducir los costos a través de la administración automática de niveles de almacenamiento y ejecutar la aplicación de manera local o en Google Cloud. Sycomp Storage se puede implementar con rapidez y admite el acceso a tus datos a través de NFS y el cliente de IBM Storage Scale.
IBM Storage Scale es un sistema de archivos en paralelo que ayuda a administrar grandes volúmenes de datos (PB) de forma segura. Sycomp Storage Scale es un sistema de archivos en paralelo que es adecuado para HPC, IA, AA, macrodatos y otras aplicaciones que requieren un sistema de archivos compartidos compatible con POSIX. Con capacidad de almacenamiento adaptable y escalamiento de rendimiento, Sycomp Storage puede admitir cargas de trabajo de HPC, IA y AA pequeñas y grandes.
Después de implementar un clúster en Google Cloud, debes decidir cómo deseas usarlo. Elige si deseas usar el clúster solo en la nube o en modo híbrido. Para ello, conéctate a clústeres existentes de IBM Storage Scale, soluciones de NAS NFS de terceros o a otras soluciones de almacenamiento basadas en objetos.
Colaboradores
Autor: Sean Derrington | Gerente de productos salientes del grupo
Otros colaboradores:
- Dean HildeBrand | Director técnico, oficina del director de Tecnología
- Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos