En esta guía, encontrarás ayuda para evaluar los requisitos de almacenamiento de tu carga de trabajo en la nube, comprender las opciones de almacenamiento disponibles en Google Cloudy diseñar una estrategia de almacenamiento que proporcione un valor empresarial óptimo.
Para obtener un resumen visual de las principales recomendaciones de diseño, consulta el diagrama de árbol de decisión.
Para obtener información sobre cómo seleccionar servicios de almacenamiento para cargas de trabajo de IA y AA, consulta Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud.
Descripción general del proceso de diseño
Como arquitecto de la nube, cuando planificas el almacenamiento para una carga de trabajo en la nube, primero debes considerar las características funcionales de la carga de trabajo, las restricciones de seguridad, los requisitos de resiliencia, las expectativas de rendimiento y los objetivos de costos. Luego, debes revisar los servicios y las funciones de almacenamiento disponibles enGoogle Cloud. Luego, en función de tus requisitos y las opciones disponibles, elige los servicios y las funciones de almacenamiento que necesitas. En el siguiente diagrama, se muestra este proceso de diseño de tres fases:
Define tus requisitos
Usa los cuestionarios de esta sección para definir los requisitos clave de almacenamiento de la carga de trabajo que deseas implementar en Google Cloud.
Lineamientos para definir los requisitos de almacenamiento
Cuando respondas los cuestionarios, ten en cuenta los siguientes lineamientos:
Define los requisitos de forma detallada
Por ejemplo, si tu aplicación necesita almacenamiento de archivos basado en el sistema de archivos de red (NFS), identifica la versión de NFS requerida.
Considera los requisitos futuros
Por ejemplo, tu implementación actual puede brindar servicios a los usuarios en países dentro de Asia, pero puedes expandir el negocio a otros continentes. En este caso, considera los requisitos regulatorios relacionados con el almacenamiento de los nuevos territorios empresariales.
Ten en cuenta las oportunidades y los requisitos específicos de la nube
Aprovecha las oportunidades específicas de la nube.
Por ejemplo, para optimizar el costo de almacenamiento de los datos almacenados en Cloud Storage, puedes controlar la duración del almacenamiento mediante políticas de retención de datos y opciones de configuración del ciclo de vida.
Considera los requisitos específicos de la nube.
Por ejemplo, puede que los datos locales existan en un solo centro de datos y que debas replicar los datos migrados en dosGoogle Cloud ubicaciones para redundancia.
Cuestionarios
Los cuestionarios que aparecen a continuación no son listas de tareas exhaustivas para la planificación. Úsalas como punto de partida para analizar de forma sistemática todos los requisitos de almacenamiento de la carga de trabajo que deseas implementar en Google Cloud.
Evalúa las características de la carga de trabajo
¿Qué tipo de datos necesitas almacenar?
Ejemplos
- Contenido de sitio web estático
- Copias de seguridad y archivos para la recuperación ante desastres
- Registros de auditoría para el cumplimiento
- Objetos de datos grandes que los usuarios descargan de forma directa
- Datos de transacciones
- Datos heterogéneos y no estructurados
¿Cuánta capacidad necesitas? Ten en cuenta los requisitos actuales y futuros.
¿La capacidad debe escalar de forma automática con el uso?
¿Cuáles son los requisitos de acceso? Por ejemplo, ¿se debe poder acceder a los datos desde fuera de Google Cloud?
¿Cuáles son los patrones de lectura y escritura esperados?
Ejemplos
- Lecturas y escrituras frecuentes
- Escrituras frecuentes, pero lecturas ocasionales
- Operaciones de lectura y escritura ocasionales
- Escrituras ocasionales, pero lecturas frecuentes
¿La carga de trabajo necesita acceso basado en archivos, por ejemplo, mediante NFS?
¿Varios clientes deben poder leer o escribir datos en simultáneo?
Identifica restricciones de seguridad
¿Cuáles son tus requisitos de encriptación de datos? Por ejemplo, ¿necesitas usar claves que controlas?
¿Hay algún requisito de residencia de datos?
Define los requisitos de resiliencia de datos
- ¿Tu carga de trabajo necesita almacenamiento en caché de baja latencia o espacio temporal?
- ¿Necesita replicar los datos en la nube para agregar redundancia?
- ¿Necesitas coherencia estricta de lectura y escritura para los conjuntos de datos replicados?
Establece expectativas de rendimiento
¿Cuál es la tasa de E/S requerida?
¿Qué niveles de capacidad de procesamiento de lectura y escritura necesita tu aplicación?
¿Para qué entornos necesitas almacenamiento? En una carga de trabajo determinada, tal vez necesites almacenamiento de alto rendimiento para el entorno de producción, pero puedes elegir una opción de menor rendimiento para los entornos que no son de producción.
Revisa las opciones de almacenamiento
Google Cloud ofrece servicios de almacenamiento para todos los formatos de almacenamiento clave: bloque, archivo y objeto. Revisa y evalúa las funciones, las opciones de diseño y las ventajas relativas de los servicios disponibles para cada formato de almacenamiento.
Descripción general
Almacenamiento en bloque
Los datos que almacenas en el almacenamiento en bloque se dividen en fragmentos que se almacenan como un bloque independiente con una dirección única. Las aplicaciones acceden a los datos mediante la referencia a las direcciones de bloque correspondientes. El almacenamiento en bloque está optimizado para cargas de trabajo de IOPS altas, como el procesamiento de transacciones. Es similar a la red de área de almacenamiento local (SAN) y a los sistemas de almacenamiento conectado de forma directa (DAS).
Las opciones de almacenamiento en bloque en Google Cloud son parte del servicio de Compute Engine.
Opción | Descripción general |
---|---|
Persistent Disk | Unidades de disco duro (HDD) y unidades de estado sólido (SSD) para aplicaciones empresariales y de bases de datos implementadas en VM de Compute Engine y clústeres de Google Kubernetes Engine (GKE) |
Google Cloud Hyperdisk | Almacenamiento de red rápido y redundante para las VMs de Compute Engine y los clústeres de GKE, con rendimiento y volúmenes configurables a los que se les puede cambiar el tamaño de forma dinámica. |
SSD local | Almacenamiento efímero en bloque conectado de forma local para aplicaciones de alto rendimiento. |
Almacenamiento de archivos
Los datos se organizan y se representan en una jerarquía de archivos que se almacenan en carpetas, similar a lo que sucede en el almacenamiento conectado a la red local (NAS). Los sistemas de archivos se pueden activar en clientes mediante protocolos como NFS y bloques de mensajes del servidor (pyme). Las aplicaciones acceden a los datos con el nombre de archivo y la ruta de acceso del directorio relevantes.
Google Cloud proporciona una variedad de soluciones completamente administradas y de terceros para el almacenamiento de archivos.
Solución | Descripción general |
---|---|
Filestore |
Almacenamiento basado en archivos con servidores de archivos NFS para VMs de Compute Engine y clústeres de Google Kubernetes Engine. Puedes elegir un nivel de servicio (Básico, Zonal o Regional) que se adapte a tu caso de uso. |
Google Cloud Managed Lustre |
Sistema de archivos paralelos de baja latencia para IA, computación de alto rendimiento (HPC) y aplicaciones que consumen muchos datos. |
NetApp Volumes | Almacenamiento basado en archivos con NFS o SMB. Puedes elegir un nivel de servicio (Flexible, Estándar, Premium o Extremo) que se adapte a tu caso de uso. |
Más opciones | Consulta Resumen de opciones de servidor de archivos. |
Almacenamiento de objetos
Los datos se almacenan como objetos en una jerarquía plana de buckets. A cada objeto se le asigna un ID global único. Los objetos pueden tener metadatos definidos por el usuario y asignados por el sistema para ayudarte a organizar y administrar los datos. Las aplicaciones acceden a los datos mediante la referencia a los IDs de objeto mediante las API de REST o las bibliotecas cliente.
Cloud Storage proporciona almacenamiento de objetos de bajo costo, muy duradero y sin límites para varios tipos de datos. Se puede acceder a los datos que almacenas en Cloud Storage desde cualquier lugar, dentro y fuera de Google Cloud. La redundancia opcional en todas las regiones proporciona la máxima confiabilidad. Puedes seleccionar una clase de almacenamiento que se adapte a tus requisitos de retención de datos y frecuencia de acceso.
Análisis comparativo
En la siguiente tabla, se enumeran las capacidades clave de los servicios de almacenamiento enGoogle Cloud.
Persistent Disk | Hyperdisk | SSD local | Filestore | Managed Lustre | NetApp Volumes | Cloud Storage | |
---|---|---|---|---|---|---|---|
Capacidad |
Entre 10 GiB y 64 TiB por disco Hasta 257 TiB por VM |
Entre 4 GiB y 64 TiB por disco Hasta 512 TiB por VM De 10 TiB a 1 PiB por grupo de almacenamiento |
375 GiB por disco Hasta 12 TiB por VM Titanium SSD es una opción de SSD local con mayor capacidad. |
De 1 a 100 TiB por instancia | 18 TiB a 8 PiB | De 1 TiB a 10 PiB por grupo de almacenamiento De 1 GiB a 1 PiB por volumen |
Sin límite máximo o inferior |
Escalamiento |
|
Escalamiento vertical | No escalable |
|
No escalable | Aumenta o reduce la escala de forma vertical | Escala de forma automática según el uso |
Uso compartido |
Admitido | Admitido | No se puede compartir | Se puede activar en varias VMs de Compute Engine, clientes remotos y clústeres de GKE | Se puede activar en varias VMs de Compute Engine y clústeres de GKE. | Activable en varias VMs de Compute Engine y clústeres de GKE |
|
Opciones de la clave de encriptación |
|
|
Google-owned and Google-managed encryption keys |
|
Google-owned and Google-managed encryption keys |
|
|
Persistencia |
La vida útil del disco | La vida útil del disco | Efímera (los datos se pierden cuando se detiene o se borra la VM) | Ciclo de vida de la instancia de Filestore | Ciclo de vida de la instancia de Managed Lustre | Ciclo de vida del volumen | Vida útil del bucket |
Disponibilidad |
|
|
Zonal |
|
Zonal |
|
|
Rendimiento |
Escalamiento lineal con el tamaño del disco y la cantidad de CPU | Almacenamiento persistente con escalamiento dinámico | Almacenamiento temporal de alto rendimiento |
|
Escalamiento lineal con capacidad aprovisionada | Rendimiento escalable Las expectativas dependen del nivel de servicio |
|
Administración |
Formatea y activa de forma manual | Formatea y activa de forma manual | Da formato a rayas y activa de forma manual | Completamente administrado | Completamente administrado | Completamente administrado | Completamente administrado |
En la siguiente tabla, se enumeran los tipos de cargas de trabajo para los que cada opción de almacenamiento de Google Cloudes adecuada:
Opción de almacenamiento | Tipos de cargas de trabajo |
---|---|
Persistent Disk |
|
Hyperdisk |
|
SSD local |
|
Filestore |
|
Managed Lustre |
|
NetApp Volumes |
|
Cloud Storage |
|
Elige una opción de almacenamiento
Seleccionar una opción de almacenamiento consta de dos partes:
- Decide qué servicios de almacenamiento necesitas.
- Selección de las características requeridas y las opciones de diseño en un servicio determinado
Ejemplos de funciones específicas del servicio y opciones de diseño
Persistent Disk
- Región y zona de implementación
- Replicación regional
- Tipo de disco, tamaño e IOPS (para un disco persistente extremo)
- Claves de encriptación: Propiedad de Google y administradas por Google, administradas por el cliente o proporcionadas por el cliente
- Programación de instantáneas
Hyperdisk
- Zona de implementación
- Tipo de disco, tamaño, capacidad de procesamiento (para Hyperdisk Throughput) y IOPS (para Hyperdisk Extreme)
- Claves de encriptación: Propiedad de Google y administradas por Google, administradas por el cliente o proporcionadas por el cliente
- Programación de instantáneas
Filestore
- Región y zona de implementación
- Nivel de la instancia
- Capacidad
- Rango de IP: Asignado de forma automática o personalizado
- Control de acceso
NetApp Volumes
- Región de Implementación
- Nivel de servicio para el grupo de almacenamiento
- Capacidad de grupo y volumen
- Protocolo de volumen
- Reglas de exportación de volumen
Cloud Storage
- Ubicación: multirregión, birregión, una sola región
- Clase de almacenamiento: Estándar, Nearline, Coldline y Archive
- Control de acceso: Uniforme o detallado
- Claves de encriptación: Propiedad de Google y administradas por Google, administradas por el cliente o proporcionadas por el cliente
- Política de retención
Recomendaciones de almacenamiento
Usa las siguientes recomendaciones como punto de partida para elegir los servicios y las funciones de almacenamiento que satisfacen tus requisitos. Para obtener orientación específica sobre las cargas de trabajo de IA y AA, consulta Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud.
Las recomendaciones generales de almacenamiento también se presentan como un árbol de decisión más adelante en este documento.
Para las aplicaciones que necesitan un sistema de archivos paralelo, usa Lustre administrado.
Para las aplicaciones que necesitan acceso basado en archivos, elige un servicio de almacenamiento de archivos adecuado en función de tus requisitos de protocolo de acceso, disponibilidad y rendimiento.
Protocolo de acceso Recomendación NFS - Si necesitas disponibilidad regional y un alto rendimiento que se adapte a la capacidad, usa Filestore Regional.
- Si la disponibilidad zonal es suficiente, pero necesitas un alto rendimiento que se ajuste a la capacidad, usa Filestore Zonal o NetApp Volumes Premium o Extreme.
- De lo contrario, usa Filestore básico o NetApp Volumes.
Para obtener información sobre las diferencias entre los niveles de servicio de Filestore, consulta Niveles de servicio.
SMB Usa NetApp Volumes. Para cargas de trabajo que necesiten un almacenamiento principal con alto rendimiento, usa Hyperdisk, SSD local o Persistent Disk según tus requisitos.
Requisito Recomendación Disco para instalación nueva o almacenamiento en caché rápido Usa discos SSD locales (efímeros). Almacenamiento en bloque con rendimiento y capacidad escalables de forma independiente Usa Hyperdisk. Elige un tipo de disco adecuado según tus requisitos:
- Cargas de trabajo de uso general:
hyperdisk-balanced
- Cargas de trabajo con E/S alta, como bases de datos de alto rendimiento:
hyperdisk-extreme
- Análisis de escalamiento horizontal, unidades de datos para apps sensibles a los costos y almacenamiento en frío:
hyperdisk-throughput
- Cargas de trabajo de AA/ML que necesitan un alto rendimiento para varias VMs en modo de solo lectura:
hyperdisk-ml
en modo de solo lectura - Varias VMs dentro de una región con acceso de escritura simultáneo al mismo disco:
hyperdisk-balanced-high-availability
en modo de multiescritura
Para obtener más información, consulta Acerca de Google Cloud Hyperdisk.
Almacenamiento en bloque con capacidad escalable Usa un disco persistente. Elige un tipo de disco adecuado según tus requisitos:
- IOPS secuenciales:
pd-standard
- Cargas de trabajo con muchas IOPS:
pd-extreme
opd-ssd
- Equilibrio entre rendimiento y costo:
pd-balanced
Para obtener más información, consulta Acerca de Persistent Disk.
- Según los requisitos de redundancia, elige entre discos zonales y regionales.
Requisito Recomendación Redundancia dentro de una sola zona en una región Usa Hyperdisk o Persistent Disk zonal. Redundancia en varias zonas dentro de una región Usa Hyperdisk High Availability o Persistent Disk regional.
- Cargas de trabajo de uso general:
Para el almacenamiento a escala ilimitada y disponible a nivel global, usa Cloud Storage.
Elige la clase de Cloud Storage adecuada en función de la frecuencia de acceso a los datos y la duración del almacenamiento.
Requisito Recomendación > La frecuencia de acceso varía o el período de retención de datos es desconocido o no predecible. Usa la función de Autoclass para trasladar de forma automática los objetos en un bucket a las clases de almacenamiento adecuadas según el patrón de acceso de cada objeto. Almacenamiento para los datos a los que se accede con frecuencia, incluidos los data lakes, las estadísticas de alta capacidad de procesamiento, los sitios web, los videos en streaming y las apps para dispositivos móviles. Usa la clase Standard Storage.
Usa Cloud CDN para almacenar en caché los datos a los que se accede con frecuencia y entregarlos desde ubicaciones cercanas a los clientes.
Para las cargas de trabajo con muchas lecturas y cambios de datos poco frecuentes, y lecturas frecuentes (como el entrenamiento, la inferencia y el análisis de AA), puedes mejorar el rendimiento de lectura y reducir los costos de transferencia de datos con Anywhere Cache.
Almacenamiento de bajo costo para datos a los que se accede con poca frecuencia que se pueden almacenar durante al menos 30 días (por ejemplo, copias de seguridad y contenido multimedia de cola larga). Usa la clase de almacenamiento Nearline. Almacenamiento de bajo costo para datos de acceso poco frecuente que se pueden almacenar por al menos 90 días (por ejemplo, recuperación ante desastres) Usa la clase de almacenamiento Coldline. Almacenamiento de menor costo para datos a los que se accede con poca frecuencia que se pueden almacenar por al menos 365 días, incluidos los archivos regulatorios. Usa la clase de almacenamiento Archive. Para obtener un análisis comparativo detallado, consulta Clases de Cloud Storage.
Opciones de transferencia de datos
Una vez que hayas elegido los servicios de almacenamiento de Google Cloud adecuados para implementar y ejecutar cargas de trabajo, debes transferir tus datos a Google Cloud . Google CloudLos datos que necesitas transferir pueden existir de forma local o en otras plataformas en la nube.
Puedes usar los siguientes métodos para transferir datos a Google Cloud:
- Transfiere datos en línea a través de Storage Transfer Service: Automatiza la transferencia de grandes cantidades de datos entre sistemas de almacenamiento de objetos y archivos, incluidos Cloud Storage, Amazon S3, los servicios de almacenamiento de Azure y las fuentes de datos locales.
- Transfiere datos sin conexión a través de Transfer Appliance: Transfiere y carga grandes cantidades de datos sin conexión a Google Cloud en situaciones en las que la conectividad de red y el ancho de banda no están disponibles, son limitados o son costosos.
- Sube datos a Cloud Storage: Sube datos en línea a buckets de Cloud Storage a través de la Google Cloud consola, gcloud CLI, las APIs de Cloud Storage o las bibliotecas cliente.
Cuando elijas un método de transferencia de datos, ten en cuenta factores como el tamaño de los datos, las restricciones de tiempo, la disponibilidad del ancho de banda, los objetivos de costo y los requisitos de seguridad y cumplimiento. Para obtener información sobre la planificación y la implementación de transferencias de datos a Google Cloud, consulta Migra a Google Cloud: Transfiere tus conjuntos de datos grandes.
Árbol de decisión de opciones de almacenamiento
El siguiente árbol de decisión te guiará a través de las recomendaciones de almacenamiento de Google Cloudque se analizaron antes. Para obtener orientación específica sobre las cargas de trabajo de IA y AA, consulta Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud.
Aumentar el tamaño de la imagen
¿Qué sigue?
- Estima el costo de almacenamiento con la calculadora de precios.Google Cloud
- Conoce las prácticas recomendadas a fin de compilar una topología de nube optimizada para la seguridad, la resiliencia, el costo y el rendimiento.
- Obtén más información sobre cómo usar sistemas de archivos paralelos como Lustre para cargas de trabajo de HPC.
Colaboradores
Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
Otros colaboradores:
- Brennan Doyle | Arquitecto de soluciones
- Dean HildeBrand | Director técnico, oficina del director de Tecnología
- Geoffrey Noer | Gerente de productos de grupo
- Jack Zhou | Escritor técnico
- Jason Wu | Director, Administración de productos
- Jeff Allen | Arquitecto de soluciones
- Samantha He | Escritora técnica
- Sean Derrington | Gerente de productos salientes del grupo