Optimizar las cargas de trabajo de IA y aprendizaje automático con Google Cloud Managed Lustre

Last reviewed 2025-08-21 UTC

En este documento se proporciona una arquitectura de referencia que muestra cómo puedes usar Lustre gestionado de Google Cloud para optimizar el rendimiento de las cargas de trabajo de IA y aprendizaje automático que se despliegan en Google Kubernetes Engine (GKE). Esta documentación está dirigida a arquitectos y profesionales técnicos que diseñan, aprovisionan y gestionan el almacenamiento de sus cargas de trabajo de IA en Google Cloud. En este documento se da por hecho que conoces el ciclo de vida, los procesos y las funciones del aprendizaje automático.

Managed Lustre es un sistema de archivos paralelos (PFS) persistente y totalmente gestionado que se basa en EXAScaler Lustre de DDN. Google Cloud Managed Lustre es la solución principal recomendada para las cargas de trabajo de entrenamiento de IA y de puntos de control. Es especialmente eficaz para migrar cargas de trabajo de Lustre u otras soluciones de PFS. Para maximizar el uso de los recursos, las cargas de trabajo que usen Managed Lustre para el entrenamiento también deben usar la misma instancia para el servicio y la inferencia.

Managed Lustre es la solución recomendada para las cargas de trabajo de IA que cumplen los siguientes criterios:

  • Necesitas una capacidad de almacenamiento a escala de PiB.
  • Proporciona acceso con latencia ultrabaja (inferior a un milisegundo) y un alto rendimiento, de hasta 1 TB/s.
  • Proporcionar un alto número de operaciones de entrada/salida por segundo (IOPS).

Managed Lustre ofrece estas ventajas para las cargas de trabajo de IA:

  • Reducción del coste total de propiedad (TCO) de la formación: Lustre gestionado reduce el tiempo de formación al proporcionar datos de forma eficiente a los nodos de cálculo. Esta función ayuda a reducir el coste total de propiedad del entrenamiento de modelos de IA y de aprendizaje automático.
  • Menor coste total de propiedad para el servicio: Managed Lustre ofrece funciones de alto rendimiento que permiten cargar modelos más rápido y optimizar el servicio de inferencia. Estas funciones ayudan a reducir los costes de computación y a mejorar el uso de los recursos.
  • Uso eficiente de los recursos: Managed Lustre te permite combinar la creación de puntos de control y el entrenamiento en una sola instancia. Este recurso compartido ayuda a maximizar el uso eficiente del rendimiento de lectura y escritura en un único sistema de almacenamiento de alto rendimiento.

Arquitectura

En el siguiente diagrama se muestra una arquitectura de ejemplo para usar Lustre gestionado con el fin de optimizar el rendimiento de una carga de trabajo de entrenamiento de modelos y de una carga de trabajo de servicio:

Una arquitectura usa Lustre gestionado para optimizar el rendimiento de una carga de trabajo de entrenamiento de modelos y de una carga de trabajo de servicio.

Las cargas de trabajo que se muestran en la arquitectura anterior se describen en detalle en secciones posteriores. Esta arquitectura incluye los siguientes componentes:

  • Clúster de Google Kubernetes Engine (GKE): GKE gestiona los hosts de computación en los que se ejecutan los procesos de entrenamiento y servicio de tus modelos de IA y aprendizaje automático. GKE gestiona la infraestructura subyacente de los clústeres, incluido el plano de control, los nodos y todos los componentes del sistema.
  • Programador de Kubernetes: el plano de control de GKE programa las cargas de trabajo y gestiona su ciclo de vida, su escalado y sus actualizaciones.
  • Red de nube privada virtual (VPC): todos los recursos de la arquitectura usan una única red de VPC. Google Cloud
  • Cloud Load Balancing: en esta arquitectura, Cloud Load Balancing distribuye de forma eficiente las solicitudes de inferencia entrantes de los usuarios de la aplicación a los contenedores de servicio del clúster de GKE. El uso de Cloud Load Balancing ayuda a garantizar la alta disponibilidad, la escalabilidad y el rendimiento óptimo de la aplicación de IA y aprendizaje automático. Para obtener más información, consulta Información sobre el balanceo de carga de GKE.
  • Unidades de procesamiento gráfico (GPUs) o unidades de procesamiento de tensor (TPUs): las GPUs y las TPUs son aceleradores de aprendizaje automático especializados que mejoran el rendimiento de tu carga de trabajo de IA y aprendizaje automático. Para garantizar una eficiencia y una compatibilidad óptimas, utiliza el mismo tipo de acelerador en toda tu carga de trabajo de IA y aprendizaje automático. Para obtener más información sobre cómo elegir un tipo de procesador adecuado, consulta la sección Opciones de acelerador más adelante en este documento.
  • Managed Lustre: Managed Lustre acelera el entrenamiento y el servicio de la IA y el aprendizaje automático al proporcionar un sistema de archivos paralelo persistente y de alto rendimiento optimizado para ofrecer una latencia baja y un alto rendimiento. En comparación con el uso de Cloud Storage por sí solo, Managed Lustre reduce significativamente el tiempo de entrenamiento y mejora la capacidad de respuesta de los modelos durante el servicio. Estas mejoras se notan especialmente en las cargas de trabajo exigentes que requieren un acceso rápido y constante a los datos compartidos.
  • Cloud Storage FUSE: Cloud Storage FUSE proporciona almacenamiento persistente y rentable para tus cargas de trabajo de IA y aprendizaje automático. Cloud Storage actúa como repositorio central de tus conjuntos de datos de entrenamiento sin procesar, puntos de control de modelos y copias de seguridad de modelos. El uso de Cloud Storage ayuda a garantizar la durabilidad de los datos, la disponibilidad a largo plazo y la rentabilidad de los datos que no se utilizan activamente en los cálculos.

Carga de trabajo de entrenamiento

En la arquitectura anterior, estos son los pasos del flujo de datos durante el entrenamiento del modelo:

  1. Subir datos de entrenamiento a Cloud Storage: sube datos de entrenamiento a un segmento de Cloud Storage, que actúa como repositorio central seguro y escalable, así como fuente de información veraz.
  2. Copia de datos en Managed Lustre: el corpus de datos de entrenamiento se transfiere importando datos a una instancia de Managed Lustre desde Cloud Storage. Al transferir los datos de entrenamiento, puedes aprovechar las funciones del sistema de archivos de alto rendimiento de Managed Lustre para optimizar las velocidades de carga y procesamiento de datos durante el entrenamiento del modelo.
  3. Ejecutar trabajos de entrenamiento en GKE: el proceso de entrenamiento del modelo se ejecuta en nodos de GKE. Si se usa Managed Lustre como fuente de datos en lugar de cargar datos directamente desde Cloud Storage, los nodos de GKE pueden acceder a los datos de entrenamiento y cargarlos con una velocidad significativamente mayor y una latencia más baja. Managed Lustre también reduce el tiempo que tarda en empezar la transferencia del primer byte, medido por el tiempo hasta el primer byte (TTFB). Usar Managed Lustre ayuda a reducir los tiempos de carga de datos y a acelerar el proceso de entrenamiento en general, sobre todo en el caso de los conjuntos de datos grandes que tienen archivos de lectura pequeños y modelos complejos. En función de los requisitos de tu carga de trabajo, puedes usar GPUs o TPUs. Para obtener información sobre cómo elegir un tipo de procesador adecuado, consulta la sección Opciones de acelerador más adelante en este documento.
  4. Guardar puntos de control de entrenamiento en Managed Lustre: durante el proceso de entrenamiento, los puntos de control se guardan en Managed Lustre en función de las métricas o los intervalos que definas. Los puntos de control registran el estado del modelo a intervalos frecuentes. Los puntos de control se pueden exportar a Cloud Storage de forma selectiva para almacenarlos a largo plazo.

Carga de trabajo de servicio

En la arquitectura anterior, estos son los pasos del flujo de datos durante el servicio del modelo:

  1. Cargar el modelo para el servicio: cuando tu modelo esté listo para el despliegue, tus pods de GKE cargarán el modelo entrenado desde tu instancia de Lustre gestionada a los nodos de servicio. Si la instancia de Managed Lustre que has usado durante el entrenamiento tiene suficiente capacidad de IOPS y está en la misma zona que tus aceleradores, puedes usar la misma instancia de Managed Lustre para servir tu modelo. Reutilizar la instancia de Managed Lustre permite compartir recursos de forma eficiente entre el entrenamiento y el servicio. Para mantener un rendimiento y una compatibilidad óptimos, usa el mismo tipo de procesador de GPU o TPU que hayas seleccionado para tus nodos de servicio de GKE.
  2. Solicitud de inferencia: los usuarios de la aplicación envían solicitudes de inferencia a través de los endpoints de servicio. Estas solicitudes se dirigen al servicio Cloud Load Balancing. Cloud Load Balancing distribuye las solicitudes entrantes entre los contenedores de servicio del clúster de GKE. Esta distribución asegura que ningún contenedor se sature y que las solicitudes se procesen de forma eficiente.
  3. Servir solicitudes de inferencia: cuando se recibe una solicitud de inferencia, los nodos de computación acceden al modelo precargado para realizar los cálculos necesarios y generar una predicción.
  4. Entrega de respuestas: los contenedores de servicio envían las respuestas a través de Cloud Load Balancing. Cloud Load Balancing enruta las respuestas a los usuarios de la aplicación correspondientes, lo que completa el ciclo de solicitudes de inferencia.

Productos usados

Esta arquitectura de referencia usa los siguientes Google Cloud productos:

  • Nube privada virtual (VPC): un sistema virtual que proporciona funciones de red globales y escalables para tus Google Cloud cargas de trabajo. VPC incluye el intercambio de tráfico entre redes de VPC, Private Service Connect, el acceso a servicios privados y la VPC compartida.
  • Cloud Load Balancing: una cartera de balanceadores de carga de alto rendimiento, escalables, globales y regionales.
  • Google Kubernetes Engine (GKE): un servicio de Kubernetes que puedes usar para desplegar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
  • Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
  • Managed Lustre de Google Cloud: un sistema de archivos paralelos totalmente gestionado para aplicaciones de IA, computación de alto rendimiento (HPC) y uso intensivo de datos.

Casos prácticos

Managed Lustre es ideal para las cargas de trabajo de IA que necesitan una capacidad de almacenamiento de escala de petabytes y que deben proporcionar acceso de baja latencia (menos de un milisegundo) con un alto rendimiento y un número elevado de IOPS. En esta sección se incluyen ejemplos de casos prácticos en los que puedes usar Managed Lustre.

Procesamiento y generación de texto

Los LLMs son modelos de IA especializados que se han diseñado específicamente para comprender y procesar datos basados en texto. Los LLMs se entrenan con conjuntos de datos de texto masivos, lo que les permite realizar diversas tareas, como la traducción automática, la respuesta a preguntas y el resumen de textos. Para facilitar el entrenamiento eficiente y el procesamiento por lotes, tu LLM necesita un acceso de baja latencia a los conjuntos de datos. Managed Lustre destaca en las aplicaciones que requieren muchos datos, ya que proporciona el alto rendimiento y la baja latencia necesarios tanto para el entrenamiento como para la inferencia, lo que da como resultado aplicaciones basadas en LLMs más rápidas.

Procesamiento de imágenes o vídeos de alta resolución

Las aplicaciones tradicionales de IA y aprendizaje automático, o los modelos generativos multimodales que procesan imágenes o vídeos de alta resolución, como los análisis de imágenes médicas o los sistemas de conducción autónoma, requieren una gran capacidad de almacenamiento y un acceso rápido a los datos. Managed Lustre proporciona un sistema de archivos persistente de alto rendimiento que permite cargar datos rápidamente para acelerar el rendimiento de las aplicaciones. Por ejemplo, Managed Lustre puede almacenar grandes volúmenes de datos de pacientes, como resonancias magnéticas y tomografías computarizadas, y puede facilitar la carga rápida de datos en nodos de computación para entrenar modelos. Esta función permite que los modelos de IA y aprendizaje automático analicen rápidamente los datos para hacer diagnósticos y tratamientos.

Alternativas de diseño

En esta sección se presentan enfoques de diseño alternativos que puedes tener en cuenta para tu aplicación de IA y aprendizaje automático en Google Cloud.

Alternativa de infraestructura de computación

La arquitectura de referencia de este documento usa GKE para las cargas de trabajo de IA y aprendizaje automático. En función de los requisitos de tu carga de trabajo, también puedes desplegar instancias de Lustre gestionadas en Compute Engine con Slurm. Recomendamos este enfoque si necesitas integrar propiedad intelectual de IA privada en un entorno escalable y si necesitas flexibilidad y control para optimizar el rendimiento de cargas de trabajo especializadas.

Compute Engine te permite tener un control más granular sobre el sistema operativo en comparación con GKE. Cuando usas Compute Engine, puedes hacer lo siguiente:

  • Seleccionar, configurar y gestionar el entorno del SO de sus máquinas virtuales para cumplir requisitos específicos de las cargas de trabajo.
  • Adapta tu infraestructura a tus necesidades exactas, incluida la selección de tipos de máquinas virtuales específicos.
  • Usa la familia de máquinas optimizadas para aceleradores para mejorar el rendimiento de tus cargas de trabajo de IA.

Slurm es un gestor de cargas de trabajo y recursos de código abierto altamente configurable. Slurm ofrece una opción potente para gestionar cargas de trabajo de IA y te permite controlar la configuración y la gestión de los recursos de computación. Para usar este método, debes tener experiencia en la administración de Slurm y en la gestión de sistemas Linux. GKE proporciona un entorno de Kubernetes gestionado que automatiza la gestión de clústeres.

Para obtener información sobre cómo desplegar Slurm, consulta Desplegar un clúster de HPC con Slurm. También puedes implementar Cluster Toolkit con el plano de inicio de Managed Lustre.

Opciones de acelerador

Los aceleradores de aprendizaje automático son procesadores especializados diseñados para acelerar los cálculos necesarios para las cargas de trabajo de IA y aprendizaje automático. Puedes elegir entre GPUs o TPUs.

  • Los aceleradores de GPU ofrecen un rendimiento excelente para una amplia gama de tareas, como el renderizado de gráficos, el entrenamiento de aprendizaje profundo y la computación científica. Google Cloud tiene una amplia selección de GPUs para adaptarse a diferentes necesidades de rendimiento y presupuestos. Para obtener información sobre los modelos y los precios de las GPUs, consulta la página Precios de las GPUs.
  • Las TPUs son aceleradores de IA diseñados a medida y optimizados para el entrenamiento y la inferencia de modelos de IA grandes. Las TPUs son ideales para una amplia gama de casos prácticos, como bots de chat, generación de código, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones o modelos de personalización. Para obtener más información sobre los modelos y los precios de las TPU, consulta la página Precios de las TPU.

Alternativas de almacenamiento

Cloud Storage FUSE con Anywhere Cache se puede usar para cargas de trabajo de entrenamiento, creación de puntos de control y servicio. Cloud Storage FUSE con Anywhere Cache es la solución de almacenamiento recomendada para el servicio y la inferencia debido a su menor coste y a la facilidad de la inferencia multirregional en comparación con Managed Lustre. Para asegurar el mayor nivel de disponibilidad posible, usa Cloud Storage FUSE con Anywhere Cache y un segmento multirregional o birregional. Con esta configuración, los modelos de IA entrenados estarán disponibles en varias regiones. Sin embargo, en comparación con las instancias de Lustre gestionadas, Cloud Storage FUSE puede tener un rendimiento por máquina virtual más bajo. Para obtener más información, consulta el artículo Optimizar cargas de trabajo de IA y aprendizaje automático con Cloud Storage FUSE.

Factores del diseño

Para diseñar una implementación de Managed Lustre que optimice la seguridad, la fiabilidad, los costes, las operaciones y el rendimiento de tus cargas de trabajo de IA y aprendizaje automático en Google Cloud, sigue las directrices de las secciones siguientes.

Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos de las cargas de trabajo de IA y aprendizaje automático en Google Cloud, consulta la sección Perspectiva de IA y aprendizaje automático del framework Well-Architected.

Seguridad, privacidad y cumplimiento

En esta sección se describen las consideraciones para tus cargas de trabajo de IA y aprendizaje automático que cumplan tus requisitos de seguridad, privacidad y cumplimiento.Google Cloud

Seguridad de SSH

Para facilitar el control de acceso mejorado a las aplicaciones que se ejecutan en GKE, puedes usar Identity-Aware Proxy (IAP). IAP se integra con el recurso Ingress de GKE y ayuda a verificar que solo los usuarios autenticados con el rol de gestión de identidades y accesos (IAM) correcto puedan acceder a las aplicaciones. Para obtener más información, consulta Habilitar IAP para GKE y Control de acceso con IAM.

Encriptado de datos

De forma predeterminada, tus datos en GKE, incluidos los datos almacenados en tu instancia de Lustre gestionada, se encriptan en reposo y en tránsito mediante Google-owned and Google-managed encryption keys. Para añadir una capa de seguridad adicional a los datos sensibles, puedes cifrar los datos en la capa de aplicación con una clave que sea de tu propiedad y que gestiones con Cloud Key Management Service (Cloud KMS). Para obtener más información, consulta Encriptar secretos en la capa de aplicación.

Si usas un clúster Estándar de GKE, puedes usar las siguientes funciones de cifrado de datos adicionales:

Aislamiento de datos

Para mejorar la seguridad y la protección de datos, almacena los datos de entrenamiento en una instancia de Lustre gestionada independiente de los puntos de control y los modelos entrenados. El uso de instancias de almacenamiento independientes proporciona aislamiento del rendimiento, mejora la seguridad al aislar los datos de entrenamiento y mejora la protección de los datos. Aunque las listas de control de acceso te permiten gestionar la seguridad en una sola instancia, usar instancias independientes proporciona un límite de seguridad más sólido.

Más consideraciones sobre seguridad

En el modo de funcionamiento Autopilot, GKE preconfigura tu clúster y gestiona los nodos según las prácticas recomendadas de seguridad, lo que te permite centrarte en la seguridad específica de la carga de trabajo. Para obtener más información, consulta las funciones de seguridad de Autopilot de GKE y el artículo Seguridad de Kubernetes lista para usar con Autopilot de GKE.

Para obtener información sobre cómo proteger la privacidad de tus datos, consulta la descripción general de Protección de Datos Sensibles y el artículo sobre cómo inspeccionar Google Cloud el almacenamiento y las bases de datos en busca de datos sensibles.

Para consultar principios y recomendaciones de seguridad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta la sección Perspectiva de IA y aprendizaje automático: seguridad del framework Well-Architected.

Fiabilidad

En esta sección se describen los factores de diseño que debes tener en cuenta al usar esta arquitectura de referencia para crear y operar una infraestructura fiable para tu implementación regional en Google Cloud.

Robustez frente a las interrupciones de la infraestructura

Con el modo de funcionamiento Autopilot que se usa en esta arquitectura, GKE ofrece las siguientes funciones de fiabilidad integradas:

  • Tu carga de trabajo usa un clúster de GKE regional. El plano de control y los nodos de trabajo se distribuyen en tres zonas diferentes de una región. Tus cargas de trabajo son sólidas frente a las interrupciones de zonas. Los clústeres de GKE regionales tienen un acuerdo de nivel de servicio (SLA) con un tiempo de actividad superior al de los clústeres de zona.
  • No es necesario crear nodos ni gestionar grupos de nodos. GKE crea automáticamente los grupos de nodos y los escala automáticamente en función de los requisitos de tus cargas de trabajo.

Para aumentar la disponibilidad de tu aplicación, puedes servirla desde varias zonas desplegando una instancia de Managed Lustre en cada zona.

Planificación de la capacidad del clúster

Para asegurarte de que haya suficiente capacidad de GPU disponible cuando sea necesario para escalar automáticamente el clúster de GKE, puedes crear y usar reservas. Una reserva proporciona capacidad asegurada en una zona específica para un recurso concreto. Una reserva puede ser específica de un proyecto o compartirse entre varios proyectos. Se te aplican cargos por los recursos reservados aunque no se aprovisionen ni se usen. Para obtener más información, consulta el artículo sobre cómo consumir recursos de zona reservados.

Durabilidad de los datos

Para crear copias de seguridad de las cargas de trabajo en GKE y restaurarlas, habilita Copia de seguridad de GKE en cada clúster. Copia de seguridad de GKE es útil para la recuperación tras fallos, los flujos de procesamiento de CI/CD, la clonación de cargas de trabajo y las situaciones de actualización.

Puedes seleccionar cargas de trabajo específicas o todas las cargas de trabajo de las que quieras crear copias de seguridad y restaurarlas. También puedes crear copias de seguridad de cargas de trabajo de un clúster y restaurarlas en otro. Para reducir el tiempo de inactividad de las cargas de trabajo, puedes programar las copias de seguridad para que se ejecuten automáticamente y así poder recuperar rápidamente las cargas de trabajo en caso de que se produzca un incidente.

Más consideraciones sobre la fiabilidad

Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de la fiabilidad de la IA y el aprendizaje automático del framework Well-Architected.

Optimización de costes

En esta sección se ofrecen directrices para ayudarte a optimizar el coste de configurar y operar tu flujo de trabajo de IA y aprendizaje automático en Google Cloud.

Niveles de rendimiento de Managed Lustre

Cuando creas una instancia de Managed Lustre, debes seleccionar un nivel de rendimiento. Elige un nivel adecuado en función de los requisitos de rendimiento y coste de tu carga de trabajo.

Modelo de aprovisionamiento de nodos

En el modo Autopilot, GKE optimiza la eficiencia de la infraestructura de tu clúster en función de los requisitos de las cargas de trabajo. Para controlar los costes, no es necesario que monitorices constantemente la utilización de los recursos ni que gestiones la capacidad.

Si puedes predecir el uso de CPU, memoria y almacenamiento efímero de tu clúster de Autopilot, puedes obtener descuentos por compromiso de uso. Para reducir el coste de ejecutar tu aplicación, puedes usar máquinas virtuales de acceso puntual para tus nodos de GKE. Las máquinas virtuales de acceso puntual tienen un precio más bajo que las máquinas virtuales estándar, pero no ofrecen ninguna garantía de disponibilidad.

Gestión de recursos

Para optimizar los costes y el rendimiento mediante una gestión eficiente, usa Dynamic Workload Scheduler. Dynamic Workload Scheduler es un gestor de recursos y un programador de trabajos que te ayuda a mejorar el acceso a los aceleradores de IA (GPUs y TPUs). Dynamic Workload Scheduler programa todos tus aceleradores simultáneamente y puede ejecutarse durante las horas de menor actividad con una gestión de la capacidad de los aceleradores definida. Al programar los trabajos de forma estratégica, Dynamic Workload Scheduler ayuda a maximizar el uso de los aceleradores, reducir el tiempo de inactividad y optimizar el gasto en la nube.

Uso de recursos

Para maximizar la utilización de los recursos, usa una instancia de Managed Lustre para el entrenamiento y el servicio. Consolidar las cargas de trabajo de entrenamiento y de servicio en una sola instancia de Lustre gestionada minimiza los costes, ya que se elimina la infraestructura redundante y se simplifica la gestión de recursos. Sin embargo, puede haber una contención de recursos si ambas cargas de trabajo tienen una demanda de rendimiento alta. Si hay IOPS de repuesto disponibles después del entrenamiento, usar la misma instancia puede acelerar la carga del modelo para el servicio. Usa Cloud Monitoring para verificar que asignas suficientes recursos para satisfacer tus necesidades de rendimiento.

Para minimizar los costes de almacenamiento, exporta los datos de tu instancia de Lustre gestionada a una clase de Cloud Storage de menor coste después del entrenamiento y la creación de puntos de control. Al exportar tus datos a Cloud Storage, también puedes destruir y volver a crear instancias de Lustre gestionado según sea necesario para tu carga de trabajo.

Para controlar los costes de tu cubo de Cloud Storage, habilita la gestión del ciclo de vida de los objetos o Autoclass. La gestión del ciclo de vida de los objetos mueve automáticamente los datos más antiguos o menos utilizados a clases de almacenamiento menos caras o los elimina, en función de las reglas que definas. Autoclass mueve los datos entre clases de almacenamiento en función de tus patrones de acceso. Usar la gestión del ciclo de vida de los objetos o Autoclass te ayuda a asegurarte de que tus datos se almacenan en la clase de almacenamiento más rentable, ya que minimiza los gastos y te ayuda a evitar tarifas de recuperación inesperadas.

Más consideraciones sobre los costes

Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected. Para obtener información sobre cómo optimizar los costes en GKE, consulta las prácticas recomendadas para ejecutar aplicaciones de Kubernetes de coste optimizado en GKE.

Excelencia operativa

En esta sección se ofrecen directrices para ayudarle a diseñar una infraestructura para su flujo de trabajo de IA y aprendizaje automático que pueda gestionar de forma eficiente.

Gestión de modelos

Para monitorizar y gestionar los artefactos de los modelos, incluidos los binarios y los metadatos, usa Vertex AI Model Registry, que te permite almacenar, organizar y desplegar versiones de modelos sin problemas.

Para optimizar la fiabilidad de los modelos, implementa Vertex AI Model Monitoring para detectar la deriva de los datos, hacer un seguimiento del rendimiento e identificar anomalías en producción.

Autoescalado de clústeres de GKE

Con los clústeres Autopilot, no tienes que aprovisionar ni gestionar grupos de nodos. Los grupos de nodos se aprovisionan automáticamente mediante el aprovisionamiento automático de nodos y se escalan automáticamente para satisfacer los requisitos de tus cargas de trabajo.

En los clústeres Estándar de GKE, la herramienta de ajuste automático de escala de clústeres cambia automáticamente el tamaño del número de nodos de un grupo de nodos en función de las demandas de las cargas de trabajo. Para controlar el comportamiento del autoescalado del autoescalador de clústeres, puedes especificar un tamaño mínimo y máximo para el grupo de nodos.

Cuando uses el autoescalador de clústeres de GKE, no habilites el autoescalado de Compute Engine para los grupos de instancias gestionadas (MIGs) de los nodos del clúster. El escalador automático de clústeres de GKE es independiente del escalador automático de Compute Engine. El autoescalador de clústeres de GKE se ha diseñado para escalar tu carga de trabajo analizando la utilización de recursos en tu clúster de GKE, incluidos los MIGs subyacentes. Si usas ambas herramientas de ajuste automático, pueden surgir conflictos en las decisiones de escalado. Para obtener más información, consulta Acerca del autoescalado de clústeres de GKE.

Monitorización de métricas

Para identificar los cuellos de botella, monitoriza métricas clave como la latencia, la tasa de errores y el uso de recursos con Cloud Monitoring. Cloud Monitoring ofrece visibilidad en tiempo real para monitorizar los patrones de uso de los recursos e identificar posibles ineficiencias.

Gestión del almacenamiento

Para automatizar la gestión de datos en función del uso de tu segmento de Cloud Storage, habilita la gestión del ciclo de vida de los objetos o Autoclass. La gestión del ciclo de vida de los objetos mueve automáticamente los datos más antiguos o menos utilizados a clases de almacenamiento más económicas o los elimina, en función de las reglas que definas. Autoclass mueve los datos entre clases de almacenamiento en función de tus patrones de acceso. Usar la gestión del ciclo de vida de los objetos o Autoclass ayuda a asegurar que las políticas se apliquen de forma coherente en toda la infraestructura de almacenamiento y a reducir los posibles errores humanos, lo que proporciona un mejor rendimiento y ahorros de costes sin necesidad de intervención manual.

Más consideraciones operativas

Para consultar los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: excelencia operativa del framework Well-Architected.

Optimización del rendimiento

En esta sección se ofrecen directrices para ayudarte a optimizar el rendimiento de tu flujo de trabajo de IA y aprendizaje automático en Google Cloud. Las directrices de esta sección no son exhaustivas. Para obtener más información sobre cómo optimizar el rendimiento de tu entorno de Google Cloud Managed Lustre, consulta Consideraciones sobre el rendimiento.

Consideraciones sobre la formación

Cada máquina virtual A3 o A4 puede ofrecer 20 GB/s, aproximadamente 2,5 GB/s por GPU, desde una instancia de Lustre gestionada. Antes de que empiece el entrenamiento, los datos de entrenamiento se deben prefetch desde Cloud Storage y importar a Lustre gestionado para minimizar la latencia durante el entrenamiento. Para maximizar el rendimiento de tu carga de trabajo de entrenamiento, aprovisiona tu instancia de Managed Lustre para que se ajuste a tus necesidades de rendimiento y capacidad de almacenamiento. Por ejemplo, una instancia de Lustre gestionada de 20 TiB proporciona un rendimiento agregado de entre 2,5 GB/s y 20 GB/s en todos los clientes, en función del nivel de rendimiento seleccionado. Si tu entrenamiento requiere un mayor rendimiento, tendrás que aumentar el tamaño de tu instancia de Managed Lustre en consecuencia.

Consideraciones sobre los puntos de control

Para aprovechar el alto rendimiento de escritura que ofrece Managed Lustre y minimizar el tiempo de entrenamiento, usa Managed Lustre tanto para el entrenamiento como para la creación de puntos de control. Este enfoque ayuda a utilizar los recursos de forma eficiente y a reducir el coste total de propiedad de los recursos de GPU, ya que tanto el entrenamiento como la creación de puntos de control se realizan lo más rápido posible. Para conseguir puntos de control rápidos, puedes ejecutar puntos de control distribuidos y asíncronos. Como Managed Lustre es persistente, puedes almacenar tus puntos de control en la misma instancia. Para optimizar los costes y el almacenamiento a largo plazo, puedes exportar los puntos de control a un segmento de Cloud Storage.

Consideraciones sobre la publicación

Para conseguir un rendimiento óptimo durante el servicio, debe minimizar el tiempo que se tarda en cargar los modelos en la memoria. Managed Lustre ofrece un alto rendimiento por VM de más de 20 GB/s, lo que proporciona un alto rendimiento agregado del clúster. Esta función puede ayudarte a minimizar los tiempos de carga de los modelos en miles de máquinas virtuales. Para monitorizar las métricas clave que te permiten identificar cuellos de botella, usa Cloud Monitoring y comprueba que despliegas la capacidad suficiente, ya que el rendimiento aumenta con la capacidad de almacenamiento.

Ubicación de recursos

Para minimizar la latencia y maximizar el rendimiento, crea tu instancia de Lustre gestionada en una región que esté geográficamente cerca de tus clientes de computación de GPU o TPU. En la arquitectura de referencia que se describe en este documento, los contenedores y el sistema de archivos de GKE se colocan en la misma zona.

  • Para el entrenamiento y la creación de puntos de control: para obtener resultados óptimos, implementa los clientes y las instancias de Lustre gestionadas en la misma zona. Esta colocación minimiza los tiempos de transferencia de datos y maximiza el uso del rendimiento de escritura de Lustre gestionado.
  • Para el servicio: aunque lo ideal es que los clientes de computación y los de Lustre gestionado estén en la misma zona, puede ser suficiente con tener una instancia de Lustre gestionado por región. De esta forma, se evitan los costes adicionales asociados a la implementación de varias instancias y se maximiza el rendimiento de los recursos de computación. Sin embargo, si necesitas más capacidad o rendimiento, puedes desplegar más de una instancia por región.

Para obtener información sobre las regiones y zonas admitidas para las instancias de Lustre gestionado, consulta Ubicaciones admitidas.

Más consideraciones sobre el rendimiento

Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulte el artículo Perspectiva de la IA y el aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.

Implementación

Para crear y montar una instancia de Lustre gestionada, te recomendamos que uses el módulo Lustre gestionado, que está disponible en Cluster Toolkit. Cluster Toolkit es un kit de herramientas modular basado en Terraform que se ha diseñado para desplegar entornos de IA y aprendizaje automático repetibles enGoogle Cloud.

Para obtener información sobre cómo desplegar manualmente Managed Lustre en GKE, consulta los artículos Crear una instancia de Managed Lustre y Conectarse a una instancia de Managed Lustre desde Google Kubernetes Engine.

Para obtener información sobre cómo configurar una red de VPC para Lustre gestionado, consulta Configurar una red de VPC.

Siguientes pasos

Colaboradores

Autor: Samantha He | Redactora técnica

Otros colaboradores: