Optimiza las cargas de trabajo de IA y AA con Managed Lustre de Google Cloud

Last reviewed 2025-06-02 UTC

En este documento, se proporciona una arquitectura de referencia que muestra cómo puedes usar Google Cloud Managed Lustre para optimizar el rendimiento de las cargas de trabajo de IA y AA que se implementan en Google Kubernetes Engine (GKE). El público previsto para este documento incluye arquitectos y profesionales técnicos que diseñan, aprovisionan y administran el almacenamiento para sus cargas de trabajo de IA en Google Cloud. En este documento, se supone que comprendes el ciclo de vida, los procesos y las capacidades del AA.

Lustre administrado es un sistema de archivos en paralelo persistente y completamente Google Cloudadministrado que se basa en EXAScaler Lustre de DDN. Managed Lustre es ideal para las cargas de trabajo de IA que cumplen con los siguientes criterios:

  • Requieren hasta 8 PiB de capacidad de almacenamiento.
  • Proporciona acceso de latencia ultrabaja (menos de un milisegundo) con una capacidad de procesamiento alta, de hasta 1 TB/s.
  • Proporcionan una gran cantidad de operaciones de entrada y salida por segundo (IOPS).

Managed Lustre ofrece las siguientes ventajas para las cargas de trabajo de IA:

  • Menor costo total de propiedad (TCO) para el entrenamiento: Lustre administrado reduce el tiempo de entrenamiento, ya que entrega datos de manera eficiente a los nodos de procesamiento. Esta funcionalidad ayuda a reducir el costo total de propiedad del entrenamiento de modelos de IA y AA.
  • Menor TCO para la entrega: Lustre administrado proporciona capacidades de alto rendimiento que permiten una carga de modelos más rápida y una entrega de inferencia optimizada. Estas capacidades ayudan a reducir los costos de procesamiento y a mejorar el uso de los recursos.
  • Uso eficiente de recursos: Managed Lustre te permite combinar la creación de puntos de control y el entrenamiento en una sola instancia. Este uso compartido de recursos ayuda a maximizar el uso eficiente de la capacidad de procesamiento de lectura y escritura en un solo sistema de almacenamiento de alto rendimiento.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura de ejemplo para usar Lustre administrado y optimizar el rendimiento de una carga de trabajo de entrenamiento de modelos y una carga de trabajo de entrega:

Una arquitectura usa Lustre administrado para optimizar el rendimiento de una carga de trabajo de entrenamiento de modelos y una carga de trabajo de entrega.

Las cargas de trabajo que se muestran en la arquitectura anterior se describen en detalle en secciones posteriores. Esta arquitectura incluye los siguientes componentes:

  • Clúster de Google Kubernetes Engine: GKE administra los hosts de procesamiento en los que se ejecutan los procesos de entrenamiento y servicio de tu modelo de IA y AA. GKE administra la infraestructura subyacente de los clústeres, incluido el plano de control, los nodos y todos los componentes del sistema.
  • Programador de Kubernetes: El plano de control de GKE programa cargas de trabajo y administra su ciclo de vida, escalamiento y actualizaciones.
  • Red de nube privada virtual (VPC): Todos los recursos de Google Cloud que se encuentran en la arquitectura usan una sola red de VPC.
  • Cloud Load Balancing: En esta arquitectura, Cloud Load Balancing distribuye de manera eficiente las solicitudes de inferencia entrantes de los usuarios de la aplicación a los contenedores de entrega en el clúster de GKE. El uso de Cloud Load Balancing ayuda a garantizar la alta disponibilidad, la escalabilidad y el rendimiento óptimo de la aplicación de IA y AA. Para obtener más información, consulta Información sobre el balanceo de cargas de GKE.
  • Unidades de procesamiento gráfico (GPU) o unidades de procesamiento tensorial (TPU): Las GPU y las TPU son aceleradores de máquinas especializados que mejoran el rendimiento de tu carga de trabajo de IA y AA. Para garantizar una eficiencia y compatibilidad óptimas, usa el mismo tipo de acelerador para toda tu carga de trabajo de IA y AA. Para obtener más información sobre cómo elegir un tipo de procesador adecuado, consulta Opciones de aceleradores más adelante en este documento.
  • Managed Lustre: Managed Lustre acelera el entrenamiento y la entrega de IA y AA, ya que proporciona un sistema de archivos paralelos de alto rendimiento que está optimizado para una baja latencia y una alta capacidad de procesamiento. En comparación con el uso exclusivo de Cloud Storage, el uso de Lustre administrado reduce significativamente el tiempo de entrenamiento y mejora la capacidad de respuesta de tus modelos durante la entrega. Estas mejoras se perciben especialmente en cargas de trabajo exigentes que requieren un acceso rápido y coherente a los datos compartidos.
  • Cloud Storage FUSE: Cloud Storage FUSE proporciona almacenamiento persistente y rentable para tus cargas de trabajo de AA y AA. Cloud Storage sirve como repositorio central para tus conjuntos de datos de entrenamiento sin procesar, los puntos de control del modelo y las copias de seguridad del modelo. El uso de Cloud Storage ayuda a garantizar la durabilidad de los datos, la disponibilidad a largo plazo y la rentabilidad de los datos que no se usan de forma activa en los cálculos.

Carga de trabajo de entrenamiento

En la arquitectura anterior, los siguientes son los pasos del flujo de datos durante el entrenamiento del modelo:

  1. Sube datos de entrenamiento a Cloud Storage: Subes datos de entrenamiento a un bucket de Cloud Storage, que funciona como un repositorio central seguro y escalable, y como fuente de verdad.
  2. Copiar datos a Lustre administrado: El corpus de datos de entrenamiento se transfiere a través de una API para importar datos a una instancia de Lustre administrado desde Cloud Storage. La transferencia de los datos de entrenamiento te permite aprovechar las capacidades del sistema de archivos de alto rendimiento de Managed Lustre para optimizar las velocidades de carga y procesamiento de datos durante el entrenamiento del modelo.
  3. Ejecuta trabajos de entrenamiento en GKE: El proceso de entrenamiento de modelos se ejecuta en nodos de GKE. Si usas Managed Lustre como fuente de datos en lugar de cargar datos directamente desde Cloud Storage, los nodos de GKE pueden acceder a los datos de entrenamiento y cargarlos con una velocidad significativamente mayor y una latencia más baja. Managed Lustre también permite que el tiempo para que comience la transferencia del primer byte sea más corto, según lo medido por el tiempo hasta el primer byte (TTFB). El uso de Lustre administrado ayuda a reducir los tiempos de carga de datos y a acelerar el proceso de entrenamiento general, en especial para los conjuntos de datos grandes que tienen archivos de lectura pequeños y modelos complejos. Según los requisitos de tu carga de trabajo, puedes usar GPU o TPU. Para obtener información sobre cómo elegir un tipo de procesador adecuado, consulta Opciones de aceleradores más adelante en este documento.
  4. Guarda puntos de control de entrenamiento en Managed Lustre: Durante el proceso de entrenamiento, los puntos de control se guardan en Managed Lustre según las métricas o los intervalos que definas. Los puntos de control capturan el estado del modelo a intervalos frecuentes.

Carga de trabajo de entrega

En la arquitectura anterior, los siguientes son los pasos del flujo de datos durante la publicación del modelo:

  1. Carga el modelo para la entrega: Cuando tu modelo esté listo para la implementación, tus Pods de GKE cargarán el modelo entrenado desde tu instancia de Lustre administrada a los nodos de entrega. Si la instancia de Lustre administrada que usaste durante el entrenamiento tiene suficiente capacidad de IOPS y se encuentra en la misma zona que tus aceleradores, puedes usar la misma instancia de Lustre administrada para entregar tu modelo. La reutilización de la instancia de Managed Lustre permite compartir recursos de manera eficiente entre el entrenamiento y la entrega. Para mantener un rendimiento y una compatibilidad óptimos, usa el mismo tipo de procesador de GPU o TPU que seleccionaste para tus nodos de GKE de procesamiento.
  2. Solicitud de inferencia: Los usuarios de la aplicación envían solicitudes de inferencia a través de los extremos de entrega. Estas solicitudes se dirigen al servicio de Cloud Load Balancing. Cloud Load Balancing distribuye las solicitudes entrantes entre los contenedores de procesamiento del clúster de GKE. Esta distribución garantiza que ningún contenedor individual se vea sobrecargado y que las solicitudes se procesen de manera eficiente.
  3. Entrega de solicitudes de inferencia: Cuando se recibe una solicitud de inferencia, los nodos de procesamiento acceden al modelo precargado para realizar los cálculos necesarios y generar una predicción.
  4. Entrega de respuestas: Los contenedores de entrega envían las respuestas a través de Cloud Load Balancing. Cloud Load Balancing enruta las respuestas a los usuarios de la aplicación correspondientes, lo que completa el ciclo de solicitudes de inferencia.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos Google Cloud :

  • Nube privada virtual (VPC): Es un sistema virtual que proporciona funcionalidad de red global y escalable para tus cargas de trabajo de Google Cloud . La VPC incluye el intercambio de tráfico entre redes de VPC, Private Service Connect, el acceso privado a servicios y la VPC compartida.
  • Google Kubernetes Engine (GKE): Un servicio de Kubernetes que puedes usar para implementar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
  • Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
  • Google Cloud Managed Lustre: Es un sistema de archivos paralelos completamente administrado para aplicaciones de IA, computación de alto rendimiento (HPC) y uso intensivo de datos.

Casos de uso

Managed Lustre es ideal para las cargas de trabajo de IA que necesitan hasta 1 PiB de capacidad de almacenamiento y que deben proporcionar acceso de baja latencia (menos de un milisegundo) con alta capacidad de procesamiento y IOPS altas. En esta sección, se proporcionan ejemplos de casos de uso para los que puedes usar Managed Lustre.

Procesamiento y generación de texto

Los LLM son modelos de IA especializados diseñados específicamente para comprender y procesar datos basados en texto. Los LLM se entrenan con enormes conjuntos de datos de texto, lo que les permite realizar una variedad de tareas, como la traducción automática, la respuesta a preguntas y el resumen de textos. Para facilitar el entrenamiento eficiente y el procesamiento por lotes, tu LLM necesita acceso de baja latencia a los conjuntos de datos. Managed Lustre se destaca en las aplicaciones que consumen muchos datos, ya que proporciona la alta capacidad de procesamiento y la baja latencia que se necesitan tanto para el entrenamiento como para la inferencia, lo que genera aplicaciones potenciadas por LLM más responsivas.

Procesamiento de imágenes o videos de alta resolución

Las aplicaciones tradicionales de IA y AA, o los modelos generativos multimodales que procesan imágenes o videos de alta resolución, como el análisis de imágenes médicas o los sistemas de conducción autónoma, requieren una gran capacidad de almacenamiento y un acceso rápido a los datos. Managed Lustre proporciona un sistema de archivos persistente de alto rendimiento que permite cargar datos rápidamente para acelerar el rendimiento de la aplicación. Por ejemplo, Managed Lustre puede almacenar grandes volúmenes de datos de pacientes, como resonancias magnéticas y tomografías computarizadas, y puede facilitar la carga rápida de datos en los nodos de procesamiento para el entrenamiento de modelos. Esta funcionalidad permite que los modelos de IA y AA analicen rápidamente los datos para el diagnóstico y el tratamiento.

Alternativas de diseño

En esta sección, se presentan enfoques de diseño alternativos que puedes considerar para tu aplicación de IA y AA en Google Cloud.

Alternativa de infraestructura de procesamiento

La arquitectura de referencia de este documento usa GKE para las cargas de trabajo de IA y AA. Según los requisitos de tu carga de trabajo, también puedes implementar instancias de Lustre administrado en Compute Engine con Slurm. Recomendamos este enfoque si necesitas integrar propiedad intelectual (PI) de IA patentada en un entorno escalable y si necesitas flexibilidad y control para optimizar el rendimiento de cargas de trabajo especializadas.

Compute Engine te permite tener un control más detallado sobre el sistema operativo en comparación con GKE. Cuando usas Compute Engine, puedes hacer lo siguiente:

  • Seleccionar, configurar y administrar el entorno del SO dentro de sus máquinas virtuales para satisfacer los requisitos específicos de la carga de trabajo
  • Adapta tu infraestructura a tus necesidades exactas, incluida la selección de tipos de máquinas de VM específicos.
  • Usa la familia de máquinas con optimización de acelerador para mejorar el rendimiento de tus cargas de trabajo de IA.

Slurm es un administrador de recursos y cargas de trabajo de código abierto altamente configurable. Slurm ofrece una opción potente para administrar cargas de trabajo de IA y te permite controlar la configuración y la administración de los recursos de procesamiento. Para usar este enfoque, necesitas experiencia en la administración de Slurm y en la administración de sistemas Linux. GKE proporciona un entorno de Kubernetes administrado que automatiza la administración de clústeres.

Para obtener información sobre la implementación de Slurm, consulta Implementa un clúster de HPC con Slurm. También puedes realizar la implementación con Cluster Toolkit y el modelo de inicio de Managed Lustre.

Opciones de acelerador

Los aceleradores de máquinas son procesadores especializados diseñados para acelerar los cálculos necesarios para las cargas de trabajo de IA y AA. Puedes elegir entre GPUs o TPUs.

  • Los aceleradores de GPU proporcionan un excelente rendimiento para una amplia variedad de tareas, como la renderización de gráficos, el entrenamiento de aprendizaje profundo y la computación científica. Google Cloud tiene una amplia selección de GPUs para todo tipo de precios y necesidades de rendimiento. Para obtener información sobre los modelos y precios de GPU, consulta Precios de GPU.
  • Las TPU son aceleradores de IA con diseño personalizado que están optimizados para el entrenamiento y la inferencia de grandes modelos de IA. Las TPU son ideales para una variedad de casos de uso, como chatbots, generación de código, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones y modelos de personalización. Para obtener más información sobre los modelos y precios de TPU, consulta Precios de TPU.

Alternativas de almacenamiento para la publicación

Para garantizar el nivel más alto de disponibilidad, usa Cloud Storage FUSE con Anywhere Cache y un bucket birregional o multirregional. Esta configuración hace que tus modelos de IA entrenados estén disponibles en varias regiones. Sin embargo, en comparación con las instancias de Lustre administrado, Cloud Storage FUSE puede tener un menor rendimiento por VM. Para obtener información sobre cómo mejorar el rendimiento con Cloud Storage FUSE, consulta Cómo usar el almacenamiento en caché de archivos de Cloud Storage FUSE.

Google Cloud Hyperdisk ML es una solución de almacenamiento en bloque de alto rendimiento diseñada para acelerar las cargas de trabajo de IA y AA a gran escala que requieren acceso de solo lectura a grandes conjuntos de datos. Hyperdisk ML se puede aprovisionar con un rendimiento agregado ligeramente mayor con tamaños de volumen más pequeños, pero logra un rendimiento por VM más bajo en comparación con Lustre administrado. Además, solo se puede acceder a los volúmenes de Hyperdisk ML desde VMs con GPU o TPU que se encuentren en la misma zona. Por lo tanto, para los clústeres de GKE regionales que prestan servicios desde varias zonas, debes aprovisionar volúmenes de Hyperdisk ML separados en cada zona. Aprovisionar varios volúmenes de Hyperdisk ML puede ser más costoso que usar una sola instancia regional de Lustre administrado.

También es importante tener en cuenta que Hyperdisk ML está diseñado de manera que, después de que se escriben los datos, no se pueden modificar. Este enfoque de escritura única y lecturas múltiples (WORM) ayuda a evitar la corrupción accidental o las modificaciones no autorizadas. Sin embargo, para actualizar un modelo de servicio, no puedes anular el modelo existente. En cambio, deberás crear una nueva instancia de Hyperdisk ML. Para obtener más información sobre el uso de Hyperdisk ML en cargas de trabajo de IA, consulta Acelera la carga de datos de IA/AA con Hyperdisk ML.

Consideraciones del diseño

Para diseñar una implementación de Lustre administrado que optimice la seguridad, la confiabilidad, el costo, las operaciones y el rendimiento de tus cargas de trabajo de AA y de AA en Google Cloud, usa los lineamientos de las siguientes secciones.

Cuando compiles una arquitectura para tu carga de trabajo, considera las prácticas recomendadas y las recomendaciones del Google Cloud Framework de Well-Architected: Perspectiva de la IA y el AA.

Security, privacy, and compliance

En esta sección, se describen las consideraciones para tus cargas de trabajo de IA y AA enGoogle Cloud que satisfagan tus requisitos de seguridad, privacidad y cumplimiento.

Seguridad de SSH

Para facilitar un control de acceso mejorado para tus aplicaciones que se ejecutan en GKE, puedes usar Identity-Aware Proxy (IAP). IAP se integra con el recurso de Ingress de GKE y ayuda a verificar que solo los usuarios autenticados con el rol correcto de Identity and Access Management (IAM) puedan acceder a las aplicaciones. Para obtener más información, consulta Habilita IAP para GKE y Control de acceso con IAM.

Encriptación de datos

De forma predeterminada, tus datos en GKE, incluidos los datos almacenados en tu instancia de Lustre administrada, se encriptan en reposo y en tránsito con Google-owned and Google-managed encryption keys. Como una capa adicional de seguridad para datos sensibles, puedes encriptar datos en la capa de aplicación con una clave que poseas y administres con Cloud Key Management Service (Cloud KMS). Para obtener más información, consulta Encripta Secrets en la capa de la aplicación.

Si usas un clúster de GKE Standard, puedes usar las siguientes capacidades adicionales de encriptación de datos:

Aislamiento de datos

Para mejorar la seguridad y la protección de datos, almacena los datos de entrenamiento en una instancia de Lustre administrada independiente de los puntos de control y los modelos entrenados. El uso de instancias de almacenamiento separadas proporciona aislamiento del rendimiento, mejora la seguridad al aislar los datos de entrenamiento y mejora la protección de los datos. Si bien las listas de control de acceso te permiten administrar la seguridad dentro de una sola instancia, el uso de instancias separadas proporciona un límite de seguridad más sólido.

Más consideraciones de seguridad

En el modo de operación de Autopilot, GKE preconfigura tu clúster y administra los nodos según las prácticas recomendadas de seguridad, lo que te permite enfocarte en la seguridad específica de la carga de trabajo. Para obtener más información, consulta Funciones de seguridad de GKE Autopilot y Seguridad de Kubernetes lista para usar con GKE Autopilot.

Para obtener información sobre cómo proteger la privacidad de tus datos, consulta la Descripción general de Sensitive Data Protection y Cómo inspeccionar Google Cloud el almacenamiento y las bases de datos en busca de datos sensibles.

Para conocer los principios y las recomendaciones de seguridad específicos de las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: seguridad en Well-Architected Framework.

Confiabilidad

En esta sección, se describen los factores de diseño que debes tener en cuenta cuando usas esta arquitectura de referencia para compilar y operar una infraestructura confiable para tu implementación regional en Google Cloud.

Solidez ante interrupciones de la infraestructura

Con el modo de operación Autopilot que se usa en esta arquitectura, GKE proporciona las siguientes capacidades de confiabilidad integradas:

  • Tu carga de trabajo usa un clúster de GKE regional. El plano de control y los nodos trabajadores se distribuyen en tres zonas diferentes dentro de una región. Tus cargas de trabajo son sólidas contra las interrupciones zonales. Los clústeres de GKE regionales tienen un Acuerdo de Nivel de Servicio (ANS) de tiempo de actividad más alto que los clústeres zonales.
  • No es necesario que crees nodos ni administres grupos de nodos. GKE crea automáticamente los grupos de nodos y los ajusta automáticamente según los requisitos de tus cargas de trabajo.

Para aumentar la disponibilidad de tu aplicación, puedes publicarla desde varias zonas implementando una instancia de Managed Lustre en cada zona.

Planificación de la capacidad del clúster

Para asegurarte de que haya suficiente capacidad de GPU disponible cuando sea necesaria para el ajuste de escala automático del clúster de GKE, puedes crear y usar reservas. Una reserva proporciona capacidad garantizada en una zona específica para un recurso especificado. Una reserva puede ser específica de un proyecto o compartirse en varios proyectos. Se generarán cargos por los recursos reservados, incluso si no se aprovisionan ni se usan los recursos. Para obtener más información, consulta Consume recursos zonales reservados.

Durabilidad de los datos

Para crear copias de seguridad de las cargas de trabajo en GKE y restablecerlas, habilita la copia de seguridad para GKE en cada clúster. Copia de seguridad para GKE es útil para la recuperación ante desastres, las canalizaciones de CI/CD, la clonación de cargas de trabajo y las situaciones de actualización.

Puedes seleccionar cargas de trabajo específicas o todas las cargas de trabajo de las que quieras crear una copia de seguridad y restablecer. También puedes crear copias de seguridad de las cargas de trabajo de un clúster y restablecerlas en otro. Para reducir el tiempo de inactividad de las cargas de trabajo, puedes programar las copias de seguridad para que se ejecuten de forma automática, de modo que puedas recuperar rápidamente las cargas de trabajo en caso de que ocurra un incidente.

Más consideraciones de confiabilidad

Para conocer los principios y las recomendaciones de confiabilidad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: Confiabilidad en Well-Architected Framework.

Optimización de costos

En esta sección, se proporciona orientación para ayudarte a optimizar el costo de configurar y operar tu flujo de trabajo de IA y AA en Google Cloud.

Niveles de rendimiento de Managed Lustre

Cuando creas una instancia de Managed Lustre, debes seleccionar un nivel de rendimiento. Elige un nivel adecuado según los requisitos de rendimiento y costo de tu carga de trabajo.

Modelo de aprovisionamiento de nodos

En el modo Autopilot, GKE optimiza la eficiencia de la infraestructura de tu clúster en función de los requisitos de carga de trabajo. Para controlar los costos, no es necesario que supervises constantemente el uso de recursos ni administres la capacidad.

Si puedes predecir el uso de CPU, memoria y almacenamiento efímero de tu clúster de Autopilot, puedes obtener descuentos por compromiso de uso. Para reducir el costo de ejecutar tu aplicación, puedes usar VMs Spot para tus nodos de GKE. Las VMs Spot tienen un precio más bajo que las VMs estándar, pero no proporcionan garantía de disponibilidad.

Administración de recursos

Para optimizar el costo y el rendimiento a través de una administración eficiente, usa Dynamic Workload Scheduler. El programador de cargas de trabajo dinámicas es un administrador de recursos y programador de trabajos que te ayuda a mejorar el acceso a los aceleradores de IA (GPU y TPU). El programador dinámico de cargas de trabajo programa todos tus aceleradores de forma simultánea y se puede ejecutar durante las horas de menor demanda con la administración de capacidad del acelerador definida. Al programar trabajos de forma estratégica, el Programador dinámico de cargas de trabajo ayuda a maximizar el uso del acelerador, reducir el tiempo de inactividad y optimizar tu inversión en la nube.

Uso de recursos

Para maximizar el uso de recursos, usa una instancia de Lustre administrado para el entrenamiento y la entrega. Consolidar las cargas de trabajo de entrenamiento y de procesamiento en una sola instancia de Lustre administrado minimiza los costos, ya que elimina la infraestructura redundante y simplifica la administración de recursos. Sin embargo, puede haber una posible contención de recursos si ambas cargas de trabajo tienen demandas de procesamiento elevadas. Si hay IOPS de reserva disponibles después del entrenamiento, usar la misma instancia puede acelerar la carga del modelo para la entrega. Usa Cloud Monitoring para verificar que asignes recursos suficientes para satisfacer tus demandas de procesamiento.

Para minimizar los costos de almacenamiento, exporta tus datos desde tu instancia de Lustre administrado a una clase de Cloud Storage de menor costo después del entrenamiento y la creación de puntos de control. Exportar tus datos a Cloud Storage también te permite destruir y volver a crear instancias de Lustre administrado según sea necesario para tu carga de trabajo.

Para controlar los costos de tu bucket de Cloud Storage, habilita la administración del ciclo de vida de los objetos o Autoclass. La administración del ciclo de vida de los objetos mueve automáticamente los datos más antiguos o menos utilizados a clases de almacenamiento menos costosas, o bien los borra, según las reglas que establezcas. Autoclass mueve los datos entre las clases de almacenamiento según tus patrones de acceso. Usar la administración del ciclo de vida de los objetos o Autoclass ayuda a garantizar la clase de almacenamiento más rentable para tu uso de datos, ya que minimiza los gastos y ayuda a evitar cargos inesperados por recuperación.

Más consideraciones de los costos

Si deseas conocer los principios y las recomendaciones de optimización de costos específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización de costos en el Framework de Well-Architected y Prácticas recomendadas para ejecutar aplicaciones de Kubernetes con optimización de costos en GKE.

Excelencia operativa

En esta sección, se proporciona orientación para ayudarte a diseñar una infraestructura para tu flujo de trabajo de IA y AA que puedas operar de manera eficiente.

Administración de modelos

Para hacer un seguimiento de los artefactos del modelo y administrarlos, incluidos los archivos binarios y los metadatos, usa Vertex AI Model Registry, que te permite almacenar, organizar y, luego, implementar versiones del modelo sin problemas.

Para optimizar la confiabilidad del modelo, implementa Vertex AI Model Monitoring para detectar la desviación de los datos, hacer un seguimiento del rendimiento y detectar anomalías en la producción.

Ajuste de escala automático del clúster de GKE

Con los clústeres de Autopilot, no necesitas aprovisionar ni administrar grupos de nodos. Los grupos de nodos se aprovisionan automáticamente a través del aprovisionamiento automático de nodos y se escalan automáticamente para cumplir con los requisitos de tus cargas de trabajo.

En el caso de los clústeres de GKE Standard, el escalador automático del clúster cambia automáticamente el tamaño de la cantidad de nodos dentro de un grupo de nodos según las demandas de la carga de trabajo. Para controlar el comportamiento del ajuste de escala automático del escalador automático del clúster, puedes especificar un tamaño mínimo y máximo para el grupo de nodos.

Cuando uses el escalador automático del clúster de GKE, no habilites el ajuste de escala automático de Compute Engine para grupos de instancias administrados (MIG) en los nodos del clúster. El escalador automático del clúster de GKE es independiente del escalador automático de Compute Engine. El escalador automático del clúster de GKE está diseñado para escalar tu carga de trabajo analizando la utilización de recursos en todo tu clúster de GKE, incluidos los MIG subyacentes. Usar ambos escaladores automáticos puede generar decisiones de escalamiento contradictorias. Para obtener más información, consulta Acerca del clúster de GKE de GKE.

Supervisión de métricas

Para identificar cuellos de botella, supervisa métricas clave, como la latencia, la tasa de errores y el uso de recursos, con Cloud Monitoring. Cloud Monitoring proporciona visibilidad en tiempo real para hacer un seguimiento de los patrones de uso de los recursos y detectar posibles ineficiencias.

Administración de almacenamiento

Para automatizar la administración de datos según el uso de tu bucket de Cloud Storage, habilita la administración del ciclo de vida de los objetos o la clase automática. La administración del ciclo de vida de los objetos mueve automáticamente los datos más antiguos o menos utilizados a clases de almacenamiento menos costosas, o bien borra los datos, según las reglas que establezcas. Autoclass mueve los datos entre las clases de almacenamiento según tus patrones de acceso. El uso de la administración del ciclo de vida de los objetos o Autoclass ayuda a garantizar la aplicación coherente de políticas en toda la infraestructura de almacenamiento y a reducir los posibles errores humanos, lo que proporciona ahorros en el rendimiento y los costos sin intervención manual.

Más consideraciones operativas

Para conocer las prácticas recomendadas y las recomendaciones de eficiencia operativa específicas para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: excelencia operativa en el Framework de Well-Architected.

Optimización del rendimiento

En esta sección, se proporciona orientación para ayudarte a optimizar el rendimiento de tu flujo de trabajo de AA y de IA en Google Cloud. La guía de esta sección no está completa. Para obtener más información sobre cómo optimizar el rendimiento de tu entorno de Google Cloud Managed Lustre, consulta Consideraciones sobre el rendimiento.

Consideraciones de capacitación

Cada VM A3 o A4 puede proporcionar 20 GB/s, aproximadamente 2.5 GB/s por GPU, desde una instancia de Lustre administrada. Antes de que comience el entrenamiento, los datos de entrenamiento se deben recuperar previamente de Cloud Storage y se deben importar a Lustre administrado para minimizar la latencia durante el entrenamiento. Para maximizar la capacidad de procesamiento de tu carga de trabajo de entrenamiento, aprovisiona tu instancia de Managed Lustre para que coincida con tus necesidades de capacidad de procesamiento y almacenamiento. Por ejemplo, una instancia de Lustre administrado de 20 TiB proporciona un rendimiento agregado de entre 2.5 GB/s y 20 GB/s en todos los clientes, según el nivel de rendimiento seleccionado. Si tu entrenamiento exige una mayor capacidad de procesamiento, deberás aumentar el tamaño de tu instancia de Lustre administrada según corresponda.

Consideraciones sobre los puntos de control

Para aprovechar la alta capacidad de procesamiento de escritura que ofrece Lustre administrado y minimizar el tiempo de entrenamiento, usa Lustre administrado tanto para el entrenamiento como para el registro de puntos de control. Este enfoque ayuda a lograr una utilización eficiente de los recursos y a reducir el TCO de tus recursos de GPU, ya que mantiene el entrenamiento y la creación de puntos de control lo más rápidos posible. Para lograr una creación de puntos de control rápida, puedes ejecutar la creación de puntos de control asíncrona y distribuida. Dado que Managed Lustre es persistente, puedes almacenar tus puntos de control en la misma instancia. Para obtener una optimización de costos adicional y almacenamiento a largo plazo, considera exportar los puntos de control a un bucket de Cloud Storage.

Consideraciones sobre la entrega

Para lograr un rendimiento óptimo durante la publicación, debes minimizar el tiempo que se tarda en cargar los modelos en la memoria. Managed Lustre ofrece una alta capacidad de procesamiento por VM de más de 20 GB/s, lo que proporciona una alta capacidad de procesamiento agregada del clúster. Esta capacidad puede ayudarte a minimizar los tiempos de carga del modelo en miles de VMs. Para hacer un seguimiento de las métricas clave que te permiten identificar los embudos, usa Cloud Monitoring y verifica que implementes capacidad suficiente a medida que aumenta el rendimiento con la capacidad de almacenamiento.

Ubicación de recursos

Para minimizar la latencia y maximizar el rendimiento, crea tu instancia de Lustre administrado en una región que esté geográficamente cerca de tus clientes de procesamiento de GPU o TPU. En la arquitectura de referencia que se describe en este documento, los contenedores y el sistema de archivos de GKE se encuentran en la misma zona.

  • Para el entrenamiento y la creación de puntos de control: Para obtener resultados óptimos, implementa los clientes y las instancias de Lustre administrado en la misma zona. Esta ubicación conjunta minimiza los tiempos de transferencia de datos y maximiza el uso de la capacidad de procesamiento de escritura de Lustre administrado.
  • Para la entrega: Si bien lo ideal es la colocación conjunta con clientes de procesamiento en la misma zona, puede ser suficiente tener una instancia de Lustre administrada por región. Este enfoque evita los costos adicionales asociados con la implementación de varias instancias y ayuda a maximizar el rendimiento de la capacidad de procesamiento. Sin embargo, si necesitas capacidad o capacidad de procesamiento adicionales, puedes considerar implementar más de una instancia por región.

Para obtener información sobre las ubicaciones compatibles con las instancias de Lustre administrado, consulta Ubicaciones compatibles.

Más consideraciones sobre el rendimiento

Si deseas conocer los principios y las recomendaciones de optimización del rendimiento específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización del rendimiento en el Framework de Well-Architected.

Implementación

Para crear y activar una instancia de Lustre administrada, te recomendamos que uses el módulo de Lustre administrado que está disponible en Cluster Toolkit. Cluster Toolkit es un kit de herramientas modular basado en Terraform que se diseñó para implementar entornos repetibles de IA y AA enGoogle Cloud.

Para obtener información sobre cómo implementar Managed Lustre de forma manual en GKE, consulta Crea una instancia de Managed Lustre y Conéctate a una instancia existente de Managed Lustre desde Google Kubernetes Engine.

Para obtener información sobre cómo configurar una red de VPC para Lustre administrado, consulta Configura una red de VPC.

¿Qué sigue?

Colaboradores

Autora: Samantha He | Escritora técnica

Otros colaboradores: