Información acerca de las GPUs en Google Cloud


Google Cloud se enfoca en proporcionar infraestructura de inteligencia artificial (IA) de primer nivel para potenciar tus cargas de trabajo aceleradas por GPU más exigentes en una amplia variedad de segmentos. Puedes usar GPUs en Google Cloud para ejecutar aplicaciones de IA, aprendizaje automático (AA), científicas, de análisis, de ingeniería, para consumidores y empresariales.

A través de nuestra asociación con NVIDIA, Google Cloud ofrece las GPUs más recientes y, al mismo tiempo, optimiza la pila de software con una amplia variedad de opciones de almacenamiento y redes. Para obtener una lista completa de las GPUs disponibles, consulta Plataformas de GPU.

En las siguientes secciones, se describen los beneficios de las GPUs en Google Cloud.

VMs con aceleración de GPU

En Google Cloud, puedes acceder a las GPUs y aprovisionarlas de la manera que mejor se adapte a tus necesidades. Hay disponible una familia de máquinas optimizadas para aceleradores especializada, con GPUs preconectadas y capacidades de red ideales para maximizar el rendimiento. Están disponibles en las series de máquinas A3, A2 y G2.

Varias opciones de aprovisionamiento

Puedes aprovisionar clústeres con la familia de máquinas optimizadas para aceleradores con cualquiera de los siguientes productos de código abierto o Google Cloud .

Vertex AI

Vertex AI es una plataforma de aprendizaje automático (AA) completamente administrada que puedes usar para entrenar e implementar modelos de AA y aplicaciones de IA. En las aplicaciones de Vertex AI, puedes usar VMs aceleradas por GPU para mejorar el rendimiento de las siguientes maneras:

GKE y Slurm

Las plataformas de organización a gran escala, como GKE, son ideales para aprovisionar clústeres grandes que se pueden usar para entrenar y ajustar modelos de AA a gran escala. Los modelos de AA a gran escala son aquellos que usan grandes cantidades de datos.

Las siguientes plataformas de orquestación están disponibles en Google Cloud.

  • Google Kubernetes Engine (GKE): Es un servicio que puedes usar para implementar y operar aplicaciones alojadas en contenedores a gran escala con la infraestructura de Google.

  • Slurm: Es una herramienta de administración de clústeres y programación de trabajos de código abierto. En Google Cloud , puedes implementar clústeres de Slurm con el kit de herramientas de clústeres.

Ejecuta el entrenamiento y el ajuste de modelos a gran escala

Para entrenar o ajustar modelos a gran escala, te recomendamos que uses un clúster de máquinas A3 Mega (a3-megagpu-8g) y que realices la implementación con un programador como GKE o Slurm.

Opción de implementación

Guías de implementación

Slurm

Implementa un clúster A3 Mega Slurm

GKE

Implementa un clúster A3 Mega con GKE

Ejecuta el entrenamiento y el ajuste de modelos convencionales

Para el entrenamiento y el ajuste de modelos convencionales, te recomendamos que uses el A3 High con 8 GPUs (a3-highgpu-8g) y que realices la implementación con un programador como GKE o Slurm. También puedes usar un tipo de máquina A2 o G2.

Opción de implementación

Guías de implementación

Cargas de trabajo

GKE

Implementa grupos de nodos autopilot o estándar

Inferencia: Cómo entregar modelos en GKE

Entrenamiento: Entrena un modelo en GKE

Slurm

Ejecuta el ajuste de Llama-2 en un clúster de Slurm de G2

VMs únicas

Crea VMs A3 High (con GPUDirect-TCPX habilitado)

Compute Engine

También puedes crear y administrar VMs individuales o clústeres más pequeños de VMs con GPUs adjuntas en Compute Engine. Este método se usa principalmente para ejecutar cargas de trabajo intensivas en gráficos, cargas de trabajo de simulación o entrenamiento a pequeña escala. Para estas cargas de trabajo, recomendamos los tipos de máquinas G2, A3 High pequeños (aquellos con 1, 2 o 4 GPUs conectadas) y N1 con GPUs T4, P4, P100 y V100.

Opción de implementación

Guías de implementación

Crea una VM para cargas de trabajo de entrega y de nodo único

Crea una VM A3 Edge o A3 High

Crear grupos de instancias administrados (MIG)

Esta opción usa el programador dinámico de cargas de trabajo (DWS) para aprovisionar VMs.

Crea un MIG con VMs de GPU

Crea VMs de forma masiva

Cómo crear un grupo de VMs de GPU de forma masiva

Crea una sola VM

Crea una sola VM de GPU (VM estándar o Spot)

Crea estaciones de trabajo virtuales

Crea una estación de trabajo virtual acelerada con GPU

Cloud Run

Puedes configurar GPUs para tu servicio de Cloud Run. Las GPUs son ideales para ejecutar cargas de trabajo de inferencia de IA con modelos de lenguaje grandes en Cloud Run.

En Cloud Run, consulta estos recursos para ejecutar cargas de trabajo de IA en GPUs: