Documentación de la organización de IA/AA en GKE

Acelera la carga de datos de IA/AA con Hyperdisk ML

Aprende a simplificar y acelerar la carga de pesos de modelos de IA/AA en GKE con Hyperdisk ML.

Entrega un LLM con TPU en GKE con JetStream y PyTorch

Aprende a entregar un LLM con unidades de procesamiento tensorial (TPU) en GKE con JetStream a través de PyTorch.

Prácticas recomendadas para optimizar la inferencia de LLM con GPUs en GKE

Conoce las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLM con GPUs en GKE mediante los frameworks de entrega de vLLM y de inferencia de generación de texto (TGI).

Administra la pila de GPU con el operador de GPU de NVIDIA en GKE

Obtén información sobre cuándo usar el operador de GPU de NVIDIA y cómo habilitarlo en GKE.

Configura el ajuste de escala automático para cargas de trabajo de LLM en TPU

Aprende a configurar tu infraestructura de ajuste de escala automático mediante Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con JetStream de un solo host.

Ajusta los modelos abiertos de Gemma con varias GPU en GKE

Aprende a ajustar el LLM de Gemma con GPUs en GKE con la biblioteca de Hugging Face Transformers.

Implementa una aplicación de Ray Serve con un modelo de difusión estable en GKE con TPU

Aprende a implementar y entregar un modelo de difusión estable en GKE con TPU, Ray Serve y el complemento de operador de Ray.

Configura el ajuste de escala automático para cargas de trabajo de LLM en GPUs con GKE

Aprende a configurar tu infraestructura de ajuste de escala automático mediante el Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con el framework de entrega de la interfaz de generación de texto (TGI) de Hugging Face.

Entrena Llama2 con Megatron-LM en máquinas virtuales A3 Mega

Aprende a ejecutar una carga de trabajo de PyTorch Megatron-LM basada en contenedores en A3 Mega.

Implementa cargas de trabajo de GPU en Autopilot

Aprende a solicitar aceleradores de hardware (GPU) en tus cargas de trabajo de GKE Autopilot.

Entrega un LLM con varias GPUs en GKE

Aprende a entregar Llama 2 70B o Falcon 40B con varias GPU NVIDIA L4 con GKE.

Entrega un LLM con TPU de varios hosts en GKE con Saxml

Aprende a entregar Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.

Comienza a usar Ray en GKE

Aprende a comenzar a usar Ray en GKE fácilmente mediante la ejecución de una carga de trabajo en un clúster de Ray.

Entrega un LLM en GPU L4 con Ray

Aprende a entregar Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.

Organiza cargas de trabajo de TPU de Multislice con JobSet y Kueue

Aprende a organizar una carga de trabajo de Jax en varias porciones de TPU en GKE con JobSet y Kueue.

Supervisa cargas de trabajo de GPU en GKE con el administrador de GPU de centro de datos (DCGM) de NVIDIA

Aprende a observar las cargas de trabajo de GPU en GKE con el administrador de GPU del centro de datos de NVIDIA (DCGM).

Guía de inicio rápido: Entrena un modelo con GPU en clústeres de GKE Standard

En esta guía de inicio rápido, se muestra cómo implementar un modelo de entrenamiento con GPU en GKE y almacenar las predicciones en Cloud Storage.

Ejecuta aprendizaje automático a gran escala en GKE

En este video, se muestra cómo GKE ayuda a resolver desafíos comunes de entrenar modelos de IA a gran escala y las prácticas recomendadas para entrenar y entregar modelos de aprendizaje automático a gran escala en GKE.

TensorFlow en Autopilot de GKE con aceleración de GPU

Esta entrada de blog es una guía paso a paso sobre la creación, ejecución y eliminación de un notebook de Jupiter habilitado para TensorFlow.

Implementa un sistema de colas de trabajos con uso compartido de cuotas entre espacios de nombres en GKE

En este instructivo, se usa Kueue para mostrarte cómo implementar un sistema de cola de trabajos y configurar el recurso de las cargas de trabajo y el uso compartido de cuotas entre diferentes espacios de nombres en GKE.

Compila un chatbot de RAG con GKE y Cloud Storage

En este instructivo, se muestra cómo integrar una aplicación de modelo de lenguaje grande basada en la generación mejorada por recuperación con archivos PDF que subes a un bucket de Cloud Storage.

Motores de búsqueda simplificados: Un enfoque de poco código con GKE y Vertex AI Agent Builder

Cómo compilar un motor de búsqueda con Google Cloud usando Vertex AI Agent Builder, Vertex AI Search y GKE

Agente de búsqueda de Vertex AI

La IA de LiveX reduce los costos de asistencia al cliente con agentes de IA entrenados y publicados en GKE y la IA de NVIDIA

Cómo la IA de LiveX usa GKE para crear agentes de IA que mejoran la satisfacción del cliente y reducen los costos

IA Generativa NVIDIA GPU

Infraestructura para una aplicación de IA generativa compatible con RAG mediante GKE

Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación mejorada por recuperación (RAG) con GKE, Cloud SQL, Ray, Hugging Face y LangChain.

IA Generativa RAG Ray

Innovación en búsqueda de patentes: cómo IPRally aprovecha la IA con GKE y Ray

Cómo IPRally usa GKE y Ray para compilar una plataforma de AA escalable y eficiente para realizar búsquedas de patentes más rápidas con mayor exactitud.

IA Ray GPU

Análisis detallado del rendimiento de Gemma en Google Cloud

Aprovecha Gemma en las GPU de Cloud y Cloud TPU para la eficiencia de la inferencia y el entrenamiento en GKE.

IA Gemma Rendimiento

Análisis detallado de Gemma en GKE: nuevas innovaciones para entregar modelos de IA generativa abiertos

Usa los mejores modelos abiertos de Gemma para compilar aplicaciones de IA portátiles y personalizables, y para implementarlas en GKE.

IA Gemma Rendimiento

Programación avanzada para IA/AA con Ray y Kueue

Organiza aplicaciones de Ray en GKE con KubeRay y Kueue.

Kueue Ray KubeRay

Cómo proteger Ray en Google Kubernetes Engine

Aplica estadísticas de seguridad y técnicas de endurecimiento para entrenar cargas de trabajo de IA y AA con Ray en GKE.

IA Ray Seguridad

Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud

Elige la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y AA en Google Cloud.

IA AA Almacenamiento

La instalación automática del controlador simplifica el uso de las GPU de NVIDIA en GKE

Instala automáticamente los controladores de GPU de Nvidia en GKE.

GPU NVIDIA Instalación

Acelera tu recorrido de IA generativa con el framework de NVIDIA NeMo en GKEE

Entrena modelos de IA generativa con el framework de GKE y NVIDIA NeMo.

IA Generativa NVIDIA NeMo

¿Por qué GKE para tus cargas de trabajo de IA de Ray?

Mejora la escalabilidad, la rentabilidad, la tolerancia a errores, el aislamiento y la portabilidad con GKE para las cargas de trabajo de Ray.

IA Ray Escala

Ejecuta IA en GKE completamente administrado, ahora con nuevas opciones de procesamiento, precios y reservas de recursos

Obtén asistencia mejorada de GPU, rendimiento y precios más bajos para las cargas de trabajo de IA y AA con GKE Autopilot.

GPU Autopilot Rendimiento

Cómo SEEN escaló el resultado 89 veces y redujo los costos de GPU en un 66% con GKE

Las startups escalan resultados de video personalizados con GKE.

GPU Escala Contenedores

Cómo Let's Enhance usa NVIDIA AI y GKE para potenciar la edición de fotos basada en IA

IA innovadora para mejorar imágenes con GPU NVIDIA y GKE.

IA NVIDIA Contenedores

Cómo el uso compartido de GPU de GKE ayuda a la búsqueda de los científicos por neutrinos

El uso compartido de la GPU de GKE ayuda a los científicos a buscar neutrinos.

GPU Escala Contenedores

GPU de tiempo compartido en GKE

Obtén información sobre cómo la función de uso compartido de tiempo de GPU en GKE permite que varios contenedores compartan una sola GPU física, lo que mejora su uso.

GPU de varias instancias en GKE

Descubre cómo las GPU de instancias múltiples en GKE te ayudan a obtener un mejor valor de tus inversiones en GPU.

Cómo Etsy usa GKE para rediseñar su plataforma de aprendizaje automático

Etsy aprovecha el aprendizaje automático (AA) para crear experiencias personalizadas para nuestros millones de compradores de todo el mundo.

GPU Escala Contenedores

Cómo Spotify impulsa la innovación en AA con Ray y GKE

Cómo Ray transforma el desarrollo del AA en Spotify.

AA Ray Contenedores

Cómo Ordaōs Bio aprovecha la IA generativa en GKE

Ordaōs Bio, uno de los principales aceleradores de IA para la investigación y el descubrimiento en biomedicina, está hallando soluciones para inmunoterapias innovadoras de oncología y de inflamación crónica.

Rendimiento TPU Optimización de costos

GKE desde un startup en crecimiento con tecnología del AA

Cómo Moloco, una startup de Silicon Valley, aprovechó el poder de GKE y Tensor Flow Enterprise para potenciar su infraestructura de aprendizaje automático (AA).

AA Escala Optimización de costos

Ray en GKE

Usa esta plantilla de Terraform para ejecutar Ray en GKE.

Configura Ray en GKE con TPU

Usa esta muestra de Terraform para implementar Ray en un clúster de GKE con una topología 2x2x1.

Cargas de trabajo de entrenamiento del AA en GKE con la API de JobSet

Ejecuta cargas de trabajo de entrenamiento de aprendizaje automático distribuido en GKE mediante la API de JobSet.

“Hello World” de JAX en GKE

Ejecutar un programa JAX simple con GPU NVIDIA A100-80GB en un clúster de GKE.

Comienza a usar la inferencia de modelos de IA con las funciones de IA generativa de GKE.

Recursos de documentación

Entrega modelos abiertos en GKE

Organiza TPU y GPU a gran escala

Optimización de costos y organización de trabajos

Videos relacionados