Se usó la API de Cloud Translation para traducir esta página.

Acerca de la puerta de enlace de GKE Inference

Autopilot estándar

En esta página, se explican los conceptos y las funciones clave de Inference Gateway de Google Kubernetes Engine (GKE), una extensión de la Gateway de GKE para la publicación optimizada de aplicaciones de IA generativa.

En esta página, se supone que conoces los siguientes temas:

Organización de IA/AA en GKE
Terminología de la IA generativa
Conceptos de redes de GKE, incluidos los servicios y la API de GKE Gateway
Balanceo de cargas en Google Cloud, en especial cómo interactúan los balanceadores de cargas con GKE

Esta página está destinada a los siguientes arquetipos de usuarios:

Ingenieros de aprendizaje automático (AA), administradores y operadores de plataformas, y especialistas en IA y datos que estén interesados en usar las capacidades de organización de contenedores de Kubernetes para entregar cargas de trabajo de IA/AA.
Arquitectos de nube y especialistas en redes que interactúan con las redes de Kubernetes

Descripción general

La puerta de enlace de inferencia de GKE es una extensión de la puerta de enlace de GKE que proporciona un enrutamiento y un balanceo de cargas optimizados para la entrega de cargas de trabajo de Inteligencia Artificial (IA) generativa. Simplifica la implementación, la administración y la observabilidad de las cargas de trabajo de inferencia de IA.

Para elegir la estrategia de balanceo de cargas óptima para tus cargas de trabajo de IA/AA, consulta Elige una estrategia de balanceo de cargas para la inferencia de IA en GKE.

Características y beneficios

La puerta de enlace de inferencia de GKE proporciona las siguientes capacidades clave para entregar de manera eficiente modelos de IA generativa para aplicaciones de IA generativa en GKE:

Métricas admitidas:
- KV cache hits: Es la cantidad de búsquedas exitosas en la caché de clave-valor (KV).
- Uso de GPU o TPU: Es el porcentaje de tiempo que la GPU o la TPU están procesando activamente.
- Longitud de la cola de solicitudes: Es la cantidad de solicitudes que esperan ser procesadas.
Balanceo de cargas optimizado para la inferencia: Distribuye las solicitudes para optimizar el rendimiento de la entrega de modelos de IA. Utiliza métricas de los servidores de modelos, como KV cache hits y queue length of pending requests, para consumir aceleradores (como GPU y TPU) de manera más eficiente para las cargas de trabajo de IA generativa. Esto habilita el enrutamiento con reconocimiento de prefijo de caché, una función clave que envía solicitudes con contexto compartido, identificadas a través del análisis del cuerpo de la solicitud, a la misma réplica del modelo maximizando los aciertos de caché. Este enfoque reduce drásticamente los cálculos redundantes y mejora el tiempo hasta el primer token, lo que lo hace muy eficaz para la IA conversacional, la generación mejorada por recuperación (RAG) y otras cargas de trabajo de IA generativa basadas en plantillas.
Entrega dinámica de modelos ajustados con LoRA: Admite la entrega de modelos ajustados con LoRA dinámicos en un acelerador común. Esto reduce la cantidad de GPU y TPU necesarias para entregar modelos, ya que multiplexa varios modelos ajustados con LoRA en un modelo base y un acelerador comunes.
Ajuste de escala automático optimizado para la inferencia: El escalador automático de Pods horizontal (HPA) de GKE usa métricas del servidor de modelos para el ajuste de escala automático, lo que ayuda a garantizar el uso eficiente de los recursos de procesamiento y el rendimiento optimizado de la inferencia.
Enrutamiento según el modelo: Enruta las solicitudes de inferencia según los nombres de los modelos definidos en las especificaciones de OpenAI API dentro de tu clúster de GKE. Puedes definir políticas de enrutamiento de Gateway, como la división del tráfico y la duplicación de solicitudes, para administrar diferentes versiones del modelo y simplificar los lanzamientos de modelos. Por ejemplo, puedes enrutar solicitudes para un nombre de modelo específico a diferentes objetos InferencePool, cada uno de los cuales entrega una versión diferente del modelo. Para obtener más información sobre cómo configurar esta opción, consulta Configura el enrutamiento basado en el cuerpo.
Seguridad de la IA y filtrado de contenido integrados: GKE Inference Gateway se integra con Google Cloud Model Armor para aplicar verificaciones de seguridad de la IA y filtrado de contenido a las instrucciones y respuestas en la puerta de enlace. Model Armor proporciona registros de solicitudes, respuestas y procesamiento para el análisis y la optimización retrospectivos. Las interfaces abiertas de GKE Inference Gateway permiten que los proveedores y desarrolladores externos integren servicios personalizados en el proceso de solicitud de inferencia.
Entrega específica del modelo Priority: Te permite especificar la Priority de los modelos de IA. Prioriza las solicitudes sensibles a la latencia por sobre los trabajos de inferencia por lotes tolerantes a la latencia. Por ejemplo, puedes priorizar las solicitudes de las aplicaciones sensibles a la latencia y descartar las tareas menos sensibles al tiempo cuando los recursos son limitados.
Observabilidad de la inferencia: Proporciona métricas de observabilidad para las solicitudes de inferencia, como la tasa de solicitudes, la latencia, los errores y la saturación. Supervisa el rendimiento y el comportamiento de tus servicios de inferencia a través de Cloud Monitoring y Cloud Logging, y aprovecha los paneles prediseñados especializados para obtener estadísticas detalladas. Para obtener más información, consulta Cómo ver el panel de GKE Inference Gateway.
Administración avanzada de APIs con Apigee: Se integra con Apigee para mejorar tu puerta de enlace de inferencia con funciones como seguridad de la API, límite de frecuencia y cuotas. Para obtener instrucciones detalladas, consulta Configura Apigee para la autenticación y la administración de APIs.
Extensibilidad: Se basa en una extensión de inferencia de la API de Gateway de Kubernetes de código abierto y extensible que admite un algoritmo de selector de extremos administrado por el usuario.

Comprende los conceptos clave

La puerta de enlace de inferencia de GKE mejora la puerta de enlace de GKE existente que usa objetos GatewayClass. GKE Inference Gateway presenta las siguientes definiciones de recursos personalizados (CRD) nuevas de la API de Gateway, alineadas con la extensión de la API de Gateway de Kubernetes de OSS para la inferencia:

Objeto InferencePool: Representa un grupo de Pods (contenedores) que comparten la misma configuración de procesamiento, el mismo tipo de acelerador, el mismo modelo de lenguaje base y el mismo servidor de modelos. Esto agrupa y administra de forma lógica los recursos de servicio de tu modelo de IA. Un solo objeto InferencePool puede abarcar varios Pods en diferentes nodos de GKE y proporciona escalabilidad y alta disponibilidad.
Objeto InferenceObjective: Especifica el nombre del modelo de servicio desde InferencePool según la especificación de OpenAI API. El objeto InferenceObjective también especifica las propiedades de la publicación del modelo, como el Priority del modelo de IA. La puerta de enlace de inferencia de GKE prioriza las cargas de trabajo con un valor de prioridad más alto. Esto te permite multiplexar cargas de trabajo de IA sensibles a la latencia y tolerantes a la latencia en un clúster de GKE. También puedes configurar el objeto InferenceObjective para que publique modelos ajustados con LoRA.

En el siguiente diagrama, se ilustra la puerta de enlace de inferencia de GKE y su integración con la seguridad de la IA, la observabilidad y la publicación de modelos dentro de un clúster de GKE.

Relación entre los objetos `InferencePool` y `InferenceObjective` de la puerta de enlace de inferencia de GKE — **Figura:** Modelo de recursos de GKE Inference Gateway

En el siguiente diagrama, se ilustra el modelo de recursos que se enfoca en dos nuevos arquetipos centrados en la inferencia y los recursos que administran.

El modelo de recursos para los arquetipos centrados en la inferencia y sus recursos — **Figura:** Modelo de recursos de GKE Inference Gateway con arquetipos centrados en la inferencia

Cómo funciona la puerta de enlace de inferencia de GKE

GKE Inference Gateway usa extensiones de la API de Gateway y lógica de enrutamiento específica del modelo para controlar las solicitudes del cliente a un modelo de IA. En los siguientes pasos, se describe el flujo de solicitudes.

Cómo funciona el flujo de solicitudes

La puerta de enlace de GKE Inference enruta las solicitudes del cliente desde la solicitud inicial a una instancia del modelo. En esta sección, se describe cómo controla las solicitudes la puerta de enlace de inferencia de GKE. Este flujo de solicitudes es común para todos los clientes.

El cliente envía una solicitud, con el formato que se describe en la especificación de la API de OpenAI, al modelo que se ejecuta en GKE.
La puerta de enlace de inferencia de GKE procesa la solicitud con las siguientes extensiones de inferencia:
1. Extensión de enrutamiento basada en el cuerpo: Extrae el identificador del modelo del cuerpo de la solicitud del cliente y lo envía a GKE Inference Gateway. Luego, GKE Inference Gateway usa este identificador para enrutar la solicitud según las reglas definidas en el objeto HTTPRoute de la API de Gateway. El enrutamiento del cuerpo de la solicitud es similar al enrutamiento basado en la ruta de URL. La diferencia es que el enrutamiento del cuerpo de la solicitud usa datos del cuerpo de la solicitud.
2. Extensión de seguridad: Usa Model Armor o soluciones de terceros compatibles para aplicar políticas de seguridad específicas del modelo, que incluyen el filtrado de contenido, la detección de amenazas, el saneamiento y el registro. La extensión de seguridad aplica estas políticas a las rutas de procesamiento de solicitudes y respuestas.
3. Extensión del selector de extremos: Supervisa las métricas clave de los servidores de modelos dentro de InferencePool. Realiza un seguimiento del uso de la caché de clave-valor (caché de KV), la longitud de la cola de solicitudes pendientes, los índices de la caché de prefijos y los adaptadores de LoRA activos en cada servidor de modelos. Luego, enruta la solicitud a la réplica del modelo óptimo según estas métricas para minimizar la latencia y maximizar el rendimiento de la inferencia de IA.
La puerta de enlace de inferencia de GKE enruta la solicitud a la réplica del modelo que devolvió la extensión del selector de extremos.

En el siguiente diagrama, se ilustra el flujo de solicitudes de un cliente a una instancia del modelo a través de GKE Inference Gateway.

Flujo de solicitudes desde un cliente a una instancia del modelo a través de la puerta de enlace de inferencia de GKE — **Figura:** Flujo de solicitudes de GKE Inference Gateway

Cómo funciona la distribución del tráfico

La puerta de enlace de inferencia de GKE distribuye de forma dinámica las solicitudes de inferencia a los servidores de modelos dentro del objeto InferencePool. Esto ayuda a optimizar el uso de los recursos y a mantener el rendimiento en condiciones de carga variables. La puerta de enlace de inferencia de GKE usa los siguientes dos mecanismos para administrar la distribución del tráfico:

Selección de extremos: Selecciona de forma dinámica el servidor de modelos más adecuado para controlar una solicitud de inferencia. Supervisa la carga y la disponibilidad del servidor y, luego, toma decisiones de enrutamiento óptimas calculando un score para cada servidor que combina varias heurísticas de optimización:
- Enrutamiento con reconocimiento de la caché de prefijos: La puerta de enlace de inferencia de GKE hace un seguimiento de los índices de caché de prefijos disponibles en cada servidor de modelos y otorga una puntuación más alta a un servidor con una coincidencia de caché de prefijos más larga.
- Enrutamiento con reconocimiento de la carga: La puerta de enlace de inferencia de GKE supervisa la carga del servidor (utilización de la caché de KV y profundidad de la cola pendiente) y otorga una puntuación más alta a un servidor con menor carga.
- Enrutamiento compatible con LoRA: Cuando se habilita la publicación dinámica de LoRA, la puerta de enlace de inferencia de GKE supervisa los adaptadores de LoRA activos por servidor y otorga una puntuación más alta a un servidor con el adaptador de LoRA solicitado activo o espacio adicional para cargar de forma dinámica el adaptador de LoRA solicitado. Se elige un servidor con la puntuación total más alta de todos los anteriores.
Queueing and shedding: Administra el flujo de solicitudes y evita la sobrecarga de tráfico. La puerta de enlace de GKE Inference almacena las solicitudes entrantes en una cola y las prioriza según la prioridad definida.

La puerta de enlace de inferencia de GKE usa un sistema numérico Priority, también conocido como Criticality, para administrar el flujo de solicitudes y evitar la sobrecarga. Este Priority es un campo de número entero opcional que define el usuario para cada InferenceObjective. Un valor más alto significa una solicitud más importante. Cuando el sistema está bajo presión, las solicitudes con un Priority inferior a 0 se consideran de menor prioridad y se descartan primero, lo que devuelve un error 429 para proteger las cargas de trabajo más críticas. De forma predeterminada, el valor de Priority es 0. Las solicitudes solo se descartan debido a la prioridad si su Priority se establece explícitamente en un valor inferior a 0. Este sistema te permite priorizar el tráfico de inferencia en línea sensible a la latencia por sobre los trabajos por lotes menos sensibles al tiempo.

GKE Inference Gateway admite la inferencia de transmisión para aplicaciones como chatbots y traducción en vivo, que requieren actualizaciones continuas o casi en tiempo real. La inferencia de transmisión entrega respuestas en fragmentos o segmentos incrementales, en lugar de una sola salida completa. Si se produce un error durante una respuesta de transmisión, la transmisión finaliza y el cliente recibe un mensaje de error. GKE Inference Gateway no reintenta las respuestas de transmisión.

Explora ejemplos de aplicaciones

En esta sección, se proporcionan ejemplos del uso de GKE Inference Gateway para abordar diversas situaciones de aplicaciones de IA generativa.

Ejemplo 1: Entrega varios modelos de IA generativa en un clúster de GKE

Una empresa desea implementar varios modelos de lenguaje grandes (LLM) para atender diferentes cargas de trabajo. Por ejemplo, es posible que deseen implementar un modelo Gemma3 para una interfaz de chatbot y un modelo Deepseek para una aplicación de recomendaciones. La empresa debe garantizar un rendimiento óptimo de publicación para estos LLM.

Con la puerta de enlace de inferencia de GKE, puedes implementar estos LLM en tu clúster de GKE con la configuración del acelerador que elijas en un InferencePool. Luego, puedes enrutar las solicitudes según el nombre del modelo (como chatbot y recommender) y la propiedad Priority.

En el siguiente diagrama, se ilustra cómo la puerta de enlace de inferencia de GKE enruta las solicitudes a diferentes modelos según el nombre del modelo y Priority.

Enrutamiento de solicitudes a diferentes modelos según el nombre y la prioridad del modelo — **Figura:** Publicación de varios modelos de IA generativa en un clúster de GKE con GKE Inference Gateway

En este diagrama, se ilustra cómo GKE Inference Gateway controla una solicitud a un servicio de IA generativa en example.com/completions. Primero, la solicitud llega a un Gateway en el espacio de nombres Infra. Este Gateway reenvía la solicitud a un HTTPRoute en el espacio de nombres GenAI Inference, que está configurado para controlar solicitudes de modelos de chatbot y de análisis de opiniones. En el caso del modelo de chatbot, HTTPRoute divide el tráfico: el 90% se dirige a un InferencePool que ejecuta la versión actual del modelo (seleccionada por {pool: gemma}) y el 10% se dirige a un grupo con una versión más reciente ({pool: gemma-new}), por lo general, para pruebas canary. Ambos grupos están vinculados a un InferenceObjective que asigna un Priority de 10 a las solicitudes del modelo de chatbot, lo que garantiza que estas solicitudes se traten como de alta prioridad.

Ejemplo 2: Entrega adaptadores de LoRA en un acelerador compartido

Una empresa desea publicar LLMs para el análisis de documentos y se enfoca en públicos en varios idiomas, como inglés y español. Tienen modelos ajustados para cada idioma, pero necesitan usar de manera eficiente su capacidad de GPU y TPU. Puedes usar la puerta de enlace de inferencia de GKE para implementar adaptadores dinámicos ajustados con LoRA para cada idioma (por ejemplo, english-bot y spanish-bot) en un modelo base común (por ejemplo, llm-base) y un acelerador. Esto te permite reducir la cantidad de aceleradores necesarios, ya que puedes incluir varios modelos en un acelerador común.

En el siguiente diagrama, se ilustra cómo GKE Inference Gateway entrega varios adaptadores de LoRA en un acelerador compartido.