En esta página, se presenta Inference Gateway de Google Kubernetes Engine (GKE), una mejora de la Gateway de GKE para la publicación optimizada de aplicaciones de IA generativa. En él, se explican los conceptos clave, las funciones y el funcionamiento de GKE Inference Gateway.
Esta página está destinada a los siguientes arquetipos de usuarios:
- Ingenieros de aprendizaje automático (AA), administradores y operadores de plataformas, y especialistas en datos y en IA que estén interesados en usar las capacidades de organización de contenedores de Kubernetes para entregar cargas de trabajo de IA/AA.
- Arquitectos de nube y especialistas en redes que interactúan con las redes de Kubernetes
Antes de leer esta página, asegúrate de estar familiarizado con lo siguiente:
- Organización de IA/AA en GKE.
- Glosario de IA generativa
- Conceptos de redes de GKE, incluidos los servicios y la API de GKE Gateway
- Balanceo de cargas enGoogle Cloud, en especial cómo interactúan los balanceadores de cargas con GKE
Descripción general
La puerta de enlace de inferencia de GKE es una extensión de la puerta de enlace de GKE que proporciona un enrutamiento y un balanceo de cargas optimizados para la entrega de cargas de trabajo de Inteligencia Artificial (IA) generativa. Simplifica la implementación, la administración y la observabilidad de las cargas de trabajo de inferencia de IA.
Características y beneficios
La puerta de enlace de inferencia de GKE proporciona las siguientes capacidades clave para entregar de manera eficiente modelos de IA generativa para aplicaciones de IA generativa en GKE:
- Balanceo de cargas optimizado para la inferencia: Distribuye las solicitudes para optimizar el rendimiento de la entrega de modelos de IA. Utiliza métricas de los servidores de modelos, como
KVCache Utilization
yqueue length of pending requests
, para usar aceleradores (como GPU y TPU) de manera más eficiente en las cargas de trabajo de IA generativa. - Entrega de modelos ajustados con LoRA dinámico: Admite la entrega de modelos ajustados con LoRA dinámico en un acelerador común. Esto reduce la cantidad de GPU y TPU necesarias para entregar modelos, ya que se multiplexan varios modelos ajustados con LoRA en un modelo base y un acelerador comunes.
- Ajuste de escala automático optimizado para la inferencia: El Horizontal Pod Autoscaler (HPA) de GKE usa métricas del servidor de modelos para ajustar la escala automáticamente, lo que ayuda a garantizar el uso eficiente de los recursos de procesamiento y el rendimiento optimizado de la inferencia.
- Enrutamiento compatible con el modelo: Enruta las solicitudes de inferencia según los nombres de los modelos definidos en las especificaciones de
OpenAI API
dentro de tu clúster de GKE. Puedes definir políticas de enrutamiento de Gateway, como la división del tráfico y la duplicación de solicitudes, para administrar diferentes versiones del modelo y simplificar los lanzamientos de modelos. Por ejemplo, puedes enrutar solicitudes para un nombre de modelo específico a diferentes objetosInferencePool
, cada uno de los cuales entrega una versión diferente del modelo. - Entrega específica del modelo
Criticality
: Te permite especificar la entregaCriticality
de modelos de IA. Prioriza las solicitudes sensibles a la latencia por sobre los trabajos de inferencia por lotes tolerantes a la latencia. Por ejemplo, puedes priorizar las solicitudes de aplicaciones sensibles a la latencia y descartar las tareas menos sensibles al tiempo cuando los recursos son limitados. - Seguridad de la IA integrada: Se integra con Model Armor de Google Cloud, un servicio que aplica verificaciones de seguridad de la IA a las instrucciones y respuestas en la puerta de enlace. Model Armor proporciona registros de solicitudes, respuestas y procesamiento para el análisis y la optimización retrospectivos. Las interfaces abiertas de GKE Inference Gateway permiten que los proveedores y desarrolladores externos integren servicios personalizados en el proceso de solicitud de inferencia.
- Observabilidad de la inferencia: Proporciona métricas de observabilidad para las solicitudes de inferencia, como la tasa de solicitudes, la latencia, los errores y la saturación. Supervisa el rendimiento y el comportamiento de tus servicios de inferencia.
Comprende los conceptos clave
GKE Inference Gateway mejora la puerta de enlace de GKE existente que usa objetos GatewayClass
. GKE Inference Gateway presenta las siguientes definiciones de recursos personalizados (CRD) nuevas de la API de Gateway, alineadas con la extensión de la API de Gateway de Kubernetes de OSS para la inferencia:
- Objeto
InferencePool
: Representa un grupo de Pods (contenedores) que comparten la misma configuración de procesamiento, el mismo tipo de acelerador, el mismo modelo de lenguaje base y el mismo servidor de modelos. Esto agrupa y administra de forma lógica los recursos de servicio de tu modelo de IA. Un solo objetoInferencePool
puede abarcar varios Pods en diferentes nodos de GKE y proporciona escalabilidad y alta disponibilidad. - Objeto
InferenceModel
: Especifica el nombre del modelo de publicación delInferencePool
según la especificación deOpenAI API
. El objetoInferenceModel
también especifica las propiedades de la publicación del modelo, como elCriticality
del modelo de IA. La puerta de enlace de inferencia de GKE prioriza las cargas de trabajo clasificadas comoCritical
. Esto te permite multiplexar cargas de trabajo de IA sensibles a la latencia y tolerantes a la latencia en un clúster de GKE. También puedes configurar el objetoInferenceModel
para que entregue modelos ajustados con LoRA. - Objeto
TargetModel
: Especifica el nombre del modelo objetivo y el objetoInferencePool
que entrega el modelo. Esto te permite definir políticas de enrutamiento de Gateway, como la división del tráfico y la duplicación de solicitudes, y simplificar los lanzamientos de versiones de modelos.
En el siguiente diagrama, se ilustra la puerta de enlace de inferencia de GKE y su integración con la seguridad de la IA, la observabilidad y la publicación de modelos dentro de un clúster de GKE.

En el siguiente diagrama, se ilustra el modelo de recursos que se enfoca en dos nuevas personalidades centradas en la inferencia y los recursos que administran.

Cómo funciona GKE Inference Gateway
GKE Inference Gateway usa extensiones de la API de Gateway y lógica de enrutamiento específica del modelo para controlar las solicitudes del cliente a un modelo de IA. En los siguientes pasos, se describe el flujo de solicitudes.
Cómo funciona el flujo de solicitudes
La puerta de enlace de inferencia de GKE enruta las solicitudes del cliente desde la solicitud inicial a una instancia del modelo. En esta sección, se describe cómo controla las solicitudes la puerta de enlace de inferencia de GKE. Este flujo de solicitudes es común para todos los clientes.
- El cliente envía una solicitud, con el formato que se describe en la especificación de la API de OpenAI, al modelo que se ejecuta en GKE.
- La puerta de enlace de inferencia de GKE procesa la solicitud con las siguientes extensiones de inferencia:
- Extensión de enrutamiento basada en el cuerpo: Extrae el identificador del modelo del cuerpo de la solicitud del cliente y lo envía a GKE Inference Gateway.
Luego, la puerta de enlace de GKE Inference usa este identificador para enrutar la solicitud según las reglas definidas en el objeto
HTTPRoute
de la API de puerta de enlace. El enrutamiento del cuerpo de la solicitud es similar al enrutamiento basado en la ruta de URL. La diferencia es que el enrutamiento del cuerpo de la solicitud usa datos del cuerpo de la solicitud. - Extensión de seguridad: Usa Model Armor o soluciones de terceros compatibles para aplicar políticas de seguridad específicas del modelo que incluyen filtrado de contenido, detección de amenazas, saneamiento y registro. La extensión de seguridad aplica estas políticas a las rutas de procesamiento de solicitudes y respuestas. Esto permite que la extensión de seguridad sanee y registre tanto las solicitudes como las respuestas.
- Extensión del selector de extremos: Supervisa las métricas clave de los servidores de modelos dentro de
InferencePool
. Realiza un seguimiento del uso de la caché de clave-valor (caché de KV), la longitud de la cola de solicitudes pendientes y los adaptadores de LoRA activos en cada servidor de modelos. Luego, enruta la solicitud a la réplica del modelo óptimo según estas métricas para minimizar la latencia y maximizar la capacidad de procesamiento de la inferencia de IA.
- Extensión de enrutamiento basada en el cuerpo: Extrae el identificador del modelo del cuerpo de la solicitud del cliente y lo envía a GKE Inference Gateway.
Luego, la puerta de enlace de GKE Inference usa este identificador para enrutar la solicitud según las reglas definidas en el objeto
- La puerta de enlace de inferencia de GKE enruta la solicitud a la réplica del modelo que devuelve la extensión del selector de extremos.
En el siguiente diagrama, se ilustra el flujo de solicitudes de un cliente a una instancia del modelo a través de GKE Inference Gateway.

Cómo funciona la distribución del tráfico
La puerta de enlace de inferencia de GKE distribuye de forma dinámica las solicitudes de inferencia a los servidores de modelos dentro del objeto InferencePool
. Esto ayuda a optimizar el uso de los recursos y a mantener el rendimiento en condiciones de carga variables.
GKE Inference Gateway usa los siguientes dos mecanismos para administrar la distribución del tráfico:
Selección de extremos: Selecciona de forma dinámica el servidor de modelos más adecuado para controlar una solicitud de inferencia. Supervisa la carga y la disponibilidad del servidor y, luego, toma decisiones de enrutamiento.
Queueing and shedding: Administra el flujo de solicitudes y evita la sobrecarga de tráfico. La puerta de enlace de GKE Inference almacena las solicitudes entrantes en una cola, las prioriza según los criterios definidos y las descarta cuando el sistema está sobrecargado.
La puerta de enlace de inferencia de GKE admite los siguientes niveles de Criticality
:
Critical
: Se priorizan estas cargas de trabajo. El sistema garantiza que estas solicitudes se atiendan incluso con restricciones de recursos.Standard
: Estas cargas de trabajo se atienden cuando hay recursos disponibles. Si los recursos son limitados, estas solicitudes se descartan.Sheddable
: Estas cargas de trabajo se entregan de forma oportunista. Si los recursos son escasos, estas solicitudes se descartan para proteger las cargas de trabajo deCritical
.
Cuando el sistema está bajo presión de recursos, las solicitudes Standard
y Sheddable
se descartan de inmediato con un código de error 429
para proteger las cargas de trabajo Critical
.
Inferencia de transmisión
GKE Inference Gateway admite la inferencia de transmisión para aplicaciones como chatbots y traducción en vivo que requieren actualizaciones continuas o casi en tiempo real. La inferencia de transmisión entrega respuestas en fragmentos o segmentos incrementales, en lugar de como un solo resultado completo. Si se produce un error durante una respuesta de transmisión, la transmisión finaliza y el cliente recibe un mensaje de error. GKE Inference Gateway no reintenta las respuestas de transmisión.
Explora ejemplos de aplicaciones
En esta sección, se proporcionan ejemplos para abordar diversas situaciones de aplicaciones de IA generativa con la puerta de enlace de inferencia de GKE.
Ejemplo 1: Entrega varios modelos de IA generativa en un clúster de GKE
Una empresa desea implementar varios modelos de lenguaje grandes (LLM) para satisfacer diferentes cargas de trabajo. Por ejemplo, es posible que deseen implementar un modelo Gemma3
para una interfaz de chatbot y un modelo Deepseek
para una aplicación de recomendaciones. La empresa debe garantizar un rendimiento óptimo de publicación para estos LLM.
Con GKE Inference Gateway, puedes implementar estos LLM en tu clúster de GKE con la configuración del acelerador que elijas en un InferencePool
. Luego, puedes enrutar las solicitudes según el nombre del modelo (como chatbot
y recommender
) y la propiedad Criticality
.
En el siguiente diagrama, se ilustra cómo la puerta de enlace de GKE Inference enruta las solicitudes a diferentes modelos según el nombre del modelo y Criticality
.

Ejemplo 2: Entrega adaptadores de LoRA en un acelerador compartido
Una empresa quiere ofrecer LLMs para el análisis de documentos y se enfoca en públicos en varios idiomas, como inglés y español. Tienen modelos ajustados para cada idioma, pero necesitan usar de manera eficiente su capacidad de GPU y TPU. Puedes usar GKE Inference Gateway para implementar adaptadores dinámicos ajustados con LoRA para cada idioma (por ejemplo, english-bot
y spanish-bot
) en un modelo base común (por ejemplo, llm-base
) y un acelerador. Esto te permite reducir la cantidad de aceleradores necesarios al empaquetar de forma densa varios modelos en un acelerador común.
En el siguiente diagrama, se ilustra cómo la puerta de enlace de GKE Inference entrega varios adaptadores de LoRA en un acelerador compartido.

¿Qué sigue?
- Implementa la puerta de enlace de GKE Inference
- Personaliza la configuración de la puerta de enlace de inferencia de GKE
- Entrega un LLM con GKE Inference Gateway