Se usó la API de Cloud Translation para traducir esta página.

Información acerca del ajuste de escala automático de instancias en los servicios de Cloud Run

En esta página, se describe el comportamiento predeterminado del ajuste de escala automático de Cloud Run. Si necesitas más control sobre el comportamiento del escalamiento, obtén información sobre la opción de escalamiento alternativa, el escalamiento manual.

De forma predeterminada, la escala de cada revisión de Cloud Run se ajusta automáticamente a la cantidad de instancias necesarias para controlar todas las solicitudes entrantes, los eventos o la utilización de CPU.

Cuando una revisión no recibe tráfico, la cantidad de instancias se reduce a cero de forma predeterminada. Sin embargo, si es necesario, puedes cambiar este valor predeterminado para especificar que una instancia se mantenga inactiva o “en espera” con la configuración de instancias mínimas. Si tu servicio usa la CPU incluso cuando no procesa solicitudes, debes establecer instancias mínimas iguales a 1.

Además de la frecuencia de las solicitudes entrantes, los eventos o el uso de CPU, la cantidad de instancias programadas se ve afectada por los siguientes factores:

El uso promedio de CPU de las instancias existentes durante un período de un minuto, con el objetivo de mantener las instancias programadas en un 60% de uso de CPU.
La simultaneidad de solicitudes actual, cuyo objetivo es mantener la simultaneidad de instancias en el 60% de la simultaneidad máxima durante un período de un minuto.
La configuración de la cantidad máxima de instancias
La configuración de la cantidad mínima de instancias

El escalador automático de Cloud Run las evalúa de forma periódica.

Facturación y ajuste de escala automático basados en instancias

Si configuras la facturación basada en instancias para tu servicio de Cloud Run, debes tener en cuenta el comportamiento del escalamiento a cero y desde cero.

Escalamiento desde cero. Solo una solicitud puede activar el escalamiento desde cero, por lo que un servicio que no procesa solicitudes no puede escalar desde cero. Para estas cargas de trabajo, puedes establecer instancias mínimas > 0 o incluir una “solicitud de activación” en el diseño a fin de reiniciar el procesamiento después de reducir la escala a cero.

Reducción de escala a cero. Dado que ninguna instancia tiene un 0% de CPU, si se observa todo el uso de CPU, nunca se escalaría a cero. Esto significa que la decisión de escalar de uno a cero solo se puede tomar si se verifica que la instancia está procesando una solicitud.

Acerca de la cantidad máxima de instancias

En algunos casos, se recomienda limitar la cantidad total de instancias que se pueden iniciar, por motivos de control de costos o para obtener una mejor compatibilidad con otros recursos que usa el servicio. Por ejemplo, el servicio de Cloud Run puede interactuar con una base de datos que solo puede manejar una cantidad determinada de conexiones abiertas simultáneas.

Puedes usar la configuración de un máximo de instancias para limitar la cantidad total de instancias que se pueden iniciar en paralelo, como se indica en Configura una cantidad máxima de instancias.

Consumo superior a la cantidad máxima de instancias

En circunstancias normales, la revisión se escala horizontalmente mediante la creación de instancias nuevas para controlar la carga de tráfico entrante. Sin embargo, cuando estableces un límite máximo de instancias, en algunas situaciones, no habrá suficientes instancias para poder manejar esa carga de tráfico. En ese caso, las solicitudes entrantes se ponen en cola (pendientes) de la siguiente manera:

Las solicitudes permanecerán pendientes hasta 3.5 veces el tiempo de inicio promedio de las instancias de contenedor de este servicio o 10 segundos, lo que sea mayor.

Durante este período, si una instancia termina de procesar solicitudes, estará disponible para procesar las solicitudes pendientes en cola. Si no hay instancias disponibles durante el período, la solicitud falla con un código de error 429.

Garantías de escalamiento

El límite máximo de instancias es un límite superior por revisión y significa que la cantidad de instancias para esta revisión no debe exceder el máximo.

En circunstancias normales, Cloud Run puede escalar horizontalmente hasta el límite máximo de instancias muy rápido para controlar todas las solicitudes o los eventos entrantes. Sin embargo, establecer un límite alto no significa que la revisión podrá escalar horizontalmente hasta la cantidad especificada de instancias en un momento determinado. En circunstancias excepcionales, Cloud Run puede limitar el escalamiento para garantizar un buen servicio para todos los clientes.

Se excedió la cantidad máxima de instancias debido a los aumentos repentinos de tráfico

En algunos casos, como picos de tráfico rápidos o mantenimiento del sistema, Cloud Run podría crear, durante un período breve, más instancias de las que se especifican en la configuración de instancias máximas. Las instancias nuevas se pueden iniciar en exceso de la configuración de instancias máximas para reemplazar las instancias existentes y proporcionar un período de gracia para que las solicitudes en tránsito terminen de procesarse.

El límite máximo de instancias se puede superar en las operaciones normales algunas veces a la semana. Por lo general, el período de gracia dura hasta 15 minutos o hasta el valor especificado en la configuración de tiempo de espera de la solicitud. Estas instancias adicionales se destruyen en un plazo de 15 minutos después de que quedan inactivas.

Si se necesitan muchos reemplazos, las actualizaciones suelen distribuirse durante muchos minutos o incluso horas, pero cada reemplazo tiene un exceso de instancia solo durante el período de gracia. Las instancias que excedan el valor máximo de instancia suelen ser menos del doble del límite máximo de instancias configuradas, pero pueden ser mucho más grandes para los aumentos de tráfico repentinos.

Las pruebas de carga experimentan más instancias que exceden la configuración máxima porque el sistema puede cambiar dónde se entregan los picos de tráfico para conservar la capacidad de las cargas de trabajo existentes que tienen patrones de carga sostenidos.

Si tu servicio no puede tolerar este comportamiento temporal, se recomienda incluir un margen de seguridad y reducir la cantidad de instancias máximas permitidas.

Divisiones de tráfico

Debido a que el límite máximo de instancias es un límite para cada revisión, si el servicio divide el tráfico entre varias revisiones, la cantidad total de instancias del servicio puede exceder la cantidad máxima de instancias. por revisión. Esto se puede observar en las métricas de recuento de instancias.

Implementaciones

Cuando implementas una revisión nueva para entregar el 100% del tráfico, Cloud Run inicia suficientes instancias de la revisión nueva antes de dirigir el tráfico a ella. Esto reduce el impacto de las implementaciones de revisión nuevas en las latencias de solicitud, en especial cuando se entregan niveles altos de tráfico. Debido a que el límite máximo de instancias es un límite para cada revisión, durante una implementación, la cantidad total de instancias del servicio puede exceder el máximo de instancias por revisión. Esto se puede observar en las métricas de recuento de instancias.

Instancias inactivas y minimización de inicios en frío

Cloud Run no cierra las instancias de inmediato una vez que terminan de controlar todas las solicitudes. Para minimizar el impacto de los inicios en frío, Cloud Run puede mantener algunas instancias inactivas durante un máximo de 15 minutos. Los recursos de Cloud Run que tienen habilitadas las GPUs pueden mantener algunas instancias inactivas durante un máximo de 10 minutos. Estas instancias están listas para manejar solicitudes en caso de un aumento repentino de tráfico.

Por ejemplo, cuando una instancia termina de controlar las solicitudes, puede permanecer inactiva por un tiempo en caso de que se necesite controlar otra solicitud. Una instancia inactiva puede conservar recursos, como conexiones de bases de datos abiertas. Ten en cuenta que el parámetro de configuración de facturación predeterminado es la facturación basada en solicitudes, a menos que configures de forma explícita tu servicio para que tenga facturación basada en instancias.

Para mantener las instancias inactivas de forma permanente, usa la configuración min-instance. Ten en cuenta que usar esta función generará costos incluso cuando el servicio no entregue solicitudes de forma activa.

Ajuste de escala automático y solicitudes pendientes

Las solicitudes permanecerán pendientes hasta 3.5 veces el tiempo de inicio promedio de las instancias de contenedor de este servicio o 10 segundos, lo que sea mayor.

Impacto del ajuste de escala automático en los servicios de copia de seguridad

A medida que la cantidad de instancias aumenta de automáticamente, tu servicio de Cloud Run puede encontrar límites con sus servicios de copia de seguridad. Por ejemplo, Cloud SQL tiene un límite de cuota de la API. Asegúrate de que estos servicios de copia de seguridad tengan suficiente cuota y puedan manejar conexiones desde todas las instancias de tu servicio de Cloud Run. Considera configurar una cantidad máxima de instancias para evitar sobrecargar los servicios de copia de seguridad.

Ajuste de escala automático y Pub/Sub

Google recomienda usar suscripciones de envío para consumir mensajes de un tema de Pub/Sub en Cloud Run. El contenedor recibe mensajes enviados, como solicitudes HTTP, lo que activa el mismo comportamiento de ajuste de escala automático.

Ajuste de escala automático y varios contenedores (sidecars)

Cloud Run considera el uso de CPU de las instancias para el ajuste de escala automático, en el que el uso de CPU de una instancia es el porcentaje de CPU asignada en uso.

Ten en cuenta que asignas CPU cuando estableces límites de CPU a nivel del contenedor. Si usas varios contenedores por instancia, la asignación de CPU real para esa instancia es la suma de los límites de CPU que estableces en cada contenedor.

¿Qué sigue?

Para obtener más información sobre otras opciones de escalamiento, consulta escalamiento manual.
Para administrar la cantidad máxima de instancias de los servicios de Cloud Run, consulta Configura una cantidad máxima de instancias.
Para administrar la cantidad máxima de solicitudes simultáneas controladas por cada instancia, consulta Configura la simultaneidad.
Si deseas optimizar la configuración de simultaneidad, consulta las sugerencias de desarrollo para ajustar la simultaneidad.
Si quieres especificar que una instancia inactiva se siga ejecutando a fin de minimizar la latencia o los inicios en frío en las primeras solicitudes, consulta Usa min-instance para habilitar instancias inactivas.