Ajuste de escala manual

En esta página, se describe cómo escalar tu servicio de forma manual. También proporciona instrucciones para un caso de uso común: cambiar el recuento de instancias según una programación con trabajos de Cloud Scheduler y la API de Cloud Run Admin.

Descripción general

De forma predeterminada, Cloud Run realiza un ajuste de escala horizontal automático hasta una cantidad máxima especificada o predeterminada de instancias según el tráfico y el uso de CPU. Sin embargo, para algunos casos de uso, es posible que desees establecer una cantidad específica de instancias con el ajuste de escala manual.

El ajuste de escala manual te permite establecer un recuento de instancias específico, independientemente del tráfico o la utilización, y sin necesidad de volver a implementar. Todo esto te brinda la opción de escribir tu propia lógica de ajuste de escala con un sistema externo. Consulta Ajuste de escala basado en programas para ver un ejemplo de esto.

Configuración mínima y máxima a nivel de revisión y ajuste de escala manual

Si configuras tu servicio para que se escale de forma manual, se ignorará la configuración de instancias mínimas y máximas a nivel de la revisión.

Divisiones de tráfico para el ajuste de escala manual

En la siguiente lista, se describe cómo se asignan las instancias cuando se divide el tráfico en el ajuste de escala manual. Esto incluye el comportamiento de las revisiones solo con etiquetas de tráfico.

  • Durante una división del tráfico, a cada revisión se le asignan instancias de forma proporcional, según la división del tráfico, de manera similar a la división del tráfico con instancias mínimas a nivel de servicio.

  • Si la cantidad de revisiones que reciben tráfico supera el recuento de instancias manual, algunas de las revisiones no tendrán instancias. El tráfico enviado a esas revisiones recibirá el mismo error que si las revisiones estuvieran inhabilitadas.

  • Para todas las revisiones que reciben tráfico en una división del tráfico, se inhabilitan las instancias mínimas y máximas a nivel de la revisión.

  • Si una revisión está activa solo debido a las etiquetas de tráfico, haz lo siguiente:

    • Si se establecen instancias mínimas a nivel de revisión, se iniciará la cantidad especificada de instancias, pero no se incluirá en el recuento total de instancias manuales del servicio. La revisión no se ajustará automáticamente.
    • Si no se establecen instancias mínimas a nivel de la revisión, la revisión se expande a, como máximo, una instancia en respuesta al tráfico enviado a la URL de la etiqueta.

Comportamiento de la facturación con el ajuste de escala manual

Cuando usas el ajuste de escala manual, el comportamiento de la facturación es similar al que se produce cuando usas la función de instancias mínimas.

Es decir, con el ajuste de escala manual y la facturación basada en instancias, las instancias inactivas ajustadas de forma manual se facturan como instancias activas.

Si utilizas el ajuste de escala manual con la facturación basada en solicitudes, las instancias inactivas escaladas manualmente se facturan como instancias mínimas inactivas. Para obtener detalles completos sobre la facturación, consulta la página de precios.

Roles obligatorios

Para obtener los permisos que necesitas para implementar servicios de Cloud Run, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener una lista de los roles y los permisos de IAM asociados con Cloud Run, consulta los roles de IAM de Cloud Run y los permisos de IAM de Cloud Run. Si tu servicio de Cloud Run interactúa con las APIs deGoogle Cloud , como las bibliotecas cliente de Cloud, consulta la guía de configuración de identidades del servicio. Para obtener más información sobre cómo otorgar roles, consulta permisos de implementación y administra el acceso.

Configura el escalamiento

Puedes configurar el modo de ajuste de escala con la Google Cloud consola, Google Cloud CLI, el archivo YAML o la API cuando creas o actualizas un servicio:

Console

  1. En la consola de Google Cloud , ve a Cloud Run:

    Ir a Cloud Run

  2. Si quieres configurar un servicio nuevo, selecciona Servicios en el menú y haz clic en Implementar contenedor para mostrar el formulario Crear servicio. Si quieres configurar un servicio existente, haz clic en el servicio para mostrar su panel de detalles y, luego, haz clic en el ícono de lápiz junto a Ajuste de escala en la parte superior derecha del panel de detalles.

  3. Ubica el formulario Ajuste de escala del servicio (para un servicio nuevo) o el formulario Editar ajuste de escala para un servicio existente.

    imagen

    En el campo Cantidad de instancias, especifica la cantidad de instancias de contenedor para el servicio.

  4. Haz clic en Crear para un servicio nuevo o en Guardar para un servicio existente.

gcloud

Para especificar el ajuste de escala de un servicio nuevo, usa el comando deploy:

gcloud beta run deploy SERVICE \
    --scaling=INSTANCE_COUNT \
    --image IMAGE_URL

Reemplaza lo siguiente:

  • SERVICE por el nombre de tu servicio
  • INSTANCE_COUNT con la cantidad de instancias del servicio. Esto configura el servicio para el ajuste de escala manual. Especifica un valor de 0 para inhabilitar el servicio. Especifica un valor de auto para usar el comportamiento predeterminado del ajuste de escala automático de Cloud Run.
  • IMAGE_URL por una referencia a la imagen del contenedor, como us-docker.pkg.dev/cloudrun/container/hello:latest Si usas Artifact Registry, el repositorio REPO_NAME debe estar creado. La URL tiene el formato LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.

Especifica el escalamiento para un servicio existente con el siguiente comando de actualización:

gcloud beta run services update SERVICE \
   --scaling=INSTANCE_COUNT

YAML

  1. Si creas un servicio nuevo, omite este paso. Si actualizas un servicio existente, descarga su configuración de YAML:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Actualiza los atributos scalingMode y manualInstanceCount:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
      run.googleapis.com/launch-stage: BETA
      run.googleapis.com/scalingMode: MODE
      run.googleapis.com/manualInstanceCount: INSTANCE_COUNT

    Reemplaza lo siguiente:

    • SERVICE por el nombre del servicio de Cloud Run
    • MODE con manual para el ajuste de escala manual o automatic para el comportamiento predeterminado del ajuste de escala automático de Cloud Run
    • INSTANCE_COUNT con la cantidad de instancias que ajustas manualmente para el servicio. Especifica un valor de 0 para inhabilitar el servicio.
  3. Crea o actualiza el servicio con el siguiente comando:

    gcloud run services replace service.yaml

API de REST

Para actualizar la cantidad mínima de instancias a nivel de servicio para un servicio determinado, envía una solicitud HTTP PATCH al extremo service de la API de Cloud Run Admin.

Por ejemplo, con curl:

    curl -H "Content-Type: application/json" \
    -H "Authorization: Bearer ACCESS_TOKEN" \
    -X PATCH \
    -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":MANUAL_INSTANCE_COUNT }}' \
    https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount

Reemplaza lo siguiente:

  • ACCESS_TOKEN por un token de acceso válido para una cuenta que tenga los permisos de IAM para actualizar un servicio. Por ejemplo, si accediste a gcloud, puedes recuperar un token de acceso con gcloud auth print-access-token. Desde una instancia de contenedor de Cloud Run, puedes recuperar un token de acceso a través del servidor de metadatos de instancias de contenedor.
  • MANUAL_INSTANCE_COUNT con la cantidad de instancias del servicio. Esto configura el servicio para el ajuste de escala manual. Especifica un valor de 0 para inhabilitar el servicio.
  • SERVICE por el nombre del servicio
  • REGION por la Google Cloud región en la que se implementa el servicio
  • PROJECT_ID por el ID del proyecto Google Cloud .

Terraform

Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.

Agrega lo siguiente a un recurso google_cloud_run_v2_service en tu configuración de Terraform:
resource "google_cloud_run_v2_service" "default" {
  name     = "SERVICE_NAME"
  location = "REGION"
  launch_stage = "BETA"

  template {
    containers {
      image = "IMAGE_URL"
    }
  }
  scaling {
    scaling_mode = "MANUAL"
    manual_instance_count = "INSTANCE_COUNT"
  }
}

Reemplaza lo siguiente:

  • SERVICE_NAME por el nombre del servicio de Cloud Run
  • REGION con la Google Cloud región. Por ejemplo, europe-west1.
  • IMAGE_URL por una referencia a la imagen del contenedor, como us-docker.pkg.dev/cloudrun/container/hello:latest Si usas Artifact Registry, el repositorio REPO_NAME debe estar creado. La URL tiene el formato LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.
  • INSTANCE_COUNT con la cantidad de instancias que ajustas manualmente para el servicio. Esta cantidad de instancias se divide entre todas las revisiones con tráfico especificado según el porcentaje de tráfico que reciben.

Cómo ver la configuración de escalamiento de tu servicio

Para ver la configuración de instancias de ajuste de escala de tu servicio de Cloud Run, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en el servicio que te interesa para abrir el panel Detalles del servicio.

  3. El parámetro de configuración de ajuste de escala actual se muestra en la parte superior derecha del panel de detalles del servicio, después de la etiqueta Ajuste de escala, junto al ícono de lápiz.

gcloud

Usa el siguiente comando para ver la configuración de escalamiento actual del servicio:

gcloud beta run services describe SERVICE

SERVICE por el nombre del servicio

Busca el campo Scaling: Manual (Instances: ) cerca de la parte superior del texto que devuelve describe.

YAML

Usa el siguiente comando para descargar la configuración YAML del servicio:

gcloud run services describe SERVICE --format export > service.yaml

La configuración del escalamiento se encuentra en los atributos scalingMode y manualInstanceCount.

Inhabilitar un servicio

Cuando inhabilitas un servicio, se permite que se completen las solicitudes que se están procesando. Sin embargo, cualquier otra solicitud a la URL del servicio fallará con un error Service unavailable o Service disabled.

Las solicitudes a las revisiones de servicio que solo están activas debido a las etiquetas de tráfico no se ven afectadas porque esas revisiones no están inhabilitadas.

Para inhabilitar un servicio, debes establecer el ajuste de escala en cero. Puedes inhabilitar un servicio con la consola, Google Cloud CLI, el archivo YAML o la API: Google Cloud

Console

  1. En la consola de Google Cloud , ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en el servicio que deseas inhabilitar para mostrar su panel de detalles y, luego, haz clic en el ícono de lápiz junto a Scaling en la parte superior derecha del panel de detalles.

  3. Ubica el formulario Editar ajuste de escala y selecciona Ajuste de escala manual.

    imagen

    En el campo etiquetado como Cantidad de instancias, ingresa el valor 0 (cero).

  4. Haz clic en Guardar.

gcloud

Para inhabilitar un servicio, usa el siguiente comando para establecer el ajuste de escala en cero:

gcloud beta run services update SERVICE --scaling=0

SERVICE por el nombre del servicio

YAML

  1. Descarga la configuración YAML de tu servicio:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Establece el atributo manualInstanceCount en cero (0):

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
      run.googleapis.com/launch-stage: BETA
      run.googleapis.com/scalingMode: manual
      run.googleapis.com/manualInstanceCount: `0`

    SERVICE por el nombre de tu servicio de Cloud Run.

  3. Crea o actualiza el servicio con el siguiente comando:

    gcloud run services replace service.yaml

API de REST

Para inhabilitar un servicio, envía una solicitud HTTP al extremo service de la API de Cloud Run Admin.PATCH

Por ejemplo, con curl:

    curl -H "Content-Type: application/json" \
    -H "Authorization: Bearer ACCESS_TOKEN" \
    -X PATCH \
    -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":0 }}' \
    https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount

Reemplaza lo siguiente:

  • ACCESS_TOKEN por un token de acceso válido para una cuenta que tenga los permisos de IAM para actualizar un servicio. Por ejemplo, si accediste a gcloud, puedes recuperar un token de acceso con gcloud auth print-access-token. Desde una instancia de contenedor de Cloud Run, puedes recuperar un token de acceso a través del servidor de metadatos de instancias de contenedor.
  • SERVICE por el nombre del servicio
  • REGION por la Google Cloud región en la que se implementa el servicio
  • PROJECT_ID por el ID del proyecto Google Cloud .

Terraform

Para inhabilitar un servicio, establece el atributo manual_instance_count en cero (0):

resource "google_cloud_run_v2_service" "default" {
  name     = "SERVICE_NAME"
  location = "REGION"
  launch_stage = "BETA"

  template {
    containers {
      image = "IMAGE_URL"
    }
  }
  scaling {
    scaling_mode = "MANUAL"
    manual_instance_count = "0"
  }
}

Reemplaza lo siguiente:

  • SERVICE_NAME por el nombre del servicio de Cloud Run
  • REGION con la Google Cloud región. Por ejemplo, europe-west1.
  • IMAGE_URL por una referencia a la imagen del contenedor, como us-docker.pkg.dev/cloudrun/container/hello:latest Si usas Artifact Registry, el repositorio REPO_NAME debe estar creado. La URL tiene el formato LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.

Ejemplo de ajuste de tamaño basado en el programa

Un caso de uso común del ajuste de escala manual es cambiar el recuento de instancias según un programa predefinido. En este ejemplo, usamos Cloud Scheduler para programar dos trabajos, cada uno de los cuales invoca la API de Cloud Run Admin para ajustar la cantidad de instancias. El primer trabajo establece que el servicio se escale horizontalmente de forma manual a 10 instancias durante el horario de atención (de 9 a.m. a 5 p.m., de lunes a viernes). El segundo trabajo establece que el servicio se reduzca a cero instancias durante las horas no laborales.

Ten en cuenta que, si configuras las instancias en cero, como se muestra en el ejemplo, se inhabilita el servicio, pero no los trabajos de Cloud Scheduler. Esos trabajos seguirán ejecutándose y restablecerán (y volverán a habilitar) el servicio a 10 instancias según lo programado.

En este ejemplo, usamos la guía de inicio rápido de Cloud Run para mayor simplicidad, pero puedes usar el servicio que elijas.

Para configurar el ajuste de escala manual basado en el programa, haz lo siguiente:

  1. Implementa tu servicio con el siguiente comando:

    gcloud beta run deploy SERVICE \
       --image=us-docker.pkg.dev/cloudrun/container/hello \
       --region=REGION \
       --project PROJECT_ID

    Reemplaza las siguientes variables:

    • REGION por la región en la que se implementa el servicio de Cloud Run
    • SERVICE por el nombre del servicio de Cloud Run
  2. Configura tu servicio para el ajuste de escala manual a 10 instancias con el siguiente comando:

    gcloud beta run services update SERVICE \
       --region=REGION \
       --scaling=10
  3. Crea un trabajo de Cloud Scheduler que escale horizontalmente las instancias del servicio a 10 instancias durante el horario comercial de forma manual:

    gcloud scheduler jobs create http hello-start-instances \
      --location=REGION \
      --schedule="0 9 * * MON-FRI" \
      --time-zone=America/Los_Angeles \
      --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/
      locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \
      --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \
      --http-method=PUT \
      --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":10}}' \
      --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com

    Este comando crea un trabajo de Cloud Scheduler que realiza una llamada HTTP a la API de Cloud Run Admin y establece la cantidad de instancias en 10. En el ejemplo, se usa la cuenta de servicio predeterminada de Compute Engine PROJECT_NUMBER-compute@developer.gserviceaccount.com para los trabajos de Cloud Scheduler. Puedes usar cualquier cuenta de servicio que tenga permisos para actualizar los servicios de Cloud Run.

  4. Crea un trabajo de Cloud Scheduler que ajuste manualmente las instancias del servicio a cero durante las horas no laborales, lo que inhabilitará el servicio:

    gcloud scheduler jobs create http hello-stop-instances \
      --location=REGION \
      --schedule="0 17 * * MON-FRI" \
      --time-zone=America/Los_Angeles \
      --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/
      locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \
      --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \
      --http-method=PUT \
      --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":0}}' \
      --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com

    Este comando crea un trabajo de Cloud Scheduler que realiza una llamada HTTP a la API de Cloud Run Admin y establece en cero las instancias de escalamiento manual. Esto inhabilita el servicio de manera efectiva, pero no los trabajos de Cloud Scheduler, que seguirán ejecutándose y restableciendo (y volviendo a habilitar) el servicio a 10 instancias según lo programado.