최소 인스턴스 수를 설정하면 서비스의 느린 컨테이너 시작 시간을 방지하고 서비스 지연 시간을 줄일 수 있습니다. 이 페이지에서는 최소 인스턴스 설정을 사용하여 서비스에 유휴 인스턴스를 사용 설정하는 방법을 설명합니다.
Cloud Run 서비스의 경우 Cloud Run은 기본적으로 수신 요청 수를 기준으로 인스턴스 수에 맞게 확장됩니다.
하지만 서비스의 지연 시간을 단축해야 하는 경우, 특히 활성 인스턴스 0개에서 확장할 때 웜 상태로 유지하고 요청 처리를 위해 준비할 최소 컨테이너 인스턴스 수를 지정하여 이러한 기본 동작을 변경할 수 있습니다. 이 최적화에 대한 자세한 내용은 일반적인 개발 팁을 참조하세요.
Cloud Run은 요청을 처리하지 않는(유휴 상태) 인스턴스를 삭제합니다.
최소 인스턴스가 설정되면 요청을 처리하지 않는 경우에도 Cloud Run에서 실행되는 최소 인스턴스 수를 유지합니다. min-instances
숫자보다 큰 활성 인스턴스는 요청을 수신하지 않을 경우 유휴 상태가 될 수 있습니다.
예를 들어 min-instances
가 10
이고 활성 인스턴스 수가 0
이면 유휴 인스턴스 수는 10
입니다. 활성 인스턴스 수가 6
으로 증가하면 유휴 인스턴스 수가 4
로 줄어듭니다.
서비스에서 최근에 트래픽을 처리하지 않은 경우 최소 인스턴스에 하나 이상을 지정했더라도 활성 인스턴스 측정항목에 활성 인스턴스가 없는 것으로 표시될 수 있습니다.
최소 인스턴스 적용(서비스 수준 및 버전 수준 비교)
서비스 수준 또는버전 수준에서 최소 인스턴스를 구성할 수 있습니다. 서비스 수준에서 최소 인스턴스를 적용하고 서비스 수준 및 버전 수준 최소 인스턴스를 결합하지 않는 것이 좋습니다.
버전 수준에서 최소 인스턴스를 적용하면 버전이 배포될 때 설정이 적용됩니다. 서비스 수준에서 이 기능을 적용하면 새 버전을 배포하지 않아도 설정이 적용됩니다.
태그 지정 버전 및 서비스 수준 최소 인스턴스
태그 지정 버전이 시작되지만 트래픽 분할에 포함된 경우 서비스 수준 최소 인스턴스에만 포함됩니다.
결제
최소 인스턴스 기능을 사용하여 계속 실행되는 인스턴스에서 청구 비용이 발생합니다. 이러한 청구 비용은 매우 예측 가능하므로 약정 사용 할인을 구매하는 것이 좋습니다.
최소 인스턴스 및 항상 할당되는 CPU
요청 외부의 CPU가 필요한 경우 CPU를 항상 할당됨으로 구성할 수 있습니다.
최소 인스턴스 재시작 수
최소 인스턴스는 언제든지 다시 시작될 수 있습니다.
버전 및 최소 인스턴스
최소 인스턴스가 서비스 수준에서 설정되면 트래픽 분할에 비례하여 트래픽을 제공하는 모든 버전에 분산됩니다.
최소 인스턴스가 버전 수준에서 설정되면 버전이 트래픽 분할에서 참조(0%인 경우에도)되거나 트래픽 태그가 할당될 때마다 최소 인스턴스가 시작됩니다.
필요한 역할
Cloud Run 서비스를 구성하고 배포하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
-
Cloud Run 서비스에 대한 Cloud Run 개발자(
roles/run.developer
) 역할 -
서비스 ID에 대한 서비스 계정 사용자(
roles/iam.serviceAccountUser
) 역할
Cloud Run과 연결된 IAM 역할 및 권한 목록은 Cloud Run IAM 역할 및 Cloud Run IAM 권한을 참조하세요. Cloud Run 서비스가 Cloud 클라이언트 라이브러리와 같은 Google Cloud API와 상호작용하는 경우에는 서비스 ID 구성 가이드를 참조하세요. 역할 부여에 대한 자세한 내용은 배포 권한 및 액세스 관리를 참조하세요.
서비스 수준 최소 인스턴스 설정 및 업데이트
기본적으로 컨테이너 인스턴스에서 서비스 수준 최소 인스턴스는 0
설정으로 해제됩니다. 이러한 기본값은 Google Cloud 콘솔, Google Cloud CLI, YAML 파일을 사용하여 변경할 수 있습니다.
콘솔
Google Cloud 콘솔에서 Cloud Run으로 이동합니다.
새 서비스를 구성하는 경우 컨테이너 배포를 클릭하고 서비스를 선택하여 서비스 만들기 양식을 표시합니다. 기존 서비스를 구성하는 경우 서비스를 클릭하여 세부정보 패널을 표시한 후 세부정보 패널 오른쪽 상단의 최소 인스턴스 옆에 있는 펜 아이콘을 클릭합니다.
서비스 자동 확장 양식을 찾습니다.
- 최소 인스턴스 수로 라벨이 지정된 필드에서 요청을 수신할 수 있도록 웜 상태로 유지하기 위해 컨테이너 인스턴스 수를 지정합니다.
새 서비스의 경우 만들기를 클릭하고 기존 서비스의 경우 배포를 클릭합니다.
gcloud
다음 명령어를 사용하여 지정된 서비스에 대해 service-min-instances
를 업데이트합니다.
gcloud run services update SERVICE --service-min-instances MIN-VALUE
다음과 같이 바꿉니다.
- SERVICE를 서비스 이름으로 바꿉니다.
- MIN-VALUE: 요청을 수신할 수 있도록 웜 상태로 유지할 컨테이너 인스턴스 수. 최소 인스턴스 설정을 삭제하려면
default
를 지정합니다.
또는 다음 명령어를 사용해서 배포 중 service-min-instances
를 설정할 수 있습니다.
gcloud run deploy --image IMAGE_URL --service-min-instances MIN-VALUE
다음과 같이 바꿉니다.
- IMAGE_URL: 컨테이너 이미지에 대한 참조(예:
us-docker.pkg.dev/cloudrun/container/hello:latest
). Artifact Registry를 사용하는 경우 저장소 REPO_NAME이 이미 생성되어 있어야 합니다. URL의 형식은LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
입니다. - MIN-VALUE: 요청을 수신할 수 있도록 웜 상태로 유지할 컨테이너 인스턴스 수. 최소 인스턴스 설정을 삭제하려면
default
를 지정합니다.
YAML
새 서비스를 만드는 경우에는 이 단계를 건너뜁니다. 기존 서비스를 업데이트하는 경우 YAML 구성을 다운로드합니다.
gcloud run services describe SERVICE --format export > service.yaml
run.googleapis.com/minScale
속성을 업데이트합니다.apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE annotations: run.googleapis.com/minScale: 'MIN_INSTANCE'
다음과 같이 바꿉니다.
- SERVICE: Cloud Run 서비스 이름
- MIN-INSTANCE: 요청을 수신할 수 있도록 웜 상태로 유지할 인스턴스 수.
다음 명령어를 사용하여 서비스를 만들거나 업데이트합니다.
gcloud run services replace service.yaml
클라이언트 라이브러리
코드에서 서비스의 서비스 수준 최소 인스턴스를 업데이트하려면 다음 단계를 따르세요.
REST API
특정 서비스의 서비스 수준 최소 인스턴스를 업데이트하려면 Cloud Run Admin API service
엔드포인트에 PATCH
HTTP 요청을 보냅니다.
예를 들어 다음과 같이 curl
을 사용합니다.
curl -H "Content-Type: application/json" \ -H "Authorization: Bearer ACCESS_TOKEN" \ -X PATCH \ -d '{ "scaling": { "minInstanceCount": MIN-VALUE }}' \ https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=scaling.minInstanceCount
다음과 같이 바꿉니다.
- ACCESS_TOKEN: 서비스를 삭제할 수 있는 IAM 권한이 있는 계정의 유효한 액세스 토큰.
예를 들어
gcloud
에 로그인한 경우gcloud auth print-access-token
을 사용하여 액세스 토큰을 검색할 수 있습니다. Cloud Run 컨테이너 인스턴스 내에서 컨테이너 인스턴스 메타데이터 서버를 사용하여 액세스 토큰을 검색할 수 있습니다. - MIN-VALUE: 요청을 수신할 수 있도록 웜 상태로 유지할 컨테이너 인스턴스 수.
- SERVICE: 서비스 이름
- REGION: 서비스의 Google Cloud 리전
- PROJECT-ID: Google Cloud 프로젝트 ID
서비스 수준 최소 인스턴스 보기
Cloud Run 서비스의 현재 서비스 수준 최소 인스턴스 설정을 보려면 다음 안내를 따르세요.
콘솔
Google Cloud 콘솔에서 Cloud Run으로 이동합니다.
관심이 있는 서비스를 클릭하여 서비스 세부정보 패널을 엽니다.
현재 설정은 최소 인스턴스 옆에 있는 서비스 세부정보 패널의 오른쪽 상단에 표시됩니다.
gcloud
다음 명령어를 사용하세요.
gcloud run services describe SERVICE
반환된 구성에서 Service-level Min Instances: 값을 찾습니다.
버전 수준 최소 인스턴스 설정 및 업데이트
구성을 변경하면 새 버전이 생성됩니다. 이를 변경하는 명시적 업데이트가 없으면 이후 버전에도 이 구성 설정이 자동으로 적용됩니다.
기본적으로 컨테이너 인스턴스는 0
설정으로 min-instances
를 해제합니다. 새 서비스를 만들거나 새 버전을 배포하는 경우 Google Cloud 콘솔, Google Cloud CLI 또는 YAML 파일을 사용하여 이 기본값을 변경할 수 있습니다.
콘솔
Google Cloud 콘솔에서 Cloud Run으로 이동합니다.
컨테이너 배포를 클릭하고 서비스를 선택하여 새 서비스를 구성합니다. 기존 서비스를 구성하는 경우 서비스를 클릭한 후 새 버전 수정 및 배포를 클릭합니다.
새 서비스를 구성하는 경우 초기 서비스 설정 페이지를 작성한 후 컨테이너, 볼륨, 네트워킹, 보안을 클릭하여 서비스 구성 페이지를 펼칩니다.
컨테이너 탭을 클릭합니다.
- 최소 인스턴스 수로 라벨이 지정된 필드에서 요청을 수신할 수 있도록 웜 상태로 유지하기 위해 컨테이너 인스턴스 수를 지정합니다.
만들기 또는 배포를 클릭합니다.
gcloud
다음 명령어를 사용하여 제공된 서비스의 min-instance
를 업데이트합니다.
gcloud run services update SERVICE --min-instances MIN-VALUE
다음과 같이 바꿉니다.
- SERVICE를 서비스 이름으로 바꿉니다.
- MIN-VALUE: 요청을 수신할 수 있도록 웜 상태로 유지할 컨테이너 인스턴스 수. 최소 인스턴스 설정을 삭제하려면
default
를 지정합니다.
또한 다음 명령어를 사용하여 배포 중 min-instance
를 설정할 수도 있습니다.
gcloud run deploy --image IMAGE_URL --min-instances MIN-VALUE
다음과 같이 바꿉니다.
- IMAGE_URL: 컨테이너 이미지에 대한 참조(예:
us-docker.pkg.dev/cloudrun/container/hello:latest
). Artifact Registry를 사용하는 경우 저장소 REPO_NAME이 이미 생성되어 있어야 합니다. URL의 형식은LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
입니다. - MIN-VALUE: 요청을 수신할 수 있도록 웜 상태로 유지할 컨테이너 인스턴스 수. 최소 인스턴스 설정을 삭제하려면
default
를 지정합니다.
YAML
새 서비스를 만드는 경우에는 이 단계를 건너뜁니다. 기존 서비스를 업데이트하는 경우 YAML 구성을 다운로드합니다.
gcloud run services describe SERVICE --format export > service.yaml
autoscaling.knative.dev/minScale:
속성을 업데이트합니다.apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE spec: template: metadata: annotations: autoscaling.knative.dev/minScale: 'MIN-INSTANCE' name: REVISION
다음과 같이 바꿉니다.
- SERVICE: Cloud Run 서비스 이름
- MIN-INSTANCE: 요청을 수신할 수 있도록 웜 상태로 유지할 인스턴스 수.
- REVISION을 새 버전 이름으로 변경하거나 이미 있는 경우 삭제합니다. 새 버전 이름을 제공할 경우 다음 기준을 반드시 충족해야 합니다.
SERVICE-
로 시작해야 합니다.- 소문자, 숫자,
-
만 포함합니다. -
로 끝나면 안 됩니다.- 63자(영문 기준) 이하여야 합니다.
다음 명령어를 사용하여 서비스를 만들거나 업데이트합니다.
gcloud run services replace service.yaml
Terraform
Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.
다음 google_cloud_run_v2_service
리소스는 template.scaling
에서 1
의 최소 인스턴스 수를 지정합니다.
1
을 최소 인스턴스 수로 바꿉니다.
버전 수준 최소 인스턴스 설정 보기
Cloud Run 서비스의 현재 버전 수준 최소 인스턴스 설정을 보려면 다음 안내를 따르세요.
콘솔
Google Cloud 콘솔에서 Cloud Run으로 이동합니다.
관심이 있는 서비스를 클릭하여 서비스 세부정보 페이지를 엽니다.
버전 탭을 클릭합니다.
오른쪽 세부정보 패널에서 버전 수준의 최소 인스턴스 설정이 컨테이너 탭 아래에 나열됩니다.
gcloud
다음 명령어를 사용하세요.
gcloud run services describe SERVICE
반환된 구성에서 버전 수준 최소 인스턴스 설정을 찾습니다.
서비스 수준 및 버전 수준 최소 또는 최대 인스턴스를 모두 사용
다음 표에서는 서비스 수준 최소 인스턴스와 버전 수준 최소 또는 최대 인스턴스를 결합한 경우의 동작을 보여줍니다.
구성 설정 | 동작 |
---|---|
서비스 수준 최소 인스턴스와 버전 수준 최소 인스턴스가 모두 설정됩니다. | 버전의 유효 값은 버전 수준 최소 인스턴스와 서비스 수준 최소 인스턴스 중 더 큰 값입니다. |
서비스 수준 최소 인스턴스와 버전 수준 최대 인스턴스가 모두 설정됩니다. | 버전의 유효 값은 버전 수준 최대 인스턴스 및 서비스 수준 최소 인스턴스 중 더 작은 값입니다. 이는 버전 수준 최대 인스턴스가 서비스 수준 최소 인스턴스에 대해 구성된 인스턴스 수에 도달하지 못하게 하는 경우에도 적용됩니다. |
트래픽 분할과 함께 서비스 수준 최소 인스턴스 사용
트래픽 분할을 사용하는 경우 서비스 수준 최소 인스턴스는 트래픽 분할의 비율에 따라 버전 전체에서 분할됩니다. 예를 들어 서비스 수준 최소 인스턴스 = 10인 경우 50/50 트래픽 분할은 각 버전에 5개의 서비스 수준 최소 인스턴스를 할당합니다.
다음 표에는 샘플 구성 시나리오가 나와 있습니다.
샘플 사용 사례 | 샘플 구성 | 결과 동작 |
---|---|---|
버전 수준 설정 없음 | 서비스 수준 최소 인스턴스: 10개
|
버전 A는 트래픽 분할에 비례하는 서비스 수준 최소 인스턴스에서 6개의 인스턴스를 수신합니다. 버전 B는 트래픽 분할에 비례하는 서비스 수준 최소 인스턴스에서 4개의 인스턴스를 수신합니다. |
버전 수준 최소 인스턴스로 인해 서비스 수준 최소 인스턴스보다 더 많이 수신 | 서비스 수준 최소 인스턴스: 10개
|
버전 A는 버전 수준 최소 인스턴스에서 6개의 인스턴스를 수신합니다. 버전 B는 트래픽 분할에 비례하는 서비스 수준 최소 인스턴스에서 5개의 인스턴스를 수신합니다. 이는 서비스 수준 최소 인스턴스를 초과하는 것이며, 의도된 것입니다. |
버전 수준 최대 인스턴스로 인해 서비스 수준 최소 인스턴스보다 적게 수신합니다. | 서비스 수준 최소 인스턴스: 10개
|
버전 A는 트래픽 분할에 의해 구동되는 서비스 수준 최소 인스턴스에서 3개의 인스턴스를 수신하지만 버전 수준 최대 인스턴스로 제한됩니다. 버전 B는 트래픽 분할에 비례하는 서비스 수준 최소 인스턴스에서 5개의 인스턴스를 수신합니다. 따라서 버전 A의 버전 수준 최대 인스턴스로 인해 2개가 손실되어 서비스 수준 인스턴스는 8개가 됩니다. |
서비스 수준 최소 인스턴스는 트래픽 분할의 버전 수보다 크며, 일부 인스턴스 수가 트래픽 분할에 비례합니다. | 서비스 수준 최소 인스턴스: 3개
|
버전 A는 최소 인스턴스 1개를 가져오고, 버전 B는 최소 인스턴스 2개를 가져옵니다. 서비스의 인스턴스 수는 3입니다. |