이 문서에서는 캘린더 모드의 미래용 예약 요청을 간략하게 설명합니다. Compute Engine에서 리소스를 예약하는 다양한 방법에 대해 자세히 알아보려면 예약 유형 선택을 참고하세요.
GPU 또는 TPU가 연결된 가상 머신 (VM) 인스턴스를 만들 용량을 확보하려면 캘린더 모드에서 미래용 예약 요청을 사용하세요. Google Cloud에서 Google Cloud 요청을 승인하면 Compute Engine이 선택한 날짜와 시간에 선택한 기간 동안 예약된 리소스를 프로비저닝합니다. 그런 다음 예약된 리소스를 사용하여 GPU VM 또는 TPU VM을 만들어 다음 워크로드를 실행할 수 있습니다.
모델 사전 학습 작업
모델 미세 조정 작업
고성능 컴퓨팅 (HPC) 시뮬레이션 워크로드
추론 워크로드의 단기적인 증가 예상
캘린더 모드에서 요청 만들기
다음 섹션에서는 리소스 가용성을 확인하는 방법과 캘린더 모드에서 미래용 예약 요청을 만들 때 지정해야 하는 세부정보를 설명합니다.
리소스의 향후 가용성 보기
캘린더 모드에서 미래용 예약 요청을 만들기 전에 다음 리소스의 리전별 미래 가용성을 확인할 수 있습니다.
GPU VM의 경우 최대 60일 전
TPU의 경우 최대 120일 전
Compute Engine은 동적 워크로드 스케줄러 (DWS)를 사용하여 요청된 리소스를 사용할 수 있는 시점을 확인합니다. 요청을 만들 때 사용 가능한 것으로 확인된 리소스의 수, 유형, 예약 기간을 지정합니다.이 정보를 제공하면 Google Cloud 에서 요청을 승인할 가능성이 높아집니다.
요청 속성 정의
캘린더 모드에서 미래용 예약 요청을 만들 때는 다음 속성을 지정해야 합니다.
자동 삭제 이 속성은 예약이 완전히 사용되지 않은 경우에도 종료 시간에 Compute Engine이 요청에 대해 자동으로 생성된 (자동 생성) 예약을 삭제하는지 여부를 결정합니다. 캘린더 모드에서 요청을 만들려면 자동 삭제 옵션을 사용 설정해야 합니다.
소비 유형. 이 속성은 VM이 자동 생성된 예약을 사용하는 방법을 정의합니다. 캘린더 모드에서 요청을 만들 때는 특별히 대상이 지정된 예약을 만들고 싶다고 지정해야 합니다. 이 설정은 예약을 타겟팅하는 VM만 이를 사용할 수 있음을 의미합니다.
배포 유형 이 속성은 예약된 리소스의 공동 배치(collocation)를 정의합니다. 캘린더 모드에서 요청을 만들 때는 리소스를 밀도 있게 배포하도록 지정해야 합니다. 이러한 배포에서는 네트워크 지연 시간을 최소화하기 위해 리소스가 서로 가까운 위치에 있습니다.
이름. 요청의 이름으로, 프로젝트 내에서 고유해야 합니다.
리소스 수 요청한 시작 시간에 예약할 GPU VM 또는 TPU 수입니다.
계획 상태 이 속성은 검토를 위해 요청을 Google Cloud 에 즉시 제출할지 아니면 초안으로 저장한 후 나중에 제출할지를 정의합니다. 캘린더 모드에서 요청을 만들 때는 검토를 위해 요청을 즉시 제출하도록 지정해야 합니다.
예약 모드 이 속성은 리소스를 예약하는 방법을 정의하며, 캘린더 모드에서 요청하려면
CALENDAR
로 설정해야 합니다.예약 이름 Google Cloud 에서 요청을 승인하는 경우 Compute Engine에서 자동으로 만드는 예약의 이름입니다.
공유 유형 이 속성은 조직의 다른 프로젝트가 승인된 요청에 대해 자동 생성된 예약을 사용할 수 있는지 정의합니다. 다음 옵션 중 하나를 지정할 수 있습니다.
단일 프로젝트 예약된 용량은 프로젝트에서만 사용할 수 있습니다.
Shared 조직 내 최대 100개의 다른 프로젝트와 예약된 용량을 공유할 수 있습니다. 이 옵션을 지정하는 경우 자동 생성된 예약을 공유할 프로젝트를 지정해야 합니다. 자세한 내용은 공유 예약 권장사항을 참고하세요.
예약 기간 Compute Engine이 요청된 용량을 프로비저닝하고 이를 사용할 수 있는 날짜와 시간입니다. 예약 기간에는 다음이 포함됩니다.
시작 시간 예약된 용량을 사용하기 시작할 시점입니다. 예약하는 리소스에 따라 요청을 만들고 제출하는 시점부터 시작 시간은 다음 값 중 하나 이상이어야 합니다.
GPU VM의 경우 87시간 (3일 15시간)
TPU의 경우 24시간
종료 시간. 요청한 용량이 더 이상 예약되지 않는 경우 이때 Compute Engine은 자동 생성된 예약 리소스를 삭제하고 VM에 지정된 종료 작업에 따라 예약 리소스를 사용하는 VM을 중지하거나 삭제합니다.
리소스 속성 예약하려는 GPU VM 또는 TPU의 하드웨어 요구사항입니다. VM의 속성이 예약의 속성과 일치하는 경우에만 VM에서 예약을 사용할 수 있습니다. 자세한 내용은 예약 사용 요구사항을 참고하세요.
워크로드 유형 TPU v5e를 예약하는 경우 워크로드 유형에 따라 용량을 예약하는 방법을 지정해야 합니다.
일괄 처리. 머신러닝 (ML) 학습 워크로드와 같이 단일 또는 여러 작업에서 대량의 데이터를 처리하는 워크로드에 적합합니다.
서빙 동시 요청을 처리하고 네트워크 지연 시간이 최소화되어야 하는 워크로드(예: ML 추론 워크로드)
영역 용량을 예약할 영역입니다.
검토 요청 절차
캘린더 모드에서 미래용 예약 요청을 사용하여 용량을 예약하려면 요청을 만들어 검토를 위해 Google Cloud 에 제출해야 합니다. 요청을 생성하고 제출하면 Google Cloud 1분 이내에 검토한 후 다음 중 하나가 발생합니다.
Google Cloud 에서 요청을 승인: Compute Engine에서 요청한 리소스를 예약하고 승인 후 1분 이내에 빈 예약을 자동으로 만듭니다. 요청 시작 시간에 Compute Engine은 예약의 TPU 수를 늘려 요청된 용량을 프로비저닝합니다.
오류가 발생합니다. 요청의 영역에 리소스가 충분하지 않아 요청이 실패합니다. 향후 리소스 사용 가능 여부를 다시 확인한 후 검토를 위해 새 요청을 만들어 제출하는 것이 좋습니다.
요청 수명 주기
다음 다이어그램은 Compute Engine이 캘린더 모드의 미래용 예약 요청에 설정할 수 있는 다양한 상태를 보여줍니다.
앞의 다이어그램에 표시된 상태와 이벤트 흐름은 다음과 같습니다.
PENDING_APPROVAL
: 검토 요청을 생성하고 제출했습니다. 1분 이내에 Google Cloud 요청을 승인합니다.APPROVED
: Google Cloud 에서 요청을 승인했습니다. 그런 다음 1분 이내에 Compute Engine이 빈 예약을 자동으로 만들고 요청 상태를PROCURING
로 변경합니다.PROCURING
: Compute Engine이 예약된 리소스의 프로비저닝을 예약합니다. 요청 시작 시간 전에 요청 상태가PROVISIONING
로 변경됩니다.PROVISIONING
: Compute Engine이 자동 생성 예약에서 예약된 TPU 수를 늘려 예약된 리소스를 프로비저닝하고 있습니다. 요청 시작 시간에 요청 상태가FULFILLED
로 변경됩니다.FULFILLED
: Compute Engine이 예약된 리소스를 프로비저닝했으며 해당 리소스에 대한 요금이 청구됩니다. 요청 종료 시간까지 VM을 만들어 자동 생성된 예약을 사용할 수 있습니다.
요청 종료 시간에 Compute Engine이 요청과 자동 생성된 예약을 삭제합니다. 또한 VM에 지정한 종료 작업에 따라 예약된 리소스를 사용하는 VM을 중지하거나 삭제합니다.
프로비저닝된 용량 사용
Google Cloud 가 캘린더 모드의 미래용 예약 요청을 승인하면 Compute Engine이 다음 특성을 가진 예약을 자동으로 만듭니다.
자동 생성된 예약에는 예약된 GPU VM 또는 TPU가 없습니다. 아직 사용할 수 없습니다.
자동 생성된 예약은 요청에 지정된 VM 또는 TPU 속성을 상속합니다.
요청 시작 시간에 Compute Engine은 자동 생성된 예약에서 GPU VM 또는 TPU 수를 늘려 요청된 용량을 프로비저닝합니다. 그런 다음 다음 조건을 모두 충족하는 GPU VM 또는 TPU VM을 만들어 예약을 사용할 수 있습니다.
VM과 예약의 속성이 일치합니다.
VM이 예약을 명시적으로 타겟팅합니다.
VM은 예약 바운드 프로비저닝 모델을 사용합니다.
VM은 예약 종료 시간에 중지되거나 삭제되어야 합니다.
예약이 완전히 사용될 때까지 또는 요청 종료 시간까지 VM을 만들 수 있습니다. 요청 종료 시간에 Compute Engine은 자동 생성된 예약을 삭제하고 예약을 사용하는 VM을 중지하거나 삭제합니다.
할당량
캘린더 모드의 미래용 예약 요청은 예약 바운드 프로비저닝 모델을 사용해야 합니다. 이 모델에서는 리소스를 예약하기 위해 Compute Engine 할당량이 필요하지 않습니다. 하지만 요청을 만들기 전에 VM을 만들 때 예약에 포함되지 않는 리소스(예: 디스크 또는 IP 주소)에 충분한 할당량이 있는지 확인하세요.
가격 책정
캘린더 모드에서 미래용 예약 요청을 만들 때는 요금이 청구되지 않습니다. 대신 다음과 같은 경우 요금이 발생합니다.
Compute Engine에서 요청된 용량을 프로비저닝합니다. 요청이
FULFILLED
상태에 도달하면 DWS 가격에 따라 프로비저닝된 리소스에 대한 요금이 청구됩니다. 이 가격 책정 모델은 vCPU, GPU, TPU를 할인된 가격으로 제공합니다.예약에 포함되지 않는 리소스를 사용합니다. 자동 생성된 예약을 사용하는 VM을 만들면 사용된 리소스에 대해 다시 청구되지 않습니다. 디스크나 IP 주소와 같이 예약에 포함되지 않은 리소스에 대해서만 요금이 청구됩니다.
요청 종료 시간에 요금 청구가 중지됩니다. 이때 Compute Engine은 자동 생성된 예약을 삭제하고 예약을 사용하는 VM을 중지하거나 삭제합니다.
제한사항
다음 섹션에서는 캘린더 모드의 미래용 예약 요청에 적용되는 제한사항을 설명합니다.
모든 요청의 제한사항
캘린더 모드의 모든 미래용 예약 요청에는 다음과 같은 제한사항이 있습니다.
1~90일 동안 리소스를 예약할 수 있습니다.
요청을 생성하고 제출한 후에는 요청을 취소, 삭제 또는 수정할 수 없습니다.
GPU VM 요청 제한사항
다음과 같이 GPU VM만 예약할 수 있습니다.
TPU 요청 제한사항
TPU는 다음과 같이만 예약할 수 있습니다.
요청당 1, 4, 8, 16, 32, 64, 128, 256, 512 또는 1,024개의 TPU 칩을 예약할 수 있습니다.
다음 TPU 버전을 예약할 수 있습니다.
서빙 (
SERVING
) 워크로드 유형의 경우 1개, 4개 또는 8개의 TPU v5e 칩만 예약할 수 있습니다.다음 영역에서만 TPU를 예약할 수 있습니다.
TPU v6e의 경우:
asia-northeast1-b
us-east5-a
us-east5-b
TPU v5p의 경우:
us-east5-a
TPU v5e의 경우:
배치 (
BATCH
) 워크로드 유형:us-west4-b
서빙 (
SERVING
) 워크로드 유형:us-central1-a
모든 자동 생성된 예약의 제한사항
요청에 대해 자동 생성된 예약에는 다음과 같은 제한사항이 있습니다.
예약은 다음과 같이만 수정할 수 있습니다.
Vertex AI 작업에서 이를 사용할 수 있도록 허용하거나 허용하지 않습니다.
예약 시작 시간 이후
예약에 약정 사용 할인 (CUD) 또는 지속 사용 할인(SUD)을 적용할 수 없습니다.
예약을 삭제할 수 없습니다. Compute Engine에서 예약 종료 시간에 예약을 삭제합니다.