Cloud TPU 소비 옵션
이 문서에서는 Cloud TPU에서 지원되는 소비 옵션에 대해 설명합니다. 소비 옵션이란 용량을 요청하는 방식을 의미합니다. 소비 옵션을 선택할 때는 다음과 같은 요소를 고려해야 합니다.
- 용량이 얼마나 빨리 필요한지
- 용량을 얼마나 오래 사용할 예정인지
- 용량이 고정된 기간 동안 필요한지, 아니면 유동적인지
- 용량이 선점될 수 있는지 여부
- 가격 책정
Cloud TPU API를 사용하는 경우 어떤 소비 방식을 선택하든 사용하려는 Cloud TPU 코어 수에 해당하는 주문형 또는 선점형 할당량이 필요합니다. 기본으로 제공되는 주문형 및 선점형 할당량은 TPU 버전마다 다릅니다. 자세한 내용은 Cloud TPU 할당량을 참조하세요.
TPU를 Google Kubernetes Engine(GKE)과 함께 사용하는 경우에는 다른 할당량인 Compute Engine API 할당량이 사용됩니다. GKE에서 TPU를 사용할 때 필요한 할당량에 대한 자세한 내용은TPU 할당량 확보를 참조하세요.
소비 옵션 | 작동 방식 | 적합한 사용 사례 | 지원되는 TPU 버전 및 영역 | Cloud TPU API의 할당량 유형 |
---|---|---|---|---|
장기 예약 | TPU 리소스를 1년 이상 미리 요청합니다. 이러한 리소스는 해당 기간 동안 독점적으로 사용하도록 예약됩니다. 예약에 따라 용량 보장 확실성이 가장 높으며, 주문형 리소스보다 비용 효율적인 저렴한 가격으로 제공됩니다. 장기 TPU 예약에는 약정 사용 할인(CUD)이 적용됩니다. CUD는 약정 사용 계약을 구입하는 대가로 할인된 가격을 제공합니다. 자세한 내용은 장기 예약 요청을 참조하세요. |
장기 예약은 장시간 학습 작업 및 추론 워크로드에 이상적입니다. | 모든 TPU 버전: TPU 리전 및 영역 참조 | 주문형 할당량 |
단기 예약(캘린더 모드의 미래 예약, 미리보기) | 시작 시간과 지속 시간(1~90일)을 지정해 TPU 리소스를 요청합니다. 이러한 리소스는 해당 기간 동안 독점적으로 사용하도록 예약됩니다. 예약에 따라 용량 보장 확실성이 가장 높으며, 주문형 리소스보다 비용 효율적인 저렴한 가격으로 제공됩니다. 자세한 내용은 캘린더 모드를 사용하여 단기 예약 요청을 참조하세요. |
단기 예약은 정해진 시작 시간과 기간이 필요한 학습 및 실험 워크로드에 적합합니다. | 학습 및 서빙용 v6e(Trillium): asia-northeast1-b, us-east5-a 학습 및 서빙용 v5p: us-east5-a 학습용 v5e: us-west4-a 서빙용 v5e: us-central1-a |
할당량 필요 없음 |
주문형 | 리소스를 가능한 한 빠르게 요청하고 원하는 만큼 사용합니다. 주문형 요청은 유연성이 가장 높습니다. 주문형 리소스는 선점되지 않지만, 요청을 이행하는 데 충분한 TPU 리소스 가용성이 보장되지는 않습니다. 주문형은 TPU 리소스를 만들 때의 기본 소비 방식입니다. 주문형 TPU 생성 및 사용에 대한 자세한 내용은 TPU 리소스 관리를 참조하세요. |
주문형은 유연한 종료 시간이 필요한 긴급 작업 및 워크로드에 적합합니다. | 모든 TPU 버전: TPU 리전 및 영역 참조 | 주문형 할당량 |
Flex-start(유연한 시작)(미리보기) | 용량을 미리 예약할 필요 없이 최대 7일까지 특정 기간 동안 TPU 리소스를 요청합니다. Flex-start(유연한 시작) 리소스는 전용 용량 풀에서 제공되므로, 주문형보다 리소스 가용성이 높습니다. TPU에서 Flex-start(유연한 시작)를 사용하는 방법은 Flex-start(유연한 시작)를 사용하여 Cloud TPU 요청을 참조하세요. Google Kubernetes Engine(GKE)에서 Flex-start(유연한 시작)를 사용하는 방법은 flex-start(유연한 시작) 프로비저닝 모드의 GPU 및 TPU 프로비저닝 정보를 참조하세요. |
Flex-start(유연한 시작)는 실험, 소규모 테스트, 추론 워크로드를 위한 동적 TPU 할당, 모델 파인 튜닝, 7일 이내에 실행되는 워크로드 실행에 이상적입니다. |
학습 및 서빙용 v6e(Trillium): asia-northeast1-b, us-east5-a 학습용 v5e: us-west4-a 서빙용 v5e: us-central1-a |
선점형 할당량 |
스팟 | 선점될 수 있는 TPU 리소스를 요청합니다. 스팟 VM은 주문형 리소스보다 훨씬 저렴합니다. 스팟 VM은 주문형 리소스보다 쉽게 획득할 수 있지만 언제든지 선점(중단)될 수 있습니다. 런타임 기간에는 제한이 없습니다. TPU 스팟 VM에 대한 자세한 내용은 TPU 스팟 VM 관리를 참조하세요. |
스팟은 가용성 중단에 민감하지 않은 모델 사전 학습, 모델 파인 튜닝, 시뮬레이션 등의 우선순위가 낮은 워크로드를 예약하는 데 적합합니다. | 모든 TPU 버전: TPU 리전 및 영역 참조 | 선점형 할당량 |
다음 단계
다음을 사용하여 TPU를 시작할 수 있습니다.