Cloud TPU 할당량

이 문서에서는 Cloud TPU에 적용되는 할당량을 설명합니다. Cloud TPU 가격 책정에 대한 자세한 내용은 Cloud TPU 가격 책정을 참조하세요.

Google Cloud는 공정성을 보장하고 리소스 사용 및 가용성의 급증을 줄이기 위해 할당량을 사용합니다. 할당량은 Google Cloud 프로젝트에서 사용할 수 있는 Google Cloud 리소스의 양을 제한합니다. 할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 다양한 리소스 유형에 적용됩니다. 예를 들어 할당량에 따라 서비스에 대한 API 호출 수, 프로젝트에서 동시에 사용하는 부하 분산기 수, 만들 수 있는 프로젝트 수가 제한될 수 있습니다. 할당량은 서비스 과부하를 방지하여 Google Cloud 사용자 커뮤니티를 보호합니다. 할당량은 자체 Google Cloud 리소스를 관리하는 데도 도움이 됩니다.

Cloud Quotas 시스템은 다음을 수행합니다.

  • Google Cloud 제품 및 서비스 소비량 모니터링
  • 리소스 소비 제한
  • 할당량 값 변경을 요청할 수 있는 수단 제공

대부분의 경우 할당량이 허용하는 것보다 더 많은 리소스를 소비하려고 하면 시스템에서 리소스에 대한 액세스를 차단하고 수행하려는 작업이 실패합니다.

할당량은 일반적으로 Google Cloud 프로젝트 수준에서 적용됩니다. 한 프로젝트의 리소스를 사용해도 다른 프로젝트에서 사용 가능한 할당량에는 영향을 미치지 않습니다. Google Cloud 프로젝트 내에서 할당량은 모든 애플리케이션과 IP 주소에 공유됩니다.

TPU 할당량

TPU 버전마다 할당량이 다릅니다. 예를 들어 TPU v2, v3 등에 대한 할당량이 다릅니다. TPU 버전마다 주문형 및 선점형(스팟 VM)이라는 서로 다른 할당량 유형이 있습니다. 다음 표에서는 다양한 유형의 할당량을 설명합니다.

할당량 유형 설명 기본값 요청 방법 TPU 생성 플래그
주문형 액세스 권한이 있는 주문형 리소스 수입니다. 주문형 리소스는 선점되지 않지만 주문형 할당량은 요청을 이행하는 데 충분한 Cloud TPU 리소스를 제공한다고 보장하지 않습니다. v3-8 및 v2-8: TensorCore 16개
기타: 0개
추가 할당량 요청을 참조하세요. 플래그가 필요하지 않으며 기본적으로 선택되어 있습니다.
선점형 액세스 권한이 있는 선점형 Cloud TPU 리소스의 수입니다. 이 할당량은 선점형 TPU와 TPU 스팟 VM 모두에 적용됩니다. 우선순위가 더 높은 작업을 위한 공간을 확보하기 위해 선점형 리소스가 선점될 수 있습니다. 선점형 할당량은 요청을 이행하는 데 충분한 Cloud TPU 리소스를 제공한다고 보장하지 않습니다. 자세한 내용은 선점형 TPUTPU 스팟 VM 관리를 참조하세요. v3-8 및 v2-8: TensorCore 48개
기타: 0개
추가 할당량 요청을 참조하세요.
  • 스팟 VM: --spot 플래그를 사용합니다.
  • 선점형 TPU: --preemptible 플래그를 사용합니다. 큐에 추가된 리소스에는 --preemptible 플래그가 지원되지 않습니다. 대신 --spot 플래그를 사용하세요.

TPU 할당량은 영역별 프로젝트당 TPU 코어 또는 리전별 프로젝트당 TPU 코어로 지정됩니다.

TPU v5p 할당량

TPU v5p 할당량은 모든 코어 조합에서 사용할 수 있습니다. 예를 들어 32개 코어에 대한 할당량이 있으면 이 할당량을 사용하여 각각 8개 코어의 TPU 슬라이스 4개를 만들 수 있습니다.

선점형 할당량:

  • 리전별 프로젝트당 선점형 TPU v5p 코어
  • 영역별 프로젝트당 선점형 TPU v5p 코어

주문형 할당량:

  • 리전별 프로젝트당 TPU v5p 코어
  • 영역별 프로젝트당 TPU v5p 코어

TPU v5e 할당량

TPU v5e는 학습 및 서빙에 사용할 수 있습니다. 학습 및 서빙뿐만 아니라 단일 호스트 (lite 코어) 및 멀티 호스트(lite 포드 코어)에 대해 별도의 할당량이 있습니다.

서빙 할당량

선점형 서빙 할당량:

  • 리전별 프로젝트당 서빙용 선점형 TPU v5 lite 포드 코어
  • 영역별 프로젝트당 서빙용 선점형 TPU v5 lite 포드 코어

주문형 서빙 할당량:

  • 리전별 프로젝트당 서빙용 TPU v5 lite 포드 코어
  • 영역별 프로젝트당 서빙용 TPU v5 lite 포드 코어

학습 할당량

선점형 학습 할당량:

  • 리전별 프로젝트당 선점형 TPU v5 lite 코어
  • 영역별 프로젝트당 선점형 TPU v5 lite 코어
  • 리전별 프로젝트당 선점형 TPU v5 lite 포드 코어
  • 영역별 프로젝트당 선점형 TPU v5 lite 포드 코어

주문형 학습 할당량:

  • 리전별 프로젝트당 TPU v5 lite 코어
  • 영역별 프로젝트당 TPU v5 lite 코어
  • 리전별 프로젝트당 TPU v5 lite 포드 코어
  • 영역별 프로젝트당 TPU v5 lite 포드 코어

TPU v4 할당량

TPU v4 할당량은 모든 코어 조합에서 사용할 수 있습니다. 예를 들어 32개 코어에 대한 할당량이 있으면 이 할당량을 사용하여 각각 8개 코어의 TPU 슬라이스 4개를 만들 수 있습니다.

선점형 할당량:

  • 리전별 프로젝트당 선점형 TPU v4 포드 코어
  • 영역별 프로젝트당 선점형 TPU v4 포드 코어

주문형 할당량:

  • 리전별 프로젝트당 TPU v4 포드 코어
  • 영역별 프로젝트당 TPU v4 포드 코어

TPU v3 할당량

단일 호스트 TPU(코어)와 멀티호스트 TPU(포드)에는 별도의 TPU v3 할당량이 있습니다. 8개가 넘는 코어의 TPU를 만들려면 v3 포드 할당량을 사용해야 합니다.

선점형 할당량:

  • 리전별 프로젝트당 선점형 TPU v3 코어
  • 영역별 프로젝트당 선점형 TPU v3 코어
  • 리전별 프로젝트당 선점형 TPU v3 포드 코어
  • 영역별 프로젝트당 선점형 TPU v3 포드 코어

주문형 할당량:

  • 리전별 프로젝트당 TPU v3 코어
  • 영역별 프로젝트당 TPU v3 코어
  • 리전별 프로젝트당 TPU v3 포드 코어
  • 영역별 프로젝트당 TPU v3 포드 코어

TPU v2 할당량

단일 호스트 TPU(코어)와 멀티 호스트 TPU(포드)에는 별도의 TPU v2 할당량이 있습니다.

선점형 할당량:

  • 리전별 프로젝트당 선점형 TPU v2 코어
  • 영역별 프로젝트당 선점형 TPU v2 코어
  • 리전별 프로젝트당 선점형 TPU v2 포드 코어
  • 영역별 프로젝트당 선점형 TPU v2 포드 코어

주문형 할당량:

  • 리전별 프로젝트당 TPU v2 코어
  • 영역별 프로젝트당 TPU v2 코어
  • 리전별 프로젝트당 TPU v2 포드 코어
  • 영역별 프로젝트당 TPU v2 포드 코어

TPU 칩 및 TensorCore에 대한 자세한 내용은 TPU 시스템 아키텍처를 참조하세요.

추가 할당량 보기 및 요청

Google Cloud 콘솔의 할당량 페이지에서 Google Cloud 프로젝트에 할당된 할당량을 확인할 수 있습니다. Cloud TPU 할당량이 추가로 필요한 경우 할당량 페이지에서 요청하면 됩니다. 자세한 내용은 더 높은 할당량 한도 요청을 참조하세요.

Google Cloud 서비스가 리소스 및 API의 기본 할당량 값을 늘리면 이러한 변경사항이 점진적으로 적용됩니다. 이로 인해 여러 리전이나 리소스에 걸쳐 출시가 진행될 수 있습니다. 출시 중에 Google Cloud 콘솔 또는 Cloud Quotas API에 표시되는 할당량 값에는 출시가 완료될 때까지 새로 증가한 할당량 값이 반영되지 않습니다. 자세한 내용은 진행 중인 출시 보기를 참고하세요.