추론 워크로드의 TPU 컬렉션 스케줄링
Trillium(v6e)에는 동일한 모델의 복제본을 서빙하기 위한 단일 또는 멀티 호스트 TPU 슬라이스 집합을 그룹화할 수 있는 "컬렉션 스케줄링" 기능이 포함되어 있습니다. 이 기능은 Cloud TPU와 GKE 구성 모두에서 사용할 수 있습니다.
이 문서에서는 Cloud TPU API에서 컬렉션 스케줄링을 사용하는 방법에 대해 설명합니다. GKE에서 컬렉션 스케줄링을 사용하는 방법은 GKE 문서를 참조하세요.
추론 워크로드에 대해 컬렉션을 만들면Google Cloud 는 추론 워크로드의 운영 중단을 최소화하고 효율적으로 관리합니다. 이 기능은 고가용성이 중요한 추론 워크로드에 유용합니다. Google Cloud 는 수신되는 트래픽을 관리하도록 컬렉션에 대해 고가용성을 보장합니다. 항상 컬렉션 내의 일부 슬라이스가 수신되는 트래픽을 처리할 수 있습니다.
컬렉션의 각 TPU 슬라이스에는 동일한 가속기 유형 및 토폴로지가 포함됩니다.
Cloud TPU API에서 컬렉션 만들기
Cloud TPU API를 사용해 큐에 추가된 리소스를 요청할 때는 --workload-type=AVAILABILITY-OPTIMIZED
플래그를 사용하여 컬렉션을 만듭니다. 이 플래그는 해당 리소스가 가용성 중심의 워크로드에 사용된다는 것을 Cloud TPU 인프라에 알립니다.
다음 명령어는 Cloud TPU API를 사용하여 컬렉션을 프로비저닝합니다.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
--node-count
플래그는 큐에 추가된 리소스에서 사용자가 원하는 슬라이스 수를 지정합니다. 이렇게 하면 TPU 슬라이스 컬렉션이 생성됩니다.
선택사항: --node-prefix
플래그는 슬라이스 이름에 대한 프리픽스를 지정합니다.