Cloud TPU 추론

서빙은 학습된 머신러닝 모델을 추론에 사용할 수 있는 프로덕션 환경에 배포하는 프로세스를 의미합니다. 추론은 TPU v5e 이상 버전에서 지원됩니다. 서빙에서는 지연 시간 SLO가 우선시됩니다.

이 문서에서는 단일 호스트 TPU에서 모델을 서빙하는 방법을 설명합니다. 칩이 8개 이하인 TPU 슬라이스에는 TPU VM 또는 호스트가 한 개 있으며 단일 호스트 TPU라고 합니다.

시작하기

Cloud TPU를 사용하려면 Google Cloud 계정과 프로젝트가 필요합니다. 자세한 내용은 Cloud TPU 환경 설정을 참고하세요.

TPU에서 제공하려면 다음 할당량을 요청해야 합니다.

  • 주문형 v5e 리소스: TPUv5 lite pod cores for serving per project per zone
  • 선점형 v5e 리소스: Preemptible TPU v5 lite pod cores for serving per project per zone
  • 주문형 v6e 리소스: TPUv6 cores per project per zone
  • 선점형 v6e 리소스: Preemptible TPUv6 cores per project per zone

TPU 할당량에 대한 자세한 내용은 TPU 할당량을 참조하세요.

JetStream을 사용하여 LLM 제공

JetStream은 XLA 기기(TPU)의 대규모 언어 모델 (LLM) 추론을 위한 처리량 및 메모리 최적화 엔진입니다. JetStream을 JAX 및 PyTorch/XLA 모델과 함께 사용할 수 있습니다. JetStream을 사용하여 JAX LLM을 제공하는 예는 v6e TPU의 JetStream MaxText 추론을 참조하세요.

vLLM을 사용한 LLM 모델 서빙

vLLM은 대규모 언어 모델 (LLM)의 빠른 추론 및 제공을 위해 설계된 오픈소스 라이브러리입니다. vLLM은 PyTorch/XLA와 함께 사용할 수 있습니다. vLLM을 사용하여 PyTorch LLM을 제공하는 예시는 vLLM을 통해 GKE에서 TPU Trillium을 사용하여 LLM 제공을 참조하세요.

프로파일링

추론을 설정한 후 프로파일러를 사용하여 성능 및 TPU 사용률을 분석할 수 있습니다. 프로파일링에 관한 자세한 내용은 다음을 참조하세요.