v6e TPU에서 vLLM 추론

이 튜토리얼에서는 v6e TPU에서 vLLM 추론을 실행하는 방법을 보여줍니다. 또한 Meta Llama-3.1-8B 모델에 대한 벤치마크 스크립트를 실행하는 방법도 보여줍니다.

v6e TPU에서 vLLM을 시작하려면 vLLM 빠른 시작을 참조하세요.

GKE를 사용하는 경우에는 GKE 튜토리얼도 참조하세요.

시작하기 전에

Llama3 계열 모델을 사용하려면 HuggingFace 저장소에서 동의 계약에 서명해야 합니다. meta-llama/Llama-3.1-8B로 이동하여 동의 계약을 작성하고, 승인을 받을 때까지 기다리세요.

TPU v6e(4칩 구성) 프로비저닝을 준비하세요.

Cloud TPU 환경 설정 가이드를 따라 Google Cloud 프로젝트 설정, Google Cloud CLI 구성, Cloud TPU API 사용 설정, Cloud TPU 사용 권한 확보 작작업을 수행합니다.
Google Cloud 에 인증을 수행하고 Google Cloud CLI의 기본 프로젝트 및 영역을 구성합니다.
```
gcloud auth login
gcloud config set project PROJECT_ID
gcloud config set compute/zone ZONE
```

용량 확보

TPU 용량을 확보할 준비가 되면, Cloud TPU 할당량에 대한 자세한 내용을 확인하세요. 추가로 용량 확보에 대해 궁금한 점이 있으면 Cloud TPU 영업팀 또는 계정팀에 문의하세요.

Cloud TPU 환경 프로비저닝

TPU VM은 GKE, GKE와 XPK, 큐에 추가된 리소스를 사용하여 프로비저닝할 수 있습니다.

기본 요건

Google Cloud 프로젝트 내에서 액세스할 수 있는 최대 칩 수를 지정하는 TPUS_PER_TPU_FAMILY 할당량이 충분한지 확인합니다.
프로젝트의 TPU 할당량이 충분한지 확인합니다.
- TPU VM 할당량
- IP 주소 할당량
- Hyperdisk Balanced 할당량
사용자 프로젝트 권한
- XPK와 함께 GKE를 사용하는 경우 XPK를 실행하는 데 필요한 권한은 사용자 또는 서비스 계정의 Cloud 콘솔 권한을 참조하세요.

TPU v6e 프로비저닝

   gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
     --node-id TPU_NAME \
     --project PROJECT_ID \
     --zone ZONE \
     --accelerator-type v6e-4 \
     --runtime-version v2-alpha-tpuv6e \
     --service-account SERVICE_ACCOUNT

명령어 플래그 설명

변수	설명
NODE_ID	큐에 추가된 리소스 요청이 할당될 때 생성되는 TPU의 사용자 할당 ID입니다.
PROJECT_ID	Google Cloud 프로젝트 이름입니다. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다.
ZONE	지원되는 영역에 대해서는 TPU 리전 및 영역 문서를 참조하세요.
ACCELERATOR_TYPE	지원되는 가속기 유형은 가속기 유형 문서를 참조하세요.
RUNTIME_VERSION	`v2-alpha-tpuv6e`
SERVICE_ACCOUNT	Google Cloud 콘솔 > IAM > 서비스 계정에서 찾을 수 있는 서비스 계정의 이메일 주소입니다. 예를 들면 `tpu-service-account@<your_project_ID>.iam.gserviceaccount.com`입니다.

list 또는 describe 명령어를 사용하여 큐에 추가된 리소스의 상태를 쿼리합니다.

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID  \
  --project PROJECT_ID --zone ZONE

큐에 추가된 리소스 요청 상태의 전체 목록을 보려면 큐에 추가된 리소스 문서를 참조하세요.

SSH를 사용하여 TPU에 연결

  gcloud compute tpus tpu-vm ssh TPU_NAME

종속 항목 설치

Miniconda용 디렉터리를 만듭니다.
```
mkdir -p ~/miniconda3
```

Miniconda 설치 프로그램 스크립트를 다운로드합니다.

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh

Miniconda를 설치합니다.

bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3

Miniconda 설치 프로그램 스크립트를 삭제합니다.
```
rm -rf ~/miniconda3/miniconda.sh
```
PATH 변수에 Miniconda를 추가합니다.
```
export PATH="$HOME/miniconda3/bin:$PATH"
```
~/.bashrc를 새로고침하여 PATH 변수에 변경사항을 적용합니다.
```
source ~/.bashrc
```
Conda 환경을 만듭니다.

참고: Conda를 처음 실행하는 경우 conda activate vllm를 실행하기 전에 conda init를 실행하고 셸을 새로고침해야 합니다.
```
conda create -n vllm python=3.12 -y
conda activate vllm
```

vLLM 저장소를 클론하고 vllm 디렉터리로 이동합니다.

git clone https://github.com/vllm-project/vllm.git && cd vllm

기존 torch 및 torch-xla 패키지를 삭제합니다.
```
pip uninstall torch torch-xla -y
```
참고: 이 패키지가 설치되어 있지 않으면 설치되지 않았다는 오류 메시지가 표시됩니다. 이러한 오류 메시지는 무시해도 됩니다.
다른 빌드 종속 항목을 설치합니다.
```
pip install -r requirements/tpu.txt
VLLM_TARGET_DEVICE="tpu" python -m pip install --editable .
sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
```
참고: 다음과 비슷한 오류가 표시되는 경우:

- E: Unable to locate package libopenblas-base
- E: Unable to locate package libopenmpi-dev
- E: Package 'libomp-dev' has no installation candidate

설치 프로그램을 실행하기 전에 sudo apt-get update를 실행합니다.

모델 액세스 권한 얻기

토큰을 아직 만들지 않았다면 새 Hugging Face 토큰을 생성합니다.

내 프로필 > 설정 > 액세스 토큰으로 이동합니다.
새 토큰 만들기를 선택합니다.
원하는 이름과 Read 이상의 권한이 있는 역할을 지정합니다.
토큰 생성을 선택합니다.
생성된 토큰을 클립보드에 복사하고 환경 변수로 설정한 후 huggingface-cli로 인증을 수행합니다.
```
export TOKEN=YOUR_TOKEN
git config --global credential.helper store
huggingface-cli login --token $TOKEN
```

vLLM 서버 시작

다음 명령어는 Hugging Face Model Hub에서 TPU VM의 /tmp 디렉터리로 모델 가중치를 다운로드하고, 다양한 입력 형태를 컴파일하고 모델 컴파일을 ~/.cache/vllm/xla_cache에 기록합니다.

자세한 내용은 vLLM 문서를 참조하세요.

cd ~/vllm
vllm serve "meta-llama/Llama-3.1-8B" --download_dir /tmp --swap-space 16 --disable-log-requests --tensor_parallel_size=4 --max-model-len=2048 &> serve.log &

vLLM 벤치마크 실행

vLLM 벤치마킹 스크립트를 실행합니다.

export MODEL="meta-llama/Llama-3.1-8B"
pip install pandas
pip install datasets
python benchmarks/benchmark_serving.py \
  --backend vllm \
  --model $MODEL  \
  --dataset-name random \
  --random-input-len 1820 \
  --random-output-len 128 \
  --random-prefix-len 0

삭제

TPU를 삭제합니다.

gcloud compute tpus queued-resources delete QUEUED_RESOURCE_ID \
  --project PROJECT_ID \
  --zone ZONE \
  --force \
  --async