v6e TPU VM에서 JetStream을 사용한 MaxText 추론

이 튜토리얼에서는 JetStream을 사용하여 TPU v6e에서 MaxText 모델을 서빙하는 방법을 설명합니다. JetStream은 XLA 기기(TPU)에서 대규모 언어 모델(LLM) 추론을 위한 처리량 및 메모리 최적화 엔진입니다. 이 튜토리얼에서는 Llama2-7B 모델에 대해 추론 벤치마크를 실행합니다.

시작하기 전에

TPU v6e(4칩 구성) 프로비저닝을 준비하세요.

Cloud TPU 환경 설정 가이드를 따라 Google Cloud 프로젝트 설정, Google Cloud CLI 구성, Cloud TPU API 사용 설정, Cloud TPU 사용 권한 확보 작작업을 수행합니다.
Google Cloud 에 인증을 수행하고 Google Cloud CLI의 기본 프로젝트 및 영역을 구성합니다.
```
gcloud auth login
gcloud config set project PROJECT_ID
gcloud config set compute/zone ZONE
```

용량 확보

TPU 용량을 확보할 준비가 되면, Cloud TPU 할당량에 대한 자세한 내용을 확인하세요. 추가로 용량 확보에 대해 궁금한 점이 있으면 Cloud TPU 영업팀 또는 계정팀에 문의하세요.

Cloud TPU 환경 프로비저닝

TPU VM은 GKE, GKE와 XPK, 큐에 추가된 리소스를 사용하여 프로비저닝할 수 있습니다.

기본 요건

Google Cloud 프로젝트 내에서 액세스할 수 있는 최대 칩 수를 지정하는 TPUS_PER_TPU_FAMILY 할당량이 충분한지 확인합니다.
프로젝트의 TPU 할당량이 충분한지 확인합니다.
- TPU VM 할당량
- IP 주소 할당량
- Hyperdisk Balanced 할당량
사용자 프로젝트 권한
- XPK와 함께 GKE를 사용하는 경우 XPK를 실행하는 데 필요한 권한은 사용자 또는 서비스 계정의 Cloud 콘솔 권한을 참조하세요.

환경 변수 만들기

Cloud Shell에서 다음 환경 변수를 만듭니다.

export PROJECT_ID=your-project-id
export TPU_NAME=your-tpu-name
export ZONE=us-east5-b
export ACCELERATOR_TYPE=v6e-4
export RUNTIME_VERSION=v2-alpha-tpuv6e
export SERVICE_ACCOUNT=your-service-account
export QUEUED_RESOURCE_ID=your-queued-resource-id

환경 변수 설명

변수	설명
`PROJECT_ID`	Google Cloud 프로젝트 ID입니다. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다.
`TPU_NAME`	TPU의 이름입니다.
`ZONE`	TPU VM을 만들 영역입니다. 지원되는 영역에 대한 자세한 내용은 TPU 리전 및 영역을 참조하세요.
`ACCELERATOR_TYPE`	가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
`RUNTIME_VERSION`	Cloud TPU 소프트웨어 버전입니다.
`SERVICE_ACCOUNT`	서비스 계정의 이메일 주소입니다. Google Cloud 콘솔의 서비스 계정 페이지로 이동하여 찾을 수 있습니다. 예를 들면 `tpu-service-account@PROJECT_ID.iam.gserviceaccount.com`입니다.
`QUEUED_RESOURCE_ID`	큐에 추가된 리소스 요청의 사용자 할당 텍스트 ID입니다.

TPU v6e 프로비저닝

다음 명령어를 사용하여 TPU v6e를 프로비저닝합니다.

gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \
    --node-id=${TPU_NAME} \
    --project=${PROJECT_ID} \
    --zone=${ZONE} \
    --accelerator-type=${ACCELERATOR_TYPE} \
    --runtime-version=${RUNTIME_VERSION} \
    --service-account=${SERVICE_ACCOUNT}

list 또는 describe 명령어를 사용하여 큐에 추가된 리소스의 상태를 쿼리합니다.

gcloud alpha compute tpus queued-resources describe ${QUEUED_RESOURCE_ID}  \
    --project ${PROJECT_ID} --zone ${ZONE}

대기열에 추가된 리소스 요청 상태에 대한 자세한 내용은 대기열에 추가된 리소스 관리를 참조하세요.

SSH를 사용하여 TPU에 연결

   gcloud compute tpus tpu-vm ssh ${TPU_NAME}

TPU에 연결되면 추론 벤치마크를 실행할 수 있습니다.

TPU VM 환경 설정

추론 벤치마크를 실행할 디렉터리를 만듭니다.
```
export MAIN_DIR=your-main-directory
mkdir -p ${MAIN_DIR}
```

Python 가상 환경을 설정합니다.

cd ${MAIN_DIR}
sudo apt update
sudo apt install python3.10 python3.10-venv
python3.10 -m venv venv
source venv/bin/activate

Git 대용량 파일 저장소(LFS)(OpenOrca 데이터용)를 설치합니다.
```
sudo apt-get install git-lfs
git lfs install
```

JetStream을 클론하고 설치합니다.

cd $MAIN_DIR
git clone https://github.com/google/JetStream.git
cd JetStream
git checkout main
pip install -e .
cd benchmarks
pip install -r requirements.in

MaxText를 설정합니다.

cd $MAIN_DIR
git clone https://github.com/google/maxtext.git
cd maxtext
git checkout main
bash setup.sh
pip install torch --index-url https://download.pytorch.org/whl/cpu

Llama 모델에 대한 액세스 권한을 요청하여 Meta에서 Llama 2 모델에 대한 다운로드 키를 얻습니다.

Llama 저장소를 클론합니다.

cd $MAIN_DIR
git clone https://github.com/meta-llama/llama
cd llama

bash download.sh를 실행합니다. 메시지가 표시되면 다운로드 키를 입력합니다. 이 스크립트는 llama 디렉터리 내에 llama-2-7b 디렉터리를 만듭니다.
```
bash download.sh
```

스토리지 버킷을 만듭니다.

export CHKPT_BUCKET=gs://your-checkpoint-bucket
export BASE_OUTPUT_DIRECTORY=gs://your-output-dir
export CONVERTED_CHECKPOINT_PATH=gs://bucket-to-store-converted-checkpoints
export MAXTEXT_BUCKET_UNSCANNED=gs://bucket-to-store-unscanned-data
gcloud storage buckets create ${CHKPT_BUCKET}
gcloud storage buckets create ${BASE_OUTPUT_DIRECTORY}
gcloud storage buckets create ${CONVERTED_CHECKPOINT_PATH}
gcloud storage buckets create ${MAXTEXT_BUCKET_UNSCANNED}
gcloud storage cp --recursive llama-2-7b/* ${CHKPT_BUCKET}

체크포인트 변환 수행

스캔된 체크포인트로 변환합니다.

cd $MAIN_DIR/maxtext
python3 -m MaxText.llama_or_mistral_ckpt \
    --base-model-path $MAIN_DIR/llama/llama-2-7b \
    --model-size llama2-7b \
    --maxtext-model-path ${CONVERTED_CHECKPOINT_PATH}

스캔되지 않은 체크포인트로 변환합니다.

export CONVERTED_CHECKPOINT=${CONVERTED_CHECKPOINT_PATH}/0/items
export DIRECT_PARAMETER_CHECKPOINT_RUN=direct_generate_param_only_checkpoint
python3 -m MaxText.generate_param_only_checkpoint \
    MaxText/configs/base.yml \
    base_output_directory=${MAXTEXT_BUCKET_UNSCANNED} \
    load_parameters_path=${CONVERTED_CHECKPOINT} \
    run_name=${DIRECT_PARAMETER_CHECKPOINT_RUN} \
    model_name='llama2-7b' \
    force_unroll=true

추론 수행

검증 테스트를 실행합니다.

export UNSCANNED_CKPT_PATH=${MAXTEXT_BUCKET_UNSCANNED}/${DIRECT_PARAMETER_CHECKPOINT_RUN}/checkpoints/0/items
python3 -m MaxText.decode \
    MaxText/configs/base.yml \
    load_parameters_path=${UNSCANNED_CKPT_PATH} \
    run_name=runner_decode_unscanned_${idx} \
    base_output_directory=${BASE_OUTPUT_DIRECTORY} \
    per_device_batch_size=1 \
    model_name='llama2-7b' \
    ici_autoregressive_parallelism=4 \
    max_prefill_predict_length=4 \
    max_target_length=16 \
    prompt="I love to" \
    attention=dot_product \
    scan_layers=false

현재 터미널에서 서버를 실행합니다.

export TOKENIZER_PATH=assets/tokenizer.llama2
export LOAD_PARAMETERS_PATH=${UNSCANNED_CKPT_PATH}
export MAX_PREFILL_PREDICT_LENGTH=1024
export MAX_TARGET_LENGTH=2048
export MODEL_NAME=llama2-7b
export ICI_FSDP_PARALLELISM=1
export ICI_AUTOREGRESSIVE_PARALLELISM=1
export ICI_TENSOR_PARALLELISM=-1
export SCAN_LAYERS=false
export WEIGHT_DTYPE=bfloat16
export PER_DEVICE_BATCH_SIZE=11

cd $MAIN_DIR/maxtext
python3 -m MaxText.maxengine_server \
    MaxText/configs/base.yml \
    tokenizer_path=${TOKENIZER_PATH} \
    load_parameters_path=${LOAD_PARAMETERS_PATH} \
    max_prefill_predict_length=${MAX_PREFILL_PREDICT_LENGTH} \
    max_target_length=${MAX_TARGET_LENGTH} \
    model_name=${MODEL_NAME} \
    ici_fsdp_parallelism=${ICI_FSDP_PARALLELISM} \
    ici_autoregressive_parallelism=${ICI_AUTOREGRESSIVE_PARALLELISM} \
    ici_tensor_parallelism=${ICI_TENSOR_PARALLELISM} \
    scan_layers=${SCAN_LAYERS} \
    weight_dtype=${WEIGHT_DTYPE} \
    per_device_batch_size=${PER_DEVICE_BATCH_SIZE}

새 터미널 창을 열고 TPU에 연결하고 첫 번째 터미널 창에서 사용한 것과 동일한 가상 환경으로 전환합니다.
```
source venv/bin/activate
```

다음 명령어를 실행하여 JetStream 벤치마크를 실행합니다.

export MAIN_DIR=your-main-directory
cd $MAIN_DIR

python JetStream/benchmarks/benchmark_serving.py \
    --tokenizer $MAIN_DIR/maxtext/assets/tokenizer.llama2 \
    --warmup-mode sampled \
    --save-result \
    --save-request-outputs \
    --request-outputs-file-path outputs.json \
    --num-prompts 1000 \
    --max-output-length 1024 \
    --dataset openorca \
    --dataset-path $MAIN_DIR/JetStream/benchmarks/open_orca_gpt4_tokenized_llama.calibration_1000.pkl

결과

v6e-8을 사용하여 벤치마크를 실행할 때 다음 출력이 생성되었습니다. 결과는 하드웨어, 소프트웨어, 모델, 네트워킹에 따라 달라집니다.

Mean output size: 929.5959798994975
Median output size: 1026.0
P99 output size: 1026.0
Successful requests: 995
Benchmark duration: 195.533269 s
Total input tokens: 217011
Total generated tokens: 924948
Request throughput: 5.09 requests/s
Input token throughput: 1109.84 tokens/s
Output token throughput: 4730.39 tokens/s
Overall token throughput: 5840.23 tokens/s
Mean ttft: 538.49 ms
Median ttft: 95.66 ms
P99 ttft: 13937.86 ms
Mean ttst: 1218.72 ms
Median ttst: 152.57 ms
P99 ttst: 14241.30 ms
Mean TPOT: 91.83 ms
Median TPOT: 16.63 ms
P99 TPOT: 363.37 ms

삭제

TPU에서 연결을 해제합니다.
```
$ (vm) exit
```

TPU를 삭제합니다.

gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
    --project ${PROJECT_ID} \
    --zone ${ZONE} \
    --force \
    --async

버킷과 콘텐츠를 삭제합니다.

export CHKPT_BUCKET=gs://your-checkpoint-bucket
export BASE_OUTPUT_DIRECTORY=gs://your-output-dir
export CONVERTED_CHECKPOINT_PATH=gs://bucket-to-store-converted-checkpoints
export MAXTEXT_BUCKET_UNSCANNED=gs://bucket-to-store-unscanned-data
gcloud storage rm -r ${CHKPT_BUCKET}
gcloud storage rm -r ${BASE_OUTPUT_DIRECTORY}
gcloud storage rm -r ${CONVERTED_CHECKPOINT_PATH}
gcloud storage rm -r ${MAXTEXT_BUCKET_UNSCANNED}