Interruzione vLLM su TPU v6e
Questo tutorial mostra come eseguire l'inferenza vLLM sulle TPU v6e. Inoltre, mostra come eseguire lo script di benchmark per il modello Meta Llama-3.1 8B.
Per iniziare a utilizzare vLLM sulle TPU v6e, consulta la guida rapida a vLLM.
Se utilizzi GKE, consulta anche il tutorial su GKE.
Prima di iniziare
Devi firmare il contratto di consenso per utilizzare la famiglia di modelli Llama3 nel repo HuggingFace. Vai alla pagina https://huggingface.co/meta-llama/Llama-3.1-8B, compila il contratto di consenso e attendi l'approvazione.
Preparati a eseguire il provisioning di una TPU v6e con 4 chip:
Segui la guida sulla configurazione dell'ambiente Cloud TPU per assicurarti di disporre dell'accesso appropriato per utilizzare le Cloud TPU.
Crea un'identità di servizio per la VM TPU.
gcloud alpha compute tpus tpu-vm service-identity create --zone=zone
Crea un account di servizio TPU e concedi accesso ai servizi Google Cloud .
Gli account di servizio consentono al Google Cloud servizio TPU di accedere ad altri Google Cloud servizi. È consigliato un account di servizio gestito dall'utente. Puoi creare un account di servizio dalla console Google Cloud o tramite il comando
gcloud
.Crea un account di servizio utilizzando lo strumento a riga di comando
gcloud
:gcloud iam service-accounts create your-service-account-name \ --description="your-sa-description" \ --display-name="your-sa-display-name" export SERVICE_ACCOUNT_NAME=your-service-account-name
Crea un account di servizio dalla console Google Cloud:
- Vai alla pagina Account di servizio nella console Google Cloud.
- Fai clic su Crea account di servizio.
- Inserisci il nome dell'account di servizio.
- (Facoltativo) Inserisci una descrizione per l'account di servizio.
- Fai clic su Crea e continua.
- Scegli i ruoli da concedere all'account di servizio.
- Fai clic su Continua.
- (Facoltativo) Specifica gli utenti o i gruppi che possono gestire l'account di servizio.
- Fai clic su Fine per completare la creazione del account di servizio.
Dopo aver creato l'account di servizio, segui questi passaggi per concedere i ruoli dell'account di servizio.
Sono necessari i seguenti ruoli:
- TPU Admin: necessario per creare una TPU
- Amministratore Storage: necessario per accedere a Cloud Storage
- Writer log
- Monitoring Metric Writer: necessario per scrivere le metriche in Cloud Monitoring
L'amministratore deve concederti il ruolo
roles/resourcemanager.projectIamAdmin
per consentirti di assegnare i ruoli IAM agli utenti. Anche un utente con il ruolo Amministratore IAM progettoroles/resourcemanager.projectIamAdmin
può assegnare questo ruolo.Utilizza i seguenti comandi
gcloud
per aggiungere i ruoli dell'account di servizio:gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member serviceAccount:${SERVICE_ACCOUNT_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \ --role roles/tpu.admin gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member serviceAccount:${SERVICE_ACCOUNT_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \ --role roles/storage.admin gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member serviceAccount:${SERVICE_ACCOUNT_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \ --role roles/logging.logWriter gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member serviceAccount:${SERVICE_ACCOUNT_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \ --role roles/monitoring.metricWriter
Puoi assegnare i ruoli anche utilizzando la console Google Cloud.
Nella console Google Cloud, seleziona i seguenti ruoli:
- Seleziona il tuo account di servizio e fai clic su Aggiungi principale.
- Nel campo Nuove entità, inserisci l'indirizzo email del tuo account di servizio.
- Nel menu a discesa Seleziona un ruolo, cerca il ruolo (ad esempio Amministratore Storage) e selezionalo.
- Fai clic su Salva.
Esegui l'autenticazione con Google Cloud e configura il progetto e la zona predefiniti per Google Cloud CLI.
gcloud auth login gcloud config set project PROJECT_ID gcloud config set compute/zone ZONE
Capacità sicura
Quando è tutto pronto per assicurarti la capacità TPU, consulta la pagina delle quote per saperne di più sul sistema delle quote Cloud. Se hai altre domande su come assicurarti la capacità, contatta il team di vendita o dell'account Cloud TPU.
Esegui il provisioning dell'ambiente Cloud TPU
Puoi eseguire il provisioning delle VM TPU con GKE, con GKE e XPK, o come risorse in coda.
Prerequisiti
- Questo tutorial è stato testato con Python 3.10 o versioni successive.
- Verifica che il tuo progetto disponga di una quota
TPUS_PER_TPU_FAMILY
sufficiente, che specifica il numero massimo di chip a cui puoi accedere all'interno del progettoGoogle Cloud . - Verifica che il tuo progetto disponga di una quota TPU sufficiente per:
- Quota VM TPU
- Quota di indirizzi IP
- Quota Hyperdisk bilanciata
- Autorizzazioni del progetto per gli utenti
- Se utilizzi GKE con XPK, consulta Autorizzazioni di Cloud Console per l'account utente o di servizio per conoscere le autorizzazioni necessarie per eseguire XPK.
Esegui il provisioning di una TPU v6e
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --node-id TPU_NAME \ --project PROJECT_ID \ --zone ZONE \ --accelerator-type v6e-4 \ --runtime-version v2-alpha-tpuv6e \ --service-account SERVICE_ACCOUNT
Descrizioni dei flag dei comandi
Variabile | Descrizione |
NODE_ID | L'ID assegnato dall'utente della TPU creata quando viene allocata la richiesta di risorsa in coda. |
PROJECT_ID | Google Cloud nome progetto. Utilizza un progetto esistente o creane uno nuovo.> |
ZONA | Consulta il documento Regioni e zone TPU per le zone supportate. |
ACCELERATOR_TYPE | Consulta la documentazione relativa ai tipi di acceleratore per conoscere i tipi di acceleratore supportati. |
RUNTIME_VERSION | v2-alpha-tpuv6e
|
SERVICE_ACCOUNT | Si tratta dell'indirizzo email del tuo account di servizio che puoi trovare in
console Google Cloud -> IAM -> Account di servizio
Ad esempio: tpu-service-account@<your_project_ID>.iam.gserviceaccount.com.com |
Utilizza i comandi list
o describe
per eseguire query sullo stato della risorsa in coda.
gcloud alpha compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \
--project ${PROJECT_ID} --zone ${ZONE}
Per un elenco completo degli stati delle richieste di risorse in coda, consulta la documentazione relativa alle risorse in coda.
Connettiti alla TPU tramite SSH
gcloud compute tpus tpu-vm ssh TPU_NAME
Installa le dipendenze
Crea una directory per Miniconda:
mkdir -p ~/miniconda3
Scarica lo script di installazione di Miniconda:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
Installa Miniconda:
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
Rimuovi lo script di installazione di Miniconda:
rm -rf ~/miniconda3/miniconda.sh
Aggiungi Miniconda alla variabile
PATH
:export PATH="$HOME/miniconda3/bin:$PATH"
Ricarica
~/.bashrc
per applicare le modifiche alla variabilePATH
:source ~/.bashrc
Crea un ambiente Conda:
conda create -n vllm python=3.11 -y conda activate vllm
Clona il repository vLLM e vai alla directory vLLM:
git clone https://github.com/vllm-project/vllm.git && cd vllm
Ripulisci i pacchetti torch e torch-xla esistenti:
pip uninstall torch torch-xla -y
Installa altre dipendenze di compilazione:
pip install -r requirements-tpu.txt VLLM_TARGET_DEVICE="tpu" python setup.py develop sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
Ottieni l'accesso al modello
Genera un nuovo token Abbracciamento se non ne hai già uno:
- Fai clic su Il tuo profilo > Impostazioni > Token di accesso.
- Seleziona Nuovo token.
- Specifica un nome a tua scelta e un ruolo con almeno
Read
autorizzazioni. - Seleziona Genera un token.
Copia il token generato negli appunti, impostalo come variabile di ambiente e autenticati con huggingface-cli:
export TOKEN=YOUR_TOKEN git config --global credential.helper store huggingface-cli login --token $TOKEN
Scaricare i dati di benchmarking
Crea una directory
/data
e scarica il set di dati ShareGPT da Hugging Face.mkdir ~/data && cd ~/data wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json
Avvia il server vLLM
Il seguente comando scarica i pesi del modello da
Hugging Face Model Hub
nella directory /tmp
della VM TPU, precompila una serie di forme di input e
scrive la compilazione del modello in ~/.cache/vllm/xla_cache
.
Per maggiori dettagli, consulta la documentazione di vLLM.
cd ~/vllm
vllm serve "meta-llama/Meta-Llama-3.1-8B" --download_dir /tmp --num-scheduler-steps 4 --swap-space 16 --disable-log-requests --tensor_parallel_size=4 --max-model-len=2048 &> serve.log &
Eseguire benchmark vLLM
Esegui lo script di benchmarking vLLM:
python benchmarks/benchmark_serving.py \
--backend vllm \
--model "meta-llama/Meta-Llama-3.1-8B" \
--dataset-name sharegpt \
--dataset-path ~/data/ShareGPT_V3_unfiltered_cleaned_split.json \
--num-prompts 1000
Esegui la pulizia
Elimina la TPU:
gcloud compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --project PROJECT_ID \ --zone ZONE \ --force \ --async