Questo tutorial mostra come condividere in modo efficiente le risorse dell'acceleratore tra i carichi di lavoro di addestramento e di servizio di inferenza all'interno di un singolo cluster Google Kubernetes Engine (GKE). Distribuendo i carichi di lavoro misti su un singolo cluster, migliori l'utilizzo delle risorse, semplifichi la gestione del cluster, riduci i problemi derivanti dalle limitazioni della quantità di acceleratori e aumenti l'efficacia in termini di costi complessiva.
In questo tutorial, crei un deployment di serving ad alta priorità utilizzando il modello linguistico di grandi dimensioni (LLM) Gemma 2 per l'inferenza e il framework di serving Hugging Face TGI (Text Generation Interface), insieme a un job di perfezionamento dell'LLM a bassa priorità. Entrambi i carichi di lavoro vengono eseguiti su un singolo cluster che utilizza GPU NVIDIA L4. Utilizzi Kueue, un sistema di gestione delle code dei job open source nativo di Kubernetes, per gestire e pianificare i tuoi carichi di lavoro. Kueue ti consente di dare la priorità alle attività di pubblicazione e di interrompere i job di addestramento con priorità inferiore per ottimizzare l'utilizzo delle risorse. Man mano che le richieste di pubblicazione diminuiscono, riassegni gli acceleratori liberati per riprendere i job di addestramento. Utilizzi Kueue e le classi di priorità per gestire le quote di risorse durante l'intero processo.
Questo tutorial è rivolto a machine learning engineer, amministratori e operatori della piattaforma e specialisti di dati e AI che vogliono addestrare e ospitare un modello di machine learning (ML) su un cluster GKE e che vogliono anche ridurre i costi e il sovraccarico di gestione, soprattutto quando si ha a che fare con un numero limitato di acceleratori. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti, consulta Ruoli e attività comuni degli utenti di GKE Enterprise. Google Cloud
Prima di leggere questa pagina, assicurati di avere familiarità con quanto segue:
Obiettivi
Al termine di questa guida, dovresti essere in grado di eseguire i seguenti passaggi:
- Configura un'implementazione di deployment ad alta priorità.
- Configura i job di addestramento con priorità inferiore.
- Implementa strategie di preemptive per far fronte alla domanda variabile.
- Gestisci l'allocazione delle risorse tra le attività di addestramento e produzione utilizzando Kueue.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the required APIs.
-
Make sure that you have the following role or roles on the project:
roles/container.admin
,roles/iam.serviceAccountAdmin
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Vai a IAM - Seleziona il progetto.
- Fai clic su Concedi l'accesso.
-
Nel campo Nuove entità, inserisci il tuo identificatore utente. In genere si tratta dell'indirizzo email di un Account Google.
- Nell'elenco Seleziona un ruolo, seleziona un ruolo.
- Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ogni ruolo aggiuntivo.
- Fai clic su Salva.
-
- Crea un account Hugging Face, se non ne hai già uno.
- Assicurati che il tuo progetto disponga di una quota sufficiente per le GPU L4. Per saperne di più, consulta Informazioni sulle GPU e Quote di allocazione.
Prepara l'ambiente
In questa sezione, esegui il provisioning delle risorse necessarie per il deployment di TGI e del modello per i carichi di lavoro di inferenza e addestramento.
Ottenere l'accesso al modello
Per accedere ai modelli Gemma per il deployment su GKE, devi prima firmare il contratto di consenso alla licenza, poi generare un token di accesso Hugging Face.
- Firma il contratto di consenso alla licenza. Accedi alla pagina del consenso del modello, verifica il consenso utilizzando il tuo account Hugging Face e accetta i termini del modello.
Genera un token di accesso. Per accedere al modello tramite Hugging Face, devi disporre di un token Hugging Face. Segui questi passaggi per generare un nuovo token se non ne hai già uno:
- Fai clic su Il tuo profilo > Impostazioni > Token di accesso.
- Seleziona Nuovo token.
- Specifica un nome a tua scelta e un ruolo di almeno
Read
. - Seleziona Genera un token.
- Copia il token generato negli appunti.
Avvia Cloud Shell
In questo tutorial utilizzerai Cloud Shell per gestire le risorse ospitate su
Google Cloud. Cloud Shell include il software necessario per questo tutorial, tra cui
kubectl
,
gcloud CLI e Terraform.
Per configurare l'ambiente con Cloud Shell:
Nella console Google Cloud , avvia una sessione di Cloud Shell facendo clic su
Attiva Cloud Shell nella consoleGoogle Cloud . Viene avviata una sessione nel riquadro inferiore della console Google Cloud .
Imposta le variabili di ambiente predefinite:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project)
Sostituisci PROJECT_ID con l' Google Cloud ID progetto.
Clona il codice campione da GitHub. In Cloud Shell, esegui questi comandi:
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples/ cd kubernetes-engine-samples/ai-ml/mix-train-and-inference export EXAMPLE_HOME=$(pwd)
Crea un cluster GKE
Puoi utilizzare un cluster Autopilot o Standard per i tuoi carichi di lavoro misti. Ti consigliamo di utilizzare un cluster Autopilot per un'esperienza Kubernetes completamente gestita. Per scegliere la modalità operativa GKE più adatta ai tuoi carichi di lavoro, consulta Scegliere una modalità operativa GKE.
Autopilot
Imposta le variabili di ambiente predefinite in Cloud Shell:
export HF_TOKEN=HF_TOKEN export REGION=REGION export CLUSTER_NAME="llm-cluster" export PROJECT_NUMBER=$(gcloud projects list \ --filter="$(gcloud config get-value project)" \ --format="value(PROJECT_NUMBER)") export MODEL_BUCKET="model-bucket-$PROJECT_ID"
Sostituisci i seguenti valori:
- HF_TOKEN: il token Hugging Face che hai generato in precedenza.
- REGION: una regione che supporta il tipo di acceleratore che vuoi utilizzare, ad esempio
us-central1
per la GPU L4.
Puoi modificare la variabile MODEL_BUCKET, che rappresenta il bucket Cloud Storage in cui memorizzi i pesi del modello addestrato.
Crea un cluster Autopilot:
gcloud container clusters create-auto ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --region=${REGION} \ --release-channel=rapid
Crea il bucket Cloud Storage per il job di perfezionamento:
gcloud storage buckets create gs://${MODEL_BUCKET} \ --location ${REGION} \ --uniform-bucket-level-access
Per concedere l'accesso al bucket Cloud Storage, esegui questo comando:
gcloud storage buckets add-iam-policy-binding "gs://$MODEL_BUCKET" \ --role=roles/storage.objectAdmin \ --member=principal://iam.googleapis.com/projects/$PROJECT_NUMBER/locations/global/workloadIdentityPools/$PROJECT_ID.svc.id.goog/subject/ns/llm/sa/default \ --condition=None
Per ottenere le credenziali di autenticazione per il cluster, esegui questo comando:
gcloud container clusters get-credentials llm-cluster \ --region=$REGION \ --project=$PROJECT_ID
Crea uno spazio dei nomi per i tuoi deployment. In Cloud Shell, esegui questo comando:
kubectl create ns llm
Standard
Imposta le variabili di ambiente predefinite in Cloud Shell:
export HF_TOKEN=HF_TOKEN export REGION=REGION export CLUSTER_NAME="llm-cluster" export GPU_POOL_MACHINE_TYPE="g2-standard-24" export GPU_POOL_ACCELERATOR_TYPE="nvidia-l4" export PROJECT_NUMBER=$(gcloud projects list \ --filter="$(gcloud config get-value project)" \ --format="value(PROJECT_NUMBER)") export MODEL_BUCKET="model-bucket-$PROJECT_ID"
Sostituisci i seguenti valori:
- HF_TOKEN: il token Hugging Face che hai generato in precedenza.
- REGION: la regione che supporta il tipo di acceleratore che vuoi utilizzare, ad esempio
us-central1
per la GPU L4.
Puoi modificare queste variabili:
- GPU_POOL_MACHINE_TYPE: la serie di macchine del pool di nodi che vuoi utilizzare nella regione selezionata. Questo valore dipende dal tipo di acceleratore
che hai selezionato. Per saperne di più, consulta Limitazioni dell'utilizzo delle GPU su GKE. Ad esempio, questo
tutorial utilizza
g2-standard-24
con due GPU collegate per nodo. Per l'elenco più aggiornato delle GPU disponibili, consulta GPU per i carichi di lavoro di calcolo. - GPU_POOL_ACCELERATOR_TYPE: il tipo di acceleratore
supportato nella regione selezionata. Ad esempio, questo tutorial utilizza
nvidia-l4
. Per l'elenco più recente delle GPU disponibili, consulta GPU per i carichi di lavoro di calcolo. - MODEL_BUCKET: il bucket Cloud Storage in cui memorizzi i pesi del modello addestrato.
Crea un cluster Standard:
gcloud container clusters create ${CLUSTER_NAME} \ --project=${PROJECT_ID} \ --region=${REGION} \ --workload-pool=${PROJECT_ID}.svc.id.goog \ --release-channel=rapid \ --machine-type=e2-standard-4 \ --addons GcsFuseCsiDriver \ --num-nodes=1
Crea il pool di nodi GPU per i carichi di lavoro di inferenza e perfezionamento:
gcloud container node-pools create gpupool \ --accelerator type=${GPU_POOL_ACCELERATOR_TYPE},count=2,gpu-driver-version=latest \ --project=${PROJECT_ID} \ --location=${REGION} \ --node-locations=${REGION}-a \ --cluster=${CLUSTER_NAME} \ --machine-type=${GPU_POOL_MACHINE_TYPE} \ --num-nodes=3
Crea il bucket Cloud Storage per il job di perfezionamento:
gcloud storage buckets create gs://${MODEL_BUCKET} \ --location ${REGION} \ --uniform-bucket-level-access
Per concedere l'accesso al bucket Cloud Storage, esegui questo comando:
gcloud storage buckets add-iam-policy-binding "gs://$MODEL_BUCKET" \ --role=roles/storage.objectAdmin \ --member=principal://iam.googleapis.com/projects/$PROJECT_NUMBER/locations/global/workloadIdentityPools/$PROJECT_ID.svc.id.goog/subject/ns/llm/sa/default \ --condition=None
Per ottenere le credenziali di autenticazione per il cluster, esegui questo comando:
gcloud container clusters get-credentials llm-cluster \ --region=$REGION \ --project=$PROJECT_ID
Crea uno spazio dei nomi per i tuoi deployment. In Cloud Shell, esegui questo comando:
kubectl create ns llm
Crea un secret di Kubernetes per le credenziali di Hugging Face
Per creare un secret Kubernetes che contenga il token Hugging Face, esegui il comando seguente:
kubectl create secret generic hf-secret \
--from-literal=hf_api_token=$HF_TOKEN \
--dry-run=client -o yaml | kubectl apply --namespace=llm --filename=-
Configura Kueue
In questo tutorial, Kueue è il gestore delle risorse centrale, che consente la condivisione efficiente delle GPU tra i carichi di lavoro di addestramento e serving. Kueue lo fa definendo i requisiti delle risorse ("sapori"), dando la priorità ai carichi di lavoro tramite le code (con le attività di servizio con priorità rispetto all'addestramento) e allocando dinamicamente le risorse in base alla domanda e alla priorità. Questo tutorial utilizza il tipo di risorsa Workload per raggruppare rispettivamente i workload di inferenza e di perfezionamento.
La funzionalità di preempt di Kueue garantisce che i workload di pubblicazione ad alta priorità abbiano sempre le risorse necessarie mettendo in pausa o eliminando i job di addestramento a priorità inferiore quando le risorse sono scarse.
Per controllare il deployment del server di inferenza con Kueue, abilita l'integrazione di pod
e configura managedJobsNamespaceSelector
per escludere gli spazi dei nomi kube-system
e kueue-system
.
Nella directory
/kueue
, visualizza il codice inkustomization.yaml
. Questo manifest installa il gestore delle risorse Kueue con configurazioni personalizzate.Nella directory
/kueue
, visualizza il codice inpatch.yaml
. Questo oggetto ConfigMap personalizza Kueue per escludere la gestione dei pod negli spazi dei nomikube-system
ekueue-system
.In Cloud Shell, esegui questo comando per installare Kueue:
cd ${EXAMPLE_HOME} kubectl kustomize kueue |kubectl apply --server-side --filename=-
Attendi che i pod Kueue siano pronti:
watch kubectl --namespace=kueue-system get pods
L'output dovrebbe essere simile al seguente:
NAME READY STATUS RESTARTS AGE kueue-controller-manager-bdc956fc4-vhcmx 1/1 Running 0 3m15s
Nella directory
/workloads
, visualizza i fileflavors.yaml
,cluster-queue.yaml
elocal-queue.yaml
. Questi manifest specificano come Kueue gestisce le quote di risorse:ResourceFlavor
Questo manifest definisce un ResourceFlavor predefinito in Kueue per la gestione delle risorse.
ClusterQueue
Questo manifest configura una ClusterQueue di Kueue con limiti di risorse per CPU, memoria e GPU.
Questo tutorial utilizza nodi con due GPU Nvidia L4 collegate, con il tipo di nodo corrispondente
g2-standard-24
, che offre 24 vCPU e 96 GB di RAM. Il codice di esempio mostra come limitare l'utilizzo delle risorse del tuo workload a un massimo di sei GPU.Il campo
preemption
nella configurazione di ClusterQueue fa riferimento alle PriorityClass per determinare quali pod possono essere preempted quando le risorse sono scarse.LocalQueue
Questo manifest crea una LocalQueue Kueue denominata
lq
nello spazio dei nomillm
.Visualizza i file
default-priorityclass.yaml
,low-priorityclass.yaml
ehigh-priorityclass.yaml
. Questi manifest definiscono gli oggetti PriorityClass per la pianificazione di Kubernetes.Priorità predefinita
Priorità bassa
Priorità elevata
Crea gli oggetti Kueue e Kubernetes eseguendo questi comandi per applicare i manifest corrispondenti.
cd ${EXAMPLE_HOME}/workloads kubectl apply --filename=flavors.yaml kubectl apply --filename=default-priorityclass.yaml kubectl apply --filename=high-priorityclass.yaml kubectl apply --filename=low-priorityclass.yaml kubectl apply --filename=cluster-queue.yaml kubectl apply --filename=local-queue.yaml --namespace=llm
Esegui il deployment del server di inferenza TGI
In questa sezione, esegui il deployment del container TGI per pubblicare il modello Gemma 2.
Nella directory
/workloads
, visualizza il filetgi-gemma-2-9b-it-hp.yaml
. Questo manifest definisce un deployment Kubernetes per eseguire il deployment del runtime di pubblicazione TGI e del modellogemma-2-9B-it
. Un deployment è un oggetto API Kubernetes che consente di eseguire più repliche di pod distribuite tra i nodi di un cluster.Il deployment assegna la priorità alle attività di inferenza e utilizza due GPU per il modello. Utilizza il parallelismo dei tensori, impostando la variabile di ambiente
NUM_SHARD
, per adattare il modello alla memoria GPU.Applica il manifest eseguendo questo comando:
kubectl apply --filename=tgi-gemma-2-9b-it-hp.yaml --namespace=llm
Il completamento dell'operazione di deployment richiede alcuni minuti.
Per verificare se GKE ha creato correttamente il deployment, esegui questo comando:
kubectl --namespace=llm get deployment
L'output dovrebbe essere simile al seguente:
NAME READY UP-TO-DATE AVAILABLE AGE tgi-gemma-deployment 1/1 1 1 5m13s
Verifica la gestione delle quote di Kueue
In questa sezione, confermi che Kueue applichi correttamente la quota di GPU per il tuo deployment.
Per verificare se Kueue è a conoscenza del tuo deployment, esegui questo comando per recuperare lo stato degli oggetti Workload:
kubectl --namespace=llm get workloads
L'output dovrebbe essere simile al seguente:
NAME QUEUE RESERVED IN ADMITTED FINISHED AGE pod-tgi-gemma-deployment-6bf9ffdc9b-zcfrh-84f19 lq cluster-queue True 8m23s
Per testare l'override dei limiti di quota, scala il deployment a quattro repliche:
kubectl scale --replicas=4 deployment/tgi-gemma-deployment --namespace=llm
Esegui questo comando per visualizzare il numero di repliche che GKE esegue il deployment:
kubectl get workloads --namespace=llm
L'output dovrebbe essere simile al seguente:
NAME QUEUE RESERVED IN ADMITTED FINISHED AGE pod-tgi-gemma-deployment-6cb95cc7f5-5thgr-3f7d4 lq cluster-queue True 14s pod-tgi-gemma-deployment-6cb95cc7f5-cbxg2-d9fe7 lq cluster-queue True 5m41s pod-tgi-gemma-deployment-6cb95cc7f5-tznkl-80f6b lq 13s pod-tgi-gemma-deployment-6cb95cc7f5-wd4q9-e4302 lq cluster-queue True 13s
L'output mostra che vengono ammessi solo tre pod a causa della quota di risorse applicata da Kueue.
Esegui questo comando per visualizzare i pod nello spazio dei nomi
llm
:kubectl get pod --namespace=llm
L'output dovrebbe essere simile al seguente:
NAME READY STATUS RESTARTS AGE tgi-gemma-deployment-7649884d64-6j256 1/1 Running 0 4m45s tgi-gemma-deployment-7649884d64-drpvc 0/1 SchedulingGated 0 7s tgi-gemma-deployment-7649884d64-thdkq 0/1 Pending 0 7s tgi-gemma-deployment-7649884d64-znvpb 0/1 Pending 0 7s
Ora fare lo scale down il deployment a 1. Questo passaggio è obbligatorio prima di eseguire il deployment del job di perfezionamento, altrimenti non verrà ammesso perché il job di inferenza ha la priorità.
kubectl scale --replicas=1 deployment/tgi-gemma-deployment --namespace=llm
Spiegazione del comportamento
L'esempio di scalabilità genera solo tre repliche (nonostante la scalabilità a quattro) a causa del limite di quota GPU impostato nella configurazione di ClusterQueue. La sezione
ClusterQueue spec.resourceGroups
definisce una quota nominale di "6" per
nvidia.com/gpu
. Il deployment specifica che ogni pod richiede "2" GPU.
Pertanto, ClusterQueue può ospitare un massimo di tre repliche del
Deployment alla volta (poiché 3 repliche * 2 GPU per replica = 6 GPU, che
è la quota totale).
Quando tenti di scalare a quattro repliche, Kueue riconosce che questa azione supererebbe la quota GPU e impedisce la pianificazione della quarta replica. Ciò
è indicato dallo stato SchedulingGated
del quarto pod. Questo comportamento
dimostra l'applicazione della quota di risorse di Kueue.
Esegui il deployment del job di addestramento
In questa sezione, esegui il deployment di un job di fine tuning a priorità inferiore per un modello Gemma 2 che richiede quattro GPU in due pod. Un controller Job in Kubernetes crea uno o più pod e garantisce che eseguano correttamente un'attività specifica.
Questo job utilizzerà la quota GPU rimanente in ClusterQueue. Il job utilizza un'immagine predefinita e salva i checkpoint per consentire il riavvio dai risultati intermedi.
Il job di perfezionamento utilizza il set di dati b-mc2/sql-create-context
. L'origine del job di ottimizzazione si trova nel repository.
Visualizza il file
fine-tune-l4.yaml
. Questo manifest definisce il job di perfezionamento.Applica il manifest per creare il job di perfezionamento:
cd ${EXAMPLE_HOME}/workloads sed -e "s/<MODEL_BUCKET>/$MODEL_BUCKET/g" \ -e "s/<PROJECT_ID>/$PROJECT_ID/g" \ -e "s/<REGION>/$REGION/g" \ fine-tune-l4.yaml |kubectl apply --filename=- --namespace=llm
Verifica che i deployment siano in esecuzione. Per controllare lo stato degli oggetti Workload, esegui questo comando:
kubectl get workloads --namespace=llm
L'output dovrebbe essere simile al seguente:
NAME QUEUE RESERVED IN ADMITTED FINISHED AGE job-finetune-gemma-l4-3316f lq cluster-queue True 29m pod-tgi-gemma-deployment-6cb95cc7f5-cbxg2-d9fe7 lq cluster-queue True 68m
Successivamente, visualizza i pod nello spazio dei nomi
llm
eseguendo questo comando:kubectl get pod --namespace=llm
L'output dovrebbe essere simile al seguente:
NAME READY STATUS RESTARTS AGE finetune-gemma-l4-0-vcxpz 2/2 Running 0 31m finetune-gemma-l4-1-9ppt9 2/2 Running 0 31m tgi-gemma-deployment-6cb95cc7f5-cbxg2 1/1 Running 0 70m
L'output mostra che Kueue consente l'esecuzione sia del job di perfezionamento sia dei pod server di inferenza, riservando le risorse corrette in base ai limiti di quota specificati.
Visualizza i log di output per verificare che il job di perfezionamento salvi i checkpoint nel bucket Cloud Storage. Il job di perfezionamento richiede circa 10 minuti prima di iniziare a salvare il primo checkpoint.
kubectl logs --namespace=llm --follow --selector=app=finetune-job
L'output per il primo checkpoint salvato è simile al seguente:
{"name": "finetune", "thread": 133763559483200, "threadName": "MainThread", "processName": "MainProcess", "process": 33, "message": "Fine tuning started", "timestamp": 1731002351.0016131, "level": "INFO", "runtime": 451579.89835739136} … {"name": "accelerate.utils.fsdp_utils", "thread": 136658669348672, "threadName": "MainThread", "processName": "MainProcess", "process": 32, "message": "Saving model to /model-data/model-gemma2/experiment/checkpoint-10/pytorch_model_fsdp_0", "timestamp": 1731002386.1763802, "level": "INFO", "runtime": 486753.8924217224}
Testa la preemption e l'allocazione dinamica di Kueue sul tuo workload misto
In questa sezione simulerai uno scenario in cui il carico del server di inferenza aumenta, richiedendo lo scale up. Questo scenario mostra come Kueue assegna la priorità al server di inferenza ad alta priorità sospendendo e interrompendo il job di perfezionamento a priorità più bassa quando le risorse sono limitate.
Esegui questo comando per scalare le repliche del server di inferenza a due:
kubectl scale --replicas=2 deployment/tgi-gemma-deployment --namespace=llm
Controlla lo stato degli oggetti Workload:
kubectl get workloads --namespace=llm
L'output è simile al seguente:
NAME QUEUE RESERVED IN ADMITTED FINISHED AGE job-finetune-gemma-l4-3316f lq False 32m pod-tgi-gemma-deployment-6cb95cc7f5-cbxg2-d9fe7 lq cluster-queue True 70m pod-tgi-gemma-deployment-6cb95cc7f5-p49sh-167de lq cluster-queue True 14s
L'output mostra che il job di perfezionamento non è più ammesso perché le repliche del server di inferenza aumentate utilizzano la quota GPU disponibile.
Controlla lo stato del job di perfezionamento:
kubectl get job --namespace=llm
L'output è simile al seguente, che indica che lo stato del job di perfezionamento è ora sospeso:
NAME STATUS COMPLETIONS DURATION AGE finetune-gemma-l4 Suspended 0/2 33m
Esegui questo comando per controllare i pod:
kubectl get pod --namespace=llm
L'output è simile al seguente, il che indica che Kueue ha terminato i pod di job di perfezionamento per liberare risorse per il deployment del server di inferenza con priorità più elevata.
NAME READY STATUS RESTARTS AGE tgi-gemma-deployment-6cb95cc7f5-cbxg2 1/1 Running 0 72m tgi-gemma-deployment-6cb95cc7f5-p49sh 0/1 ContainerCreating 0 91s
Successivamente, testa lo scenario in cui il carico del server di inferenza diminuisce e i relativi pod vengono ridimensionati. Esegui questo comando:
kubectl scale --replicas=1 deployment/tgi-gemma-deployment --namespace=llm
Esegui questo comando per visualizzare gli oggetti Workload:
kubectl get workloads --namespace=llm
L'output è simile al seguente, il che indica che uno dei deployment del server di inferenza è terminato e il job di perfezionamento è stato riammesso.
NAME QUEUE RESERVED IN ADMITTED FINISHED AGE job-finetune-gemma-l4-3316f lq cluster-queue True 37m pod-tgi-gemma-deployment-6cb95cc7f5-cbxg2-d9fe7 lq cluster-queue True 75m
Esegui questo comando per visualizzare i job:
kubectl get job --namespace=llm
L'output è simile al seguente, il che indica che il job di perfezionamento è in esecuzione di nuovo, riprendendo dall'ultimo checkpoint disponibile.
NAME STATUS COMPLETIONS DURATION AGE finetune-gemma-l4 Running 0/2 2m11s 38m
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina le risorse di cui è stato eseguito il deployment
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse che hai creato in questa guida, esegui i seguenti comandi:
gcloud storage rm --recursive gs://${MODEL_BUCKET}
gcloud container clusters delete ${CLUSTER_NAME} --location ${REGION}