Inferenza di Cloud TPU

Per pubblicazione si intende il processo di deployment di un modello addestrato di machine learning in un ambiente di produzione, dove può essere utilizzato per l'inferenza. L'inferenza è supportata su TPU v5e e versioni successive. Gli SLO di latenza sono una priorità per la gestione.

Questo documento illustra la distribuzione di un modello su una TPU a host singolo. Le sezioni TPU con massimo 8 chip hanno una VM o un host TPU e sono chiamate TPU a host singolo.

Inizia

Per utilizzare Cloud TPU, avrai bisogno di un Google Cloud account e di un progetto. Per maggiori informazioni, consulta Configurare un ambiente Cloud TPU.

Devi richiedere la quota seguente per la pubblicazione sulle TPU:

  • Risorse v5e on demand: TPUv5 lite pod cores for serving per project per zone
  • Risorse v5e prerilasciabili: Preemptible TPU v5 lite pod cores for serving per project per zone
  • Risorse v6e on demand: TPUv6 cores per project per zone
  • Risorse v6e prerilasciabili: Preemptible TPUv6 cores per project per zone

Per ulteriori informazioni sulla quota TPU, consulta l'articolo sulla quota TPU.

Gestisci gli LLM utilizzando JetStream

JetStream è un motore ottimizzato per la velocità effettiva e la memoria per l'inferenza di modelli linguistici di grandi dimensioni (LLM) su dispositivi XLA (TPU). Puoi usare JetStream con i modelli JAX e PyTorch/XLA. Per un esempio di utilizzo di JetStream per gestire un LLM JAX, consulta Inferenza JetStream MaxText su TPU v6e.

Gestisci modelli LLM con vLLM

vLLM è una libreria open source progettata per l'inferenza e la pubblicazione rapide di modelli linguistici di grandi dimensioni (LLM). Puoi utilizzare i modelli vLLM con PyTorch/XLA. Per un esempio di utilizzo di vLLM per gestire un LLM PyTorch, consulta Pubblicare un LLM utilizzando TPU Trillium su GKE con vLLM.

Profilazione

Dopo aver configurato l'inferenza, puoi utilizzare i profiler per analizzare le prestazioni e l'utilizzo della TPU. Per ulteriori informazioni sulla profilazione, consulta: