Modelli linguistici di grandi dimensioni (LLM)
-
Inferenza JetStream MaxText su v6e
Una guida per configurare e utilizzare JetStream con MaxText per l'inferenza su v6e.
-
Inferenza JetStream PyTorch su v6e
Una guida per configurare e utilizzare JetStream con PyTorch per l'inferenza su v6e.
-
Inferenza vLLM su v6e
Una guida per configurare e utilizzare vLLM per l'inferenza su v6e.
-
Gestisci un LLM utilizzando TPU su GKE con vLLM
Una guida all'utilizzo di vLLM per pubblicare modelli linguistici di grandi dimensioni (LLM) utilizzando le unità di elaborazione tensoriale (TPU) su Google Kubernetes Engine (GKE).
-
Addestramento di Llama 3 con PyTorch su TPU v5e
Una guida per addestrare un modello Llama-3-8B utilizzando PyTorch/XLA su TPU v5e utilizzando il set di dati WikiText.