Cloud TPU 推論

應用是指將經過訓練的機器學習模型部署至可用於推論的實際工作環境。推論作業支援 TPU v5e 以上版本。延遲服務等級目標是服務的優先考量。

本文將說明如何在單一主機 TPU 上提供模型。晶片數量少於 8 個的 TPU 區塊會包含一個 TPU VM 或主機,稱為單主機 TPU。

開始使用

您需要 Google Cloud 帳戶和專案才能使用 Cloud TPU。詳情請參閱「設定 Cloud TPU 環境」。

您需要申請下列 TPU 服務配額:

  • 隨選 v5e 資源:TPUv5 lite pod cores for serving per project per zone
  • 可先占 v5e 資源:Preemptible TPU v5 lite pod cores for serving per project per zone
  • 隨選 v6e 資源:TPUv6 cores per project per zone
  • 可先占 v6e 資源:Preemptible TPUv6 cores per project per zone

如要進一步瞭解 TPU 配額,請參閱「TPU 配額」。

使用 JetStream 提供大型語言模型

JetStream 是處理量和記憶體最佳化引擎,可在 XLA 裝置 (TPU) 上執行大型語言模型 (LLM) 推論作業。您可以搭配 JAX 和 PyTorch/XLA 模型使用 JetStream。如需使用 JetStream 提供 JAX LLM 的範例,請參閱「在 v6e TPU 上使用 JetStream MaxText 推論」一文。

透過 vLLM 提供大型語言模型

vLLM 是開放原始碼程式庫,專為快速推論及提供大型語言模型 (LLM) 而設計。您可以搭配 PyTorch/XLA 使用 vLLM。如需使用 vLLM 提供 PyTorch LLM 的範例,請參閱「透過 vLLM 在 GKE 上使用 TPU Trillium 提供 LLM」。

分析

設定推論後,您可以使用分析器分析效能和 TPU 使用率。如要進一步瞭解剖析,請參閱: