本頁面由 Cloud Translation API 翻譯而成。

Cloud TPU 推論

服務是指將訓練好的機器學習模型部署至生產環境的程序，以便用於推論。TPU v5e 和更新版本支援推論作業。服務的優先考量是延遲服務等級目標。

本文說明如何在單一主機 TPU 上提供模型。晶片數少於或等於 8 個的 TPU 節點具有一個 TPU VM 或主機，稱為單一主機 TPU。如要瞭解多主機推論，請參閱「使用 Pathways 執行多主機推論」。

開始使用

如要使用 Cloud TPU，您需要 Google Cloud 帳戶和專案。詳情請參閱「設定 Cloud TPU 環境」一文。

請確認您有足夠的配額，可供推論使用計畫中的 TPU 核心數量。TPU v5e 的訓練和服務配額是分開計算。TPU v5e 的服務專用配額如下：

隨選 v5e 資源：TPUv5 lite pod cores for serving per project per zone
先占 v5e 資源：Preemptible TPU v5 lite pod cores for serving per project per zone

如果是其他 TPU 版本，訓練和服務工作負載會使用相同的配額。詳情請參閱 Cloud TPU 配額。

vLLM 是開放原始碼程式庫，專為大型語言模型 (LLM) 的快速推論和服務而設計。Cloud TPU 會使用 tpu-inference 外掛程式與 vLLM 整合，支援 JAX 和 PyTorch 模型。詳情請參閱 tpu-inference GitHub 存放區。

如需使用 vLLM 在 TPU 上提供模型的範例，請參閱下列內容：

設定推論後，您可以使用分析器分析效能和 TPU 使用率。如要進一步瞭解剖析功能，請參閱：