設定 Cloud TPU 環境
您必須先完成下列步驟,才能使用 Cloud TPU 資源訓練模型或執行推論:
設定您的 Google Cloud 專案
您必須擁有 Google Cloud 帳戶和專案,才能使用 Cloud TPU。
在 Google Cloud 控制台中,登入 Google 帳戶或註冊新帳戶。
建立 Google Cloud 專案。詳情請參閱「建立專案」。
-
所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件。
所有 Cloud TPU 版本的用量計費皆遵循 Cloud TPU 定價頁面所列的標準區域價格。
安裝 Google Cloud CLI。Google Cloud CLI 是一套程式庫和工具,可用於存取及管理 Google Cloud 資源和服務。
設定您在 Google Cloud CLI 中安裝的
gcloud
指令。執行下列指令,設定
gcloud
使用 Google Cloud專案。$ gcloud config set project PROJECT_ID
-
所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件。
所有 Cloud TPU 版本的用量計費皆遵循 Cloud TPU 定價頁面所列的標準區域價格。
設定環境以使用 Cloud TPU
在申請 Cloud TPU 之前,您必須啟用 Cloud TPU API,並確認自己有權限管理專案中的存取權,以及建立 Cloud TPU。建議您建立使用者自行管理的服務帳戶,並將其附加至 TPU。
從 Google Cloud 控制台啟用 Cloud TPU API,或在 Cloud Shell 中使用 gcloud CLI:
gcloud
$ gcloud services enable tpu.googleapis.com
控制台
- 在 Google Cloud 控制台中,前往 Cloud TPU API 頁面。
- 按一下「啟用」。
請確認您在專案中具有下列角色:
- 服務帳戶管理員:建立服務帳戶時需要此權限
- 專案 IAM 管理員:需要此角色才能在專案中授予角色
- TPU 管理員:建立 TPU 時需要使用
請按照「查看目前存取權」中的指示,查看哪些使用者有權存取您的專案、資料夾或機構。如要查看自己的存取權,請在「Principal」欄中找出含有您電子郵件地址的資料列。如果您的電子郵件地址不在該欄中,表示您沒有任何角色。在含有電子郵件地址的資料列「角色」欄中,確認角色清單是否包含必要角色。
如果您沒有必要的角色,請授予角色,或請管理員授予角色。
建立 Cloud TPU 服務代理:
服務代理人是一種服務身分,由 Google 維護,可供 Cloud TPU 服務在您的 Google Cloud 專案中執行作業。舉例來說,服務代理程式可用於建立及管理 Cloud TPU 資源。
$ gcloud beta services identity create --service tpu.googleapis.com --project PROJECT_ID
建立 TPU 服務帳戶:
服務帳戶可做為 TPU VM 的憑證。服務帳戶附加的角色會授予 Google Cloud 資源存取權。建議您使用使用者管理的服務帳戶,只授予 TPU VM 所需的權限。使用使用者自管服務帳戶時,您必須在使用
--service-account
標記建立 TPU VM 時指定該帳戶。請按照「建立服務帳戶」一節的操作說明,建立使用者管理的服務帳戶。
請按照「管理專案、資料夾和機構的存取權」一文中的操作說明,授予服務帳戶存取 TPU 將存取的 Google Cloud 服務。建議您為 TPU 指派下列角色,以便存取常用的Google Cloud 服務。
- TPU 管理員:需要此權限才能完全存取 TPU 資源
- Storage 管理員:存取 Cloud Storage 時需要使用
- Logs Writer:使用 Logging API 寫入記錄時所需
- Monitoring 指標寫入者:用於將指標寫入 Cloud Monitoring
準備建立 Cloud TPU
建立 Cloud TPU 前,您必須先申請配額。您也應考慮使用排隊資源,以及要使用哪些參數來設定 TPU。
選擇消費選項。
消耗選項是用來要求 Cloud TPU 容量的方法。請根據下列因素選擇消費選項:
- 需要容量的速度
- 需要容量多久
- 您需要的容量是否有固定或彈性的時間限制
- 是否可搶佔容量
- 定價
詳情請參閱「Cloud TPU 消耗選項」。
要求配額:
TPU 配額是指在Google Cloud 專案中可使用的 Cloud TPU 核心數量限制。每個 TPU 版本都會與專屬配額相關聯。如要建立 Cloud TPU, Google Cloud 專案必須針對您要建立的 TPU 版本和大小,以及建立 TPU 的區域,具備配額。如要進一步瞭解配額分配、配額類型,以及如何要求配額,請參閱「配額」。
如果您使用 Google Kubernetes Engine 或 Vertex AI 建立 TPU,則需要這些服務的配額。如要進一步瞭解 GKE 配額,請參閱「使用 GKE 規劃 TPU 設定」一文。如要進一步瞭解 Vertex AI 配額,請參閱「Vertex AI 配額和限制」。
決定是否要使用排入佇列的資源。
最佳做法是建立 Cloud TPU 做為佇列資源。排隊資源可讓您在可用容量釋出後立即接收。您可以指定要填寫要求的選用開始和結束時間。
有不同的 gcloud CLI 指令可用於處理排入佇列的資源。詳情請參閱「佇列資源使用者指南」。
決定 Cloud TPU 建立參數:
區域:將
--zone
標記設定為要建立 TPU 的區域。您必須在這個區域中分配配額。詳情請參閱「TPU 地區和區域」。TPU 設定:如果您不需要指定自訂拓撲,或是使用 TPU v2 或 v3,請將
--accelerator-type
標記設為vVERSION-TENSORCORES
。將 VERSION 替換為您要使用的 TPU 版本號碼。將 TENSORCORES 替換為要使用的 TensorCore 數量。如果您想自訂 TPU 的實體拓撲,請使用
--version
和--topology
旗標。將--version
旗標設為要使用的 TPU 版本。將--topology
標記設為要使用的拓撲。如要進一步瞭解 TPU 設定 (包括支援的設定和拓撲變化版本),請參閱「TPU 版本」。
軟體版本:如果您要求排隊資源,請將
--runtime-version
旗標設為要使用的軟體版本名稱。否則,請使用--version
旗標。TPU 軟體版本適用於 TensorFlow、PyTorch 和 JAX 架構。如要進一步瞭解支援的軟體版本,請參閱 TPU VM 軟體版本。服務帳戶:如果您已建立服務帳戶,請將
--service-account
設為服務帳戶的電子郵件地址,以便將服務帳戶附加至 TPU。如果留空,系統會使用預設的 Compute Engine 服務帳戶。配額類型:新增與要使用的配額類型相對應的標記:
配額類型 旗標 預留 --reserved
Spot VM --spot
可先占 (不適用於佇列資源,請改用 --spot
)--preemptible
隨選 不需要額外標記 進階設定:您可以在要求中加入其他標記,以便設定 TPU。詳情請參閱
gcloud compute tpus tpu-vm create
說明文件和以下各節:
如需建立 Cloud TPU 的範例,請參閱「開始使用」一文。
後續步驟
- 瞭解如何建立及管理 VM 和 TPU 資源
- 執行 Cloud TPU 快速入門導覽課程