使用彈性啟動要求 Cloud TPU
Cloud TPU 的彈性啟動功能採用動態工作負載排程器,可讓您以經濟實惠的方式彈性存取 TPU 資源,處理 AI 工作負載。彈性啟動功能可讓您視需要動態佈建 TPU,最多可使用 7 天,不必長期預訂或進行複雜的配額管理。使用彈性啟動時,您提交的 TPU 佈建要求會持續存在,直到容量可用為止。一旦有可用的 TPU VM,彈性啟動就會在您要求指定的時間長度內,提供 TPU VM 執行作業。
彈性啟動非常適合快速實驗、小規模測試、為推論工作負載動態佈建 TPU、微調模型,以及執行時間少於 7 天的工作負載。如要進一步瞭解其他 TPU 消耗量選項,請參閱 Cloud TPU 消耗量選項。
您可以隨時刪除 TPU 資源,停止計費。如要進一步瞭解 TPU 定價,請參閱 Cloud TPU 定價。
限制
彈性啟動 Cloud TPU 有下列限制:
- 您最多可以要求彈性啟動資源 7 天。
- 彈性啟動支援下列 Cloud TPU 版本和區域:
- 如要搭配 Cloud TPU 使用彈性啟動功能,請務必使用佇列資源 API。
事前準備
要求彈性啟動 TPU 前,請務必完成下列事項:
- 安裝 Google Cloud CLI
- 建立 Google Cloud 專案
- 啟用 Cloud TPU API
詳情請參閱「設定 Cloud TPU 環境」。
此外,您也應確保有足夠的搶占配額,可使用彈性啟動。如果需要的 TPU 核心數量超過預設配額,請申請提高配額。如要進一步瞭解預設值和如何要求更多配額,請參閱「Cloud TPU 配額」。
要求彈性啟動 TPU
彈性啟動會使用 TPU 佇列資源 API,按照佇列順序要求 TPU 資源。當要求的資源可用時,系統會將其指派給您的 Google Cloud 專案,供您立即專屬使用。在要求的執行時間結束後,系統會刪除 TPU VM,並將排入佇列的資源移至 SUSPENDED
狀態。如要進一步瞭解排入佇列的資源,請參閱「管理排入佇列的資源」。
如要彈性啟動 TPU,請使用 gcloud alpha compute tpus queued-resources
create
指令,並將 --provisioning-model
旗標設為 flex-start
,以及將 --max-run-duration
旗標設為 TPU 的執行時間。
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
替換下列預留位置:
- QUEUED_RESOURCE_ID:使用者為已加入佇列的資源要求指派的 ID。
- ZONE:要建立 TPU VM 的可用區。
- ACCELERATOR_TYPE:指定要建立的 Cloud TPU 版本和大小。如要進一步瞭解各個 TPU 版本支援的加速器類型,請參閱「TPU 版本」。
- RUNTIME_VERSION:Cloud TPU 軟體版本。
- NODE_ID:系統在分配已排入佇列的資源要求時,為 TPU 指派的 ID。
- RUN_DURATION:TPU 的執行時間長度。將時間長度格式化為天數、時數、分鐘數和秒數,並分別加上
d
、h
、m
和s
。舉例來說,如要指定 72 小時的時長,請輸入72h
;如要指定 1 天 2 小時 3 分 4 秒的時長,請輸入1d2h3m4s
。最長不得超過 7 天。
您可以使用其他標記,進一步自訂排隊資源要求,在特定時間執行:
--valid-after-duration
:TPU 不得佈建的時長。--valid-after-time
:TPU 不得在此時間前佈建。--valid-until-duration
:要求的有效時間長度。如果要求未在期限內完成,就會過期並進入FAILED
狀態。--valid-until-time
:要求的有效時間。如果要求未在期限內完成,就會過期並進入FAILED
狀態。
如要進一步瞭解選用旗標,請參閱 gcloud alpha compute tpus queued-resources
create
說明文件。
取得彈性啟動要求狀態
如要監控彈性啟動要求狀態,請使用已加入佇列的資源 API,透過 gcloud alpha compute tpus queued-resources describe
指令取得已加入佇列的資源要求狀態:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
已加入佇列的資源可能處於下列其中一種狀態:
WAITING_FOR_RESOURCES
:要求已通過初步驗證,並已加入佇列。PROVISIONING
:要求已從佇列中選取,系統正在建立 TPU VM。ACTIVE
:要求已完成,TPU VM 已準備就緒。FAILED
:無法完成要求。如需更多詳細資料,請使用describe
指令。SUSPENDING
:與要求相關聯的資源正在刪除。SUSPENDED
:與要求相關聯的資源已刪除。
詳情請參閱擷取已加入佇列的資源要求狀態和診斷資訊。
監控彈性啟動 TPU 的執行時間
您可以查看 TPU 的終止時間戳記,監控彈性啟動 TPU 的執行時間:
- 取得佇列中資源要求的詳細資料。
根據是否已建立 TPU,選擇下列其中一個選項:
如果排入佇列的資源正在等待資源:請查看輸出內容中的
maxRunDuration
欄位。此欄位可指定 TPU 建立後的執行時間。如果已建立與排入佇列資源相關聯的 TPU:在輸出內容中,查看排入佇列資源中每個節點列出的
terminationTimestamp
欄位。這個欄位會指定 TPU 的終止時間。
刪除排入佇列的資源
如要刪除排入佇列的資源要求和與要求相關聯的 TPU,請刪除排入佇列的資源要求,並將 --force
旗標傳遞至 queued-resources
delete
指令:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
如果使用 gcloud compute tpus tpu-vm delete
指令直接刪除 TPU,您也需要刪除佇列資源,如下列範例所示。刪除 TPU 後,排入佇列的資源要求會轉換為 SUSPENDED
狀態,之後您就能刪除排入佇列的資源要求。
如要刪除 TPU,請使用 gcloud compute tpus tpu-vm
delete
指令:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
接著,如要刪除已加入佇列的資源,請使用 gcloud alpha compute tpus queued-resources delete
指令:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
詳情請參閱「刪除已加入佇列的資源要求」。