Cloud TPU 資料的儲存選項
本文說明在 Cloud TPU 上訓練模型時,可使用的資料儲存選項。
簡介
Cloud TPU 需要資料儲存空間來處理以下項目:
- 資料集下載和預先處理
- 代管輸入管道處理作業
- 模型訓練輸入
- 模型訓練輸出內容
Cloud TPU 應用程式資料和訓練資料集的儲存空間選項如下:
- 持久性區塊儲存空間,包括啟動磁碟和已連接的儲存磁碟
- Cloud Storage 值區
- Cloud Storage FUSE
- Compute Engine VM 上的 Filestore 檔案共用區
如要進一步瞭解如何管理儲存空間,請參閱下列頁面:
持久性區塊儲存空間
耐用的區塊儲存空間 (也稱為「磁碟」或「磁碟區」) 適用於您在停止、暫停或刪除 TPU VM 後,想要保留的資料。即使 TPU VM 發生當機或失敗,仍可使用耐久性區塊儲存空間。您可以使用 TPU VM 開機磁碟,或將額外的區塊儲存空間連結至 TPU。
在下列情況下,您可能需要連接其他磁碟:
- 訓練資料集的大小超過 TPU 開機磁碟的大小。
- 您有唯讀資料,且希望使用 Hyperdisk ML 磁碟區加快讀取存取速度。
您可以將兩種耐久區塊儲存空間連結至 Cloud TPU:Google Cloud Hyperdisk 和 Persistent Disk。最新機器系列 (包括 Cloud TPU v6e) 不支援永久磁碟。Google 建議您使用 Google Cloud Hyperdisk,以便享有最高效能和進階功能。
TPU VM 開機磁碟
根據預設,每個 Cloud TPU VM 都有一個包含作業系統的 100 GiB 開機磁碟。開機磁碟也可用於暫時儲存下載的資料集,以便進行預處理,以及儲存模型輸入和輸出資料,但總量不得超過開機磁碟的可用空間。
您無法調整 Cloud TPU 上的開機磁碟大小。如果應用程式需要的儲存空間超出開機磁碟的預設值,您可以為 TPU VM 執行個體新增一或多個耐用磁碟。詳情請參閱「將耐用型區塊儲存空間連結至 TPU VM」。
附加的儲存空間
Hyperdisk 和永久磁碟都是耐用的網路儲存裝置,可供您的 VM 執行個體存取,就如同桌上型電腦或伺服器中的實體磁碟一般。這兩種磁碟類型都是獨立於虛擬機器 (VM) 執行個體建立,因此即使刪除 VM 執行個體,也能保留資料。
相較於永久磁碟,使用 Hyperdisk 的優點包括可自訂效能、更高的 IOPS 和處理量上限。如要進一步瞭解 Hyperdisk 和永久磁碟,請參閱「選擇磁碟類型」。
如要進一步瞭解如何搭配 TPU VM 使用耐久性區塊儲存體,請參閱「將耐久性區塊儲存體附加至 TPU VM」。
磁碟備份
如果 TPU VM 卡在「不明」狀態,或無法復原已刪除的資料,您可能會很難從開機磁碟擷取資料。請務必使用其他儲存空間選項 (例如 Cloud Storage 值區) 備份資料。
如果您將資料儲存在已連結的磁碟上,可以使用磁碟快照,以增量方式備份磁碟上的資料。TPU 開機磁碟不支援磁碟快照。詳情請參閱「關於磁碟快照」。
Cloud Storage 值區
Cloud Storage 值區是最具彈性、擴充性和耐用性的儲存空間選項,適用於您的 VM 執行個體。如果訓練工作不需要耐久區塊儲存空間的低延遲特性,您可以將資料集儲存在 Cloud Storage 值區中。
Cloud Storage 值區的效能取決於您選取的儲存空間級別和您的執行個體相關的值區位置。
在 TPU VM 所在的區域建立 Cloud Storage 值區,可提供與耐用區塊儲存空間相當的效能,但延遲時間較長,且總處理量特性較不一致。
所有 Cloud Storage 值區都內建備援空間,就算遇上設備毀損也能保護您的資料,並透過資料中心維護事件確保資料可用性。檢查碼機制會計算所有 Cloud Storage 的作業,以協助確保您的讀取內容與寫入內容相符。
與耐用區塊儲存體不同,Cloud Storage 值區不限於您的執行個體所在的區域。此外,您可以同時從多個執行個體讀寫資料至值區。例如,您可以在多個區域內設定執行個體,並在同一值區內讀寫資料,而非將資料複製到多個區域中的耐久性區塊儲存空間。
如要進一步瞭解如何將 TPU VM 連線至 Cloud Storage 值區,請參閱「連線至 Cloud Storage 值區」。
Cloud Storage FUSE
Cloud Storage FUSE 可讓您掛接 Cloud Storage 值區,並做為本機檔案系統存取。這可讓應用程式使用標準檔案系統語意讀取及寫入值區中的物件。
如要進一步瞭解 Cloud Storage FUSE 的運作方式,以及 Cloud Storage FUSE 作業如何對應至 Cloud Storage 作業,請參閱 Cloud Storage FUSE 說明文件。如要進一步瞭解如何使用 Cloud Storage FUSE,例如如何安裝 Cloud Storage FUSE CLI 和掛接值區,請前往 GitHub。
Filestore 檔案共用區
Filestore 檔案共用區是 Compute Engine 專用的全代管網路附加儲存裝置 (NAS)。Filestore 可相容於現有企業應用程式,並支援任何 NFSv3 相容用戶端。
Filestore 可為檔案作業提供低延遲。針對容易受到延遲時間影響的工作負載,Filestore 支援最高 100 TiB 的容量,以及每秒 25 GiB 和 720K IOPS 的總處理量,並以最低的效能變異提供服務。
您可以使用 Filestore 在 TPU VM 上掛接檔案共用區。
後續步驟
- 瞭解如何為執行個體新增耐久的區塊儲存空間。
- 瞭解如何將執行個體連線至 Cloud Storage 值區。