透過 Google Cloud Managed Lustre 最佳化 AI 和機器學習工作負載

Last reviewed 2025-06-02 UTC

本文提供參考架構,說明如何使用 Google Cloud Managed Lustre,為部署在 Google Kubernetes Engine (GKE) 上的 AI 和機器學習工作負載提升效能。本文件適用於架構師和技術人員,他們負責在 Google Cloud上設計、佈建及管理 AI 工作負載的儲存空間。本文假設您已瞭解機器學習生命週期、流程和功能

Managed Lustre 是全代管的永久平行檔案系統,以 DDN 的 EXAScaler Lustre 為基礎。 Google CloudManaged Lustre 非常適合符合下列條件的 AI 工作負載:

Managed Lustre 為 AI 工作負載提供下列優勢:

  • 降低訓練總持有成本 (TCO): Managed Lustre 可有效率地將資料傳送至運算節點,縮短訓練時間。這項功能有助於降低 AI 和機器學習模型訓練的總持有成本。
  • 降低服務總持有成本:Managed Lustre 提供高效能功能,可加快模型載入速度,並最佳化推論服務。這些功能有助於降低運算成本,並提高資源使用率。
  • 有效率地使用資源:透過 Managed Lustre,您可以在單一執行個體中合併檢查點和訓練作業。這種資源共用方式有助於在單一高效能儲存系統中,盡量有效運用讀取和寫入處理量。

架構

下圖顯示使用 Managed Lustre 最佳化模型訓練工作負載和服務工作負載效能的架構範例:

架構會使用 Managed Lustre,盡量提升模型訓練和服務工作負載的效能。

後續章節會詳細說明上述架構中顯示的工作負載。這個架構包含下列元件:

  • Google Kubernetes Engine 叢集:GKE 會管理執行 AI 和 ML 模型訓練與服務程序的運算主機。GKE 會管理叢集的底層基礎架構,包括控制層、節點和所有系統元件。
  • Kubernetes 排程器: GKE 控制層會排定工作負載,並管理工作負載的生命週期、資源調度和升級作業。
  • 虛擬私有雲 (VPC) 網路:架構中的所有 Google Cloud 資源都使用單一 VPC 網路。
  • Cloud Load Balancing:在這類架構中,Cloud Load Balancing 會將應用程式使用者傳入的推論要求,有效分配至 GKE 叢集中的服務容器。使用 Cloud Load Balancing 有助於確保 AI 和機器學習應用程式具備高可用性、擴充性及最佳效能。詳情請參閱「瞭解 GKE 負載平衡」。
  • 圖形處理單元 (GPU)Tensor 處理單元 (TPU):GPU 和 TPU 是專用的機器加速器,可提升 AI 和機器學習工作負載的效能。為確保最佳效率和相容性,請為整個 AI 和機器學習工作負載使用相同類型的加速器。如要進一步瞭解如何選擇合適的處理器類型,請參閱本文件稍後的「加速器選項」。
  • Managed Lustre: Managed Lustre 提供高效能的平行處理檔案系統,經過最佳化調整,可實現低延遲和高處理量,因此能加快 AI 和機器學習訓練及服務提供速度。相較於單獨使用 Cloud Storage,使用 Managed Lustre 可大幅縮短訓練時間,並提升模型在服務期間的回應速度。這些改善項目在需要快速且穩定存取共用資料的嚴苛工作負載中,特別能發揮作用。
  • Cloud Storage FUSE: Cloud Storage FUSE 可為 AI 和機器學習工作負載提供具成本效益的永久儲存空間。Cloud Storage 是原始訓練資料集、模型檢查點和模型備份的中央存放區。使用 Cloud Storage 可確保資料耐久性、長期可用性,以及不常用於運算的資料的成本效益。

訓練工作負載

在上述架構中,模型訓練期間的資料流程步驟如下:

  1. 將訓練資料上傳至 Cloud Storage:將訓練資料上傳至 Cloud Storage 值區,做為安全且可擴充的中央存放區和事實來源。
  2. 將資料複製到 Managed Lustre:透過 API 轉移訓練資料集,將資料從 Cloud Storage 匯入 Managed Lustre 執行個體。轉移訓練資料後,您就能運用 Managed Lustre 的高效能檔案系統功能,在模型訓練期間加快資料載入和處理速度。
  3. 在 GKE 中執行訓練工作:模型訓練程序會在 GKE 節點上執行。使用 Managed Lustre 做為資料來源,而非直接從 Cloud Storage 載入資料,GKE 節點就能以大幅提升的速度和較低的延遲時間存取及載入訓練資料。此外,Managed Lustre 還能縮短開始傳輸第一個位元組的時間,這項指標稱為「收到第一個位元組的時間 (TTFB)」。使用 Managed Lustre 有助於縮短資料載入時間,並加快整體訓練程序,尤其是針對讀取檔案較小且模型複雜的大型資料集。您可以視工作負載需求使用 GPU 或 TPU。如要瞭解如何選擇合適的處理器類型,請參閱本文稍後的「加速器選項」。
  4. 將訓練檢查點儲存至 Managed Lustre:在訓練過程中,系統會根據您定義的指標或間隔,將檢查點儲存至 Managed Lustre。檢查點會頻繁擷取模型狀態。

放送工作負載

在上述架構中,模型服務期間的資料流程步驟如下:

  1. 載入模型以提供服務:模型準備好部署時,GKE Pod 會從代管 Lustre 執行個體將訓練完成的模型載入至服務節點。如果您在訓練期間使用的 Managed Lustre 執行個體有足夠的 IOPS 容量,且與加速器位於同一區域,則可使用相同的 Managed Lustre 執行個體來提供模型。重複使用 Managed Lustre 執行個體,可在訓練和服務之間有效共用資源。為維持最佳效能和相容性,請使用您為服務 GKE 節點選取的相同 GPU 或 TPU 處理器類型。
  2. 推論要求:應用程式使用者透過服務端點傳送推論要求。這些要求會導向至 Cloud Load Balancing 服務。Cloud Load Balancing 會將傳入要求分配到 GKE 叢集中的服務容器。這項分配作業可確保沒有任何容器不堪負荷,且要求能有效率地處理。
  3. 提供推論要求:收到推論要求時,運算節點會存取預先載入的模型,執行必要運算並產生預測結果。
  4. 傳送回應:服務容器會透過 Cloud Load Balancing 將回應傳回。Cloud Load Balancing 會將回應轉送回適當的應用程式使用者,完成推論要求週期。

使用的產品

這項參考架構使用下列 Google Cloud 產品:

  • 虛擬私有雲 (VPC):虛擬系統,可為 Google Cloud 工作負載提供全球性、可擴充的網路功能。虛擬私有雲包括虛擬私有雲網路對等互連、Private Service Connect、私人服務存取權和共用虛擬私有雲。
  • Google Kubernetes Engine (GKE):Kubernetes 服務,可讓您透過 Google 的基礎架構,大規模部署及操作容器化應用程式。
  • Cloud Storage:適用於多種資料類型的物件儲存庫,成本低廉且沒有限制。 資料在 Google Cloud 內外都能存取,且會複製到多個位置,以便提供備援機制。 Google Cloud
  • Google Cloud Managed Lustre:全代管平行檔案系統,適用於 AI、高效能運算 (HPC) 和資料密集型應用程式。

用途

Managed Lustre 非常適合需要高達 1 PiB 儲存容量的 AI 工作負載,且需要提供低延遲 (不到 1 毫秒) 存取,以及高處理量和高 IOPS。本節提供 Managed Lustre 的應用實例。

文字處理和文字生成

大型語言模型是專為理解和處理文字資料而設計的 AI 模型。LLM 經過龐大的文字資料集訓練,因此能夠執行各種工作,包括機器翻譯、回答問題和生成文字摘要。為利於有效訓練和批次處理,LLM 需要以低延遲時間存取資料集。Managed Lustre 提供訓練和推論所需的低延遲和高處理量,因此非常適合用於資料密集型應用程式,可提升 LLM 驅動應用程式的回應速度。

處理高解析度圖片或影片

傳統 AI 和 ML 應用程式或多模態生成模型 (例如醫療影像分析或自駕車系統) 會處理高解析度圖片或影片,因此需要大容量儲存空間和快速資料存取。Managed Lustre 提供高效能的永久檔案系統,可快速載入資料,進而提升應用程式效能。舉例來說,Managed Lustre 可儲存大量病患資料 (例如 MRI 和 CT 掃描),並協助將資料快速載入運算節點,以進行模型訓練。這項功能可讓 AI 和 ML 模型快速分析資料,以利診斷和治療。

設計替代方案

本節介紹可考慮用於 AI 和機器學習應用程式的替代設計方法 Google Cloud。

運算基礎架構替代方案

本文中的參考架構使用 GKE 處理 AI 和機器學習工作負載。視工作負載需求而定,您也可以在 Compute Engine 上使用 Slurm 部署 Managed Lustre 執行個體。如果您需要將專屬 AI 智慧財產 (IP) 整合至可擴充的環境,並需要彈性和控制權來針對特定工作負載最佳化效能,建議採用這種做法。

相較於 GKE,Compute Engine 可讓您更精細地控管作業系統層級。使用 Compute Engine 時,您可以執行下列作業:

  • 在虛擬機器中選取、設定及管理 OS 環境,以滿足特定工作負載需求。
  • 根據確切需求量身打造基礎架構,包括選取特定 VM 機器類型。
  • 使用加速器最佳化機器系列,提升 AI 工作負載的效能。

Slurm 是可高度設定的開放原始碼工作負載和資源管理工具。Slurm 是管理 AI 工作負載的強大選項,可讓您控管運算資源的設定和管理作業。如要採用這種做法,您必須具備 Slurm 管理和 Linux 系統管理方面的專業知識。GKE 提供代管的 Kubernetes 環境,可自動執行叢集管理作業。

如要瞭解如何部署 Slurm,請參閱「透過 Slurm 部署 HPC 叢集」。您也可以使用 Cluster Toolkit 搭配 Managed Lustre 啟動藍圖進行部署。

加速器選項

機器加速器是專門的處理器,可加速 AI 和機器學習工作負載所需的運算。您可以選擇 GPU 或 TPU。

  • GPU 加速器可為各種工作提供優異效能,包括圖形算繪、深度學習訓練和科學運算。 Google Cloud 提供多種 GPU 選項,可依據不同的效能和價位需求選用。如要瞭解 GPU 型號和價格,請參閱 GPU 定價
  • TPU 是經過最佳化調整的特製 AI 加速器,適合用於大型 AI 模型的訓練和推論作業。TPU 的用途廣泛,包括聊天機器人、程式碼生成、媒體內容生成、合成語音、視覺辨識服務、推薦引擎和個人化模型等。如要進一步瞭解 TPU 模型和價格,請參閱 TPU 定價

提供儲存空間替代方案

如要盡可能確保高可用性,請搭配使用 Cloud Storage FUSEAnywhere Cache,並使用多區域或雙區域 bucket。這項設定可讓您在多個區域使用訓練完成的 AI 模型。不過,相較於 Managed Lustre 執行個體,Cloud Storage FUSE 的每個 VM 處理量可能較低。如要瞭解如何使用 Cloud Storage FUSE 提升效能,請參閱「使用 Cloud Storage FUSE 檔案快取」。

Google Cloud Hyperdisk ML 是一種高效能的區塊儲存空間解決方案,專為加速大規模 AI 和 ML 工作負載而設計,這類工作負載需要對大型資料集進行唯讀存取。Hyperdisk ML 可透過較小的磁碟區大小,提供略高的匯總輸送量,但與 Managed Lustre 相比,每個 VM 的輸送量較低。此外,只有位於同一區域的 GPU 或 TPU VM,才能存取 Hyperdisk ML 磁碟區。因此,如果區域 GKE 叢集是從多個區域提供服務,您必須在每個區域中佈建個別的 Hyperdisk ML 磁碟區。與使用單一區域代管 Lustre 執行個體相比,佈建多個 Hyperdisk ML 磁碟區的成本可能較高。

此外,請務必注意,Hyperdisk ML 的設計是資料寫入後就無法修改。這種「一次寫入,多次讀取」(WORM) 方法有助於防止意外損毀或未經授權的修改。不過,如要更新服務模型,您無法覆寫現有模型,而是需要建立新的 Hyperdisk ML 執行個體。如要進一步瞭解如何在 AI 工作負載中使用 Hyperdisk ML,請參閱「使用 Hyperdisk ML 加速 AI/機器學習資料載入作業」。

設計須知

如要設計代管 Lustre 部署作業,盡可能提高 Google Cloud上 AI 和機器學習工作負載的安全性、穩定性、成本效益、作業效率和效能,請參閱下列各節的指南。

為工作負載建構架構時,請參考Google Cloud 架構完善架構:AI 和機器學習觀點中的最佳做法和建議。

安全性、隱私權和法規遵循

本節說明在Google Cloud 中,如何考量 AI 和機器學習工作負載的安全性、隱私權和法規遵循需求。

SSH 安全性

如要為在 GKE 中執行的應用程式提供更完善的存取權控管機制,可以使用 Identity-Aware Proxy (IAP)。IAP 會與 GKE Ingress 資源整合,協助驗證只有通過驗證且具備正確身分與存取權管理 (IAM) 角色的使用者,才能存取應用程式。詳情請參閱「為 GKE 啟用 IAP」和「使用 IAM 控管存取權」一文。

資料加密

根據預設,GKE 中的資料 (包括儲存在 Managed Lustre 執行個體中的資料) 會使用 Google-owned and Google-managed encryption keys靜態傳輸中加密。如要為機密資料多添一層安全防護,您可以使用 Cloud Key Management Service (Cloud KMS) 擁有及管理的金鑰,在應用程式層加密資料。詳情請參閱在應用程式層加密密鑰

如果您使用 GKE Standard 叢集,則可使用下列額外的資料加密功能:

資料隔離

為提升安全性及改善資料保護,請將訓練資料儲存在與檢查點和訓練模型不同的受管理 Lustre 執行個體中。使用獨立儲存空間執行個體可隔離效能、隔離訓練資料來提升安全性,以及加強資料保護。雖然存取控制清單可讓您管理單一執行個體中的安全性,但使用個別執行個體可提供更強大的安全界線。

其他安全考量

在 Autopilot 作業模式中,GKE 會預先設定叢集,並根據安全性最佳做法管理節點,讓您專注於工作負載專屬的安全性。詳情請參閱「GKE Autopilot 安全性功能」和「透過 GKE Autopilot 取得可立即使用的 Kubernetes 安全性」。

如要瞭解如何保護資料隱私權,請參閱「Sensitive Data Protection 總覽」和「檢查儲存空間與資料庫以找出機密資料 Google Cloud 」。

如要瞭解 AI 和機器學習工作負載專用的安全原則和建議,請參閱 Well-Architected Framework 中的「AI 和機器學習觀點:安全性」。

可靠性

本節說明使用這個參考架構,在 Google Cloud為區域部署作業建構及運作可靠基礎架構時,應考量的設計因素。

基礎架構中斷時的強韌性

在這個架構中,我們使用 Autopilot 作業模式,因此 GKE 提供下列內建的可靠性功能:

  • 工作負載使用區域 GKE 叢集。控制層和工作站節點會分散在區域內的三個不同可用區。工作負載可抵禦可用區中斷。區域 GKE 叢集的正常運作時間服務水準協議 (SLA) 高於可用區叢集。
  • 您不需要建立節點或管理節點集區。GKE 會根據工作負載需求,自動建立及調整節點集區。

如要提高應用程式的可用性,您可以在每個區域部署 Managed Lustre 執行個體,從多個區域提供應用程式服務。

叢集容量規劃

為確保在自動調整 GKE 叢集大小時,有足夠的 GPU 容量可用,您可以建立及使用預留項目。預留功能可確保特定資源在特定區域有足夠容量。預留項目可專屬於某個專案,或在多個專案之間共用。即使預留資源未佈建或未使用,您仍須支付相關費用。詳情請參閱「耗用預留區域資源」。

資料持久性

如要備份及還原 GKE 中的工作負載,請在每個叢集中啟用 GKE 備份服務。GKE 備份功能適用於災難復原、CI/CD 管道、複製工作負載和升級等情境。

您可以選取要備份及還原的特定工作負載或所有工作負載。您也可以備份一個叢集的工作負載,然後還原至另一個叢集。為減少工作負載停機時間,您可以排定備份作業自動執行,以便在發生事件時快速復原工作負載。

更多可靠性注意事項

如要瞭解 AI 和機器學習工作負載專用的可靠性原則和建議,請參閱 Well-Architected Framework 中的「AI 和機器學習觀點:可靠性」。

成本最佳化

本節提供相關指引,協助您在 Google Cloud中設定及運作 AI 和機器學習工作流程時,盡量節省成本。

Managed Lustre 效能層級

建立 Managed Lustre 執行個體時,您需要選取效能層級。根據工作負載的效能和成本需求,選擇合適的層級。

節點佈建模式

在 Autopilot 模式下,GKE 會根據工作負載需求,盡可能提升叢集基礎架構的執行效率。如要控管成本,您不需要持續監控資源用量或管理容量。

如果您可以預測 Autopilot 叢集的 CPU、記憶體和臨時儲存空間用量,就能取得承諾使用折扣。如要降低應用程式的執行成本,可以為 GKE 節點使用 Spot VM。Spot VM 的價格比標準 VM 低,但不保證可用性。

資源管理

如要透過有效率的管理方式,盡可能提高成本效益和效能,請使用 Dynamic Workload Scheduler。Dynamic Workload Scheduler 是一種資源管理和工作排程器,可協助您改善 AI 加速器 (GPU 和 TPU) 的存取權。Dynamic Workload Scheduler 會同時排定所有加速器,並可在離峰時段執行,同時管理加速器容量。Dynamic Workload Scheduler 會策略性地安排工作,盡量提高加速器使用率、減少閒置時間,並節省雲端支出。

資源使用率

為盡量提高資源使用率,請使用一個 Managed Lustre 執行個體進行訓練和服務。將訓練和服務工作負載整合至單一 Managed Lustre 執行個體,可免除多餘的基礎架構,並簡化資源管理,進而降低成本。不過,如果這兩項工作負載的輸送量需求都很高,可能會發生資源爭用。如果訓練後仍有閒置 IOPS,使用相同執行個體可加快模型載入速度,以利提供服務。使用 Cloud Monitoring 驗證您是否分配足夠的資源,以滿足輸送量需求。

如要盡量減少儲存空間費用,請在訓練和檢查點完成後,將受管理 Lustre 執行個體的資料匯出至成本較低的 Cloud Storage 類別。將資料匯出至 Cloud Storage,還可讓您視工作負載需求,銷毀及重新建立 Managed Lustre 執行個體。

如要控管 Cloud Storage 值區的費用,請啟用物件生命週期管理Autoclass。物件生命週期管理功能會根據您設定的規則,自動將較舊或較少使用的資料移至費用較低的儲存空間級別,或刪除資料。Autoclass 會根據存取模式,在儲存空間級別之間移動資料。使用物件生命週期管理或 Autoclass,有助於確保資料用量採用最具成本效益的儲存空間級別,盡量減少支出並避免產生意外的擷取費用。

更多費用注意事項

如要瞭解 AI 和機器學習工作負載專用的成本最佳化原則和建議,請參閱「AI 和機器學習觀點:成本最佳化」和「在 GKE 上執行最具成本效益的 Kubernetes 應用程式的最佳做法」。

卓越的營運成果

本節提供指引,協助您設計 AI 和機器學習工作流程的基礎架構,以利有效運作。

模型管理

如要追蹤及管理模型構件 (包括二進位檔和中繼資料),請使用 Vertex AI Model Registry,這個工具可讓您順暢地儲存、整理及部署模型版本。

為提升模型可靠性,請導入 Vertex AI Model Monitoring,偵測資料偏移、追蹤效能,以及找出正式環境中的異常狀況。

GKE 叢集自動調度資源

使用 Autopilot 叢集時,您不需要佈建或管理節點集區。節點集區會透過節點自動佈建功能自動佈建,並自動調度資源,以滿足工作負載需求。

對於 GKE Standard 叢集,叢集自動配置器會根據工作負載需求,自動調整節點集區中的節點數量。如要控管叢集自動配置器的自動調度資源行為,您可以為節點集區指定大小下限和上限。

使用 GKE 叢集自動調度資源功能時,請勿為叢集節點啟用 Compute Engine 的代管執行個體群組 (MIG) 自動調度資源功能。GKE 叢集自動配置器與 Compute Engine 自動配置器不同。GKE 叢集自動調度器會分析整個 GKE 叢集的資源用量 (包括基礎 MIG),藉此調度工作負載的資源。同時使用這兩種自動配置器可能會導致資源調度決策衝突。詳情請參閱「關於 GKE 叢集自動調度」。

指標監控

如要找出瓶頸,請使用 Cloud Monitoring 監控延遲時間、錯誤率和資源用量等重要指標。Cloud Monitoring 可即時顯示資源用量,方便您追蹤用量模式,找出潛在的效率不彰之處。

管理儲存空間

如要根據 Cloud Storage bucket 的使用情形自動管理資料,請啟用物件生命週期管理自動調整級別。物件生命週期管理功能會根據您設定的規則,自動將較舊或較少使用的資料移至費用較低的儲存空間級別,或刪除資料。Autoclass 會根據存取模式,在儲存空間級別之間移動資料。使用物件生命週期管理或 Autoclass,有助於確保儲存空間基礎架構套用一致的政策,並減少潛在的人為錯誤,進而提升效能並節省成本,完全不需手動介入。

更多作業考量

如要瞭解 AI 和機器學習工作負載的作業效率最佳做法和建議,請參閱 Well-Architected Framework 的「AI 和機器學習觀點:作業卓越」。

效能最佳化

本節提供指引,協助您在 Google Cloud中提升 AI 和機器學習工作流程的效能。本節的指引並非詳盡無遺,如要進一步瞭解如何最佳化 Google Cloud Managed Lustre 環境的效能,請參閱「效能考量」。

訓練考量

每個 A3 或 A4 VM 都可以從受管理 Lustre 執行個體提供 20 GB/s 的頻寬,每個 GPU 約 2.5 GB/s。訓練開始前,必須先從 Cloud Storage 預先擷取訓練資料,並匯入至 Managed Lustre,以盡量減少訓練期間的延遲。如要盡量提高訓練工作負載的處理量,請佈建 Managed Lustre 執行個體,以符合處理量和儲存空間容量需求。舉例來說,20 TiB 的受管理 Lustre 執行個體會根據所選效能層級,在所有用戶端之間提供 2.5 GB/s 到 20 GB/s 的總輸送量。如果訓練需要更高的輸送量,您必須相應增加 Managed Lustre 執行個體大小。

查核點注意事項

如要充分運用 Managed Lustre 提供的高寫入輸送量,並盡量縮短訓練時間,請將 Managed Lustre 用於訓練和檢查點。這種做法有助於有效運用資源,並盡可能加快訓練和檢查點作業,進而降低 GPU 資源的總擁有成本。如要快速建立檢查點,可以執行分散式非同步檢查點作業。由於 Managed Lustre 具有持續性,因此您可以在同一個執行個體中儲存檢查點。如要進一步最佳化成本及長期儲存檢查點,請考慮將檢查點匯出至 Cloud Storage 值區。

放送注意事項

如要在放送期間達到最佳效能,請盡量縮短將模型載入記憶體的時間。Managed Lustre 提供高 VM 處理量,每秒超過 20 GB,因此可提供高叢集總處理量。這項功能有助於在數千部 VM 中,盡量縮短模型載入時間。如要追蹤重要指標以找出瓶頸,請使用 Cloud Monitoring,並確認您部署的容量充足,因為效能會隨著儲存容量增加而提升。

資源刊登位置

如要盡量縮短延遲時間並提升效能,請在地理位置上靠近 GPU 或 TPU 運算用戶端的區域中,建立 Managed Lustre 執行個體。在本文件說明的參考架構中,GKE 容器和檔案系統位於同一可用區。

  • 訓練和檢查點:為獲得最佳結果,請在同一區域中部署用戶端和 Managed Lustre 執行個體。這種共置方式可盡量縮短資料傳輸時間,並充分運用 Managed Lustre 的寫入處理量。
  • 用於提供服務:雖然最好與同一區域的運算用戶端共置,但每個區域有一個 Managed Lustre 執行個體就已足夠。這種做法可避免部署多個執行個體所產生的額外費用,並盡可能提升運算效能。不過,如果您需要額外的容量或總處理量,可以考慮在每個區域部署多個執行個體。

如要瞭解 Managed Lustre 執行個體支援的位置,請參閱支援的位置

更多效能考量事項

如要瞭解 AI 和機器學習工作負載的效能最佳化原則和建議,請參閱 Well-Architected Framework 中的「AI 和機器學習觀點:效能最佳化」。

部署作業

如要建立及掛接 Managed Lustre 執行個體,建議使用 Cluster Toolkit 中的 Managed Lustre 模組。Cluster Toolkit 是以 Terraform 為基礎的模組化工具包,專為在Google Cloud上部署可重複使用的 AI 和機器學習環境而設計。

如要瞭解如何在 GKE 手動部署 Managed Lustre,請參閱「建立 Managed Lustre 執行個體」和「從 Google Kubernetes Engine 連線至現有的 Managed Lustre 執行個體」。

如要瞭解如何為 Managed Lustre 設定虛擬私有雲網路,請參閱「設定虛擬私有雲網路」。

後續步驟

貢獻者

作者:Samantha He | 技術文件撰稿者

其他貢獻者: