此页面由 Cloud Translation API 翻译。

使用 Google Cloud Managed Lustre 优化 AI 和机器学习工作负载

Last reviewed 2025-08-21 UTC

本文档提供了一个参考架构，展示了如何使用 Google Cloud Managed Lustre 来优化部署在 Google Kubernetes Engine (GKE) 上的 AI 和 ML 工作负载的性能。本文档的目标受众群体包括为 Google Cloud上的 AI 工作负载设计、预配和管理存储的架构师和技术从业人员。本文档假定您了解 ML 生命周期、流程和功能。

Managed Lustre 是一种基于 DDN 的 EXAScaler Lustre 的全 Google Cloud托管式持久并行文件系统 (PFS)。建议将 Managed Lustre 作为 AI 训练和检查点工作负载的主要解决方案。它尤其适合从 Lustre 或其他 PFS 解决方案迁移现有工作负载。为了最大限度地提高资源利用率，使用 Managed Lustre 进行训练的工作负载也应使用同一实例进行服务和推理。

对于符合以下条件的 AI 工作负载，建议使用 Managed Lustre：

需要 PiB 级存储空间容量。
提供超低延迟（亚毫秒级）访问，吞吐量高达 1 TB/秒。
提供较高的每秒输入/输出操作数 (IOPS)。

Managed Lustre 可为 AI 工作负载提供以下优势：

降低训练的总拥有成本 (TCO)：托管 Lustre 可高效地将数据交付给计算节点，从而缩短训练时间。此功能有助于降低 AI 和机器学习模型训练的总拥有成本。
降低服务总拥有成本：Managed Lustre 提供高性能功能，可加快模型加载速度并优化推理服务。这些功能有助于降低计算费用并提高资源利用率。
高效利用资源：借助 Managed Lustre，您可以在单个实例中同时进行检查点设置和训练。这种资源共享有助于最大限度地提高单个高性能存储系统中的读取和写入吞吐量。

架构

下图展示了一个示例架构，该架构使用托管式 Lustre 来优化模型训练工作负载和服务工作负载的性能：

一种架构使用托管 Lustre 来优化模型训练工作负载和服务工作负载的性能。

后续部分将详细介绍上述架构中显示的工作负载。此架构包括以下组件：

Google Kubernetes Engine 集群：GKE 会管理运行 AI 和机器学习模型训练及服务进程的计算主机。GKE 管理集群的底层基础架构，包括控制平面、节点和所有系统组件。
Kubernetes 调度程序：GKE 控制平面会调度工作负载并管理其生命周期、伸缩和升级。
Virtual Private Cloud (VPC) 网络：架构中的所有 Google Cloud 资源都使用一个 VPC 网络。
Cloud Load Balancing：在此架构中，Cloud Load Balancing 可将应用用户传入的推理请求高效地分配到 GKE 集群中的服务容器。使用 Cloud Load Balancing 有助于确保 AI 和 ML 应用具有高可用性、可伸缩性和最佳性能。如需了解详情，请参阅了解 GKE 负载均衡。
图形处理单元 (GPU) 或张量处理单元 (TPU)：GPU 和 TPU 是专门的机器学习加速器，可提升 AI 和机器学习工作负载的性能。为确保最佳效率和兼容性，请为整个 AI 和 ML 工作负载使用相同类型的加速器。如需详细了解如何选择合适的处理器类型，请参阅本文档后面的加速器选项。
Managed Lustre：Managed Lustre 可提供高性能的持久性 PFS，并针对低延迟和高吞吐量进行了优化，从而加速 AI 和机器学习训练与服务。与单独使用 Cloud Storage 相比，使用 Managed Lustre 可显著缩短训练时间，并提高模型在服务期间的响应速度。在需要快速且稳定地访问共享数据的繁重工作负载中，这些改进效果尤为明显。
Cloud Storage FUSE：Cloud Storage FUSE 可为 AI 和 ML 工作负载提供持久且经济高效的存储空间。Cloud Storage 可作为原始训练数据集、模型检查点和模型备份的中央存储库。使用 Cloud Storage 有助于确保数据持久性、长期可用性，并提高未在计算中积极使用的数据的成本效益。

训练工作负载

在上述架构中，模型训练期间的数据流步骤如下：

将训练数据上传到 Cloud Storage：您可以将训练数据上传到 Cloud Storage 存储桶，该存储分区可作为安全且可伸缩的中央存储库和可信来源。
将数据复制到受管理的 Lustre：通过将数据从 Cloud Storage 导入到受管理的 Lustre 实例来转移训练数据语料库。通过转移训练数据，您可以利用 Managed Lustre 的高性能文件系统功能来优化模型训练期间的数据加载和处理速度。
在 GKE 中运行训练作业：模型训练过程在 GKE 节点上运行。通过使用 Managed Lustre 作为数据源，而不是直接从 Cloud Storage 加载数据，GKE 节点可以访问和加载训练数据，速度显著提高，延迟时间也更短。Managed Lustre 还可以缩短开始传输第一个字节的时间，即第一字节时间 (TTFB)。使用托管式 Lustre 有助于缩短数据加载时间并加快整个训练过程，尤其是对于具有小读取文件和复杂模型的大型数据集。您可以根据工作负载要求使用 GPU 或 TPU。如需了解如何选择合适的处理器类型，请参阅本文档稍后的加速器选项。
将训练检查点保存到 Managed Lustre：在训练过程中，系统会根据您定义的指标或时间间隔将检查点保存到 Managed Lustre。检查点会频繁捕获模型的状态。您可以选择性地将检查点导出到 Cloud Storage 以进行长期存储。

服务工作负载

在上述架构中，模型服务期间的数据流步骤如下：

加载模型以进行服务：当模型准备好进行部署时，GKE Pod 会将训练好的模型从 Managed Lustre 实例加载到服务节点。如果您在训练期间使用的 Managed Lustre 实例具有足够的 IOPS 容量，并且与加速器位于同一可用区，则可以使用同一 Managed Lustre 实例来提供模型服务。重复使用 Managed Lustre 实例可实现训练和服务之间的高效资源共享。为保持最佳性能和兼容性，请使用与您为服务 GKE 节点选择的 GPU 或 TPU 处理器类型相同的类型。
推理请求：应用用户通过服务端点发送推理请求。这些请求会定向到 Cloud Load Balancing 服务。Cloud Load Balancing 会将传入请求分配到 GKE 集群中的各个服务容器。这种分布可确保没有单个容器过载，并确保请求得到高效处理。
提供推理服务：当收到推理请求时，计算节点会访问预加载的模型来执行必要的计算并生成预测结果。
响应传送：服务容器通过 Cloud Load Balancing 将响应发送回去。Cloud Load Balancing 会将响应路由回相应的应用用户，从而完成推理请求周期。

使用的产品

此参考架构使用以下 Google Cloud 产品：

Virtual Private Cloud (VPC)：为您的 Google Cloud 工作负载提供全球可扩缩的网络功能的虚拟系统。VPC 包括 VPC 网络对等互连、Private Service Connect、专用服务访问通道和共享 VPC。
Cloud Load Balancing：一组高性能、可扩缩的全球和区域级负载均衡器。
Google Kubernetes Engine (GKE)：一种 Kubernetes 服务，可用于使用 Google 的基础架构来大规模部署和操作容器化应用。
Cloud Storage：适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问，并且跨位置进行复制以实现冗余。
Google Cloud Managed Lustre：一种全代管式并行文件系统，适用于 AI、高性能计算 (HPC) 和数据密集型应用。

使用场景

Managed Lustre 非常适合需要 PiB 级存储容量的 AI 工作负载，并且需要以高吞吐量和高 IOPS 提供低延迟（毫秒以下）访问。本部分提供了一些可使用 Managed Lustre 的应用场景示例。

基于文本的处理和文本生成

LLM 是一种专门用于理解和处理基于文本的数据的 AI 模型。LLM 在海量文本数据集上训练而成，因此能够执行各种任务，包括机器翻译、问答和文本摘要。为了便于高效训练和批量处理，LLM 需要以低延迟访问数据集。Managed Lustre 可提供训练和推理所需的高吞吐量和低延迟，从而在数据密集型应用中表现出色，并打造出响应速度更快的 LLM 赋能型应用。

高分辨率图片或视频处理

处理高分辨率图像或视频的传统 AI 和机器学习应用或多模态生成模型（例如医学影像分析或自动驾驶系统）需要大容量存储空间和快速数据访问。Managed Lustre 提供高性能的永久性文件系统，可快速加载数据，从而提升应用性能。例如，Managed Lustre 可以存储大量患者数据（例如 MRI 和 CT 扫描），并且可以快速将数据加载到计算节点以进行模型训练。借助此功能，AI 和 ML 模型可以快速分析数据，以便进行诊断和治疗。

设计替代方案

本部分介绍了您可以在 Google Cloud中为 AI 和机器学习应用考虑的其他设计方法。

计算基础架构替代方案

本文档中的参考架构使用 GKE 来处理 AI 和机器学习工作负载。您也可以在 Compute Engine 上部署具有 Slurm 的代管式 Lustre 实例，具体取决于工作负载的要求。如果您需要将专有 AI 知识产权 (IP) 集成到可伸缩的环境中，并且需要灵活性和控制力来优化专业工作负载的性能，我们建议您采用这种方法。

与 GKE 相比，Compute Engine 可让您更精细地控制操作系统级控制。使用 Compute Engine 时，您可以执行以下操作：

选择、配置和管理虚拟机中的操作系统环境，以满足特定的工作负载要求。
根据您的确切需求量身定制基础设施，包括选择特定的虚拟机机器类型。
使用加速器优化机器家族可提升 AI 工作负载的性能。

Slurm 是一款可高度配置的开源工作负载和资源管理器。Slurm 提供了一种强大的 AI 工作负载管理选项，可让您控制计算资源的配置和管理。如需使用此方法，您需要具备 Slurm 管理和 Linux 系统管理方面的专业知识。 GKE 提供托管式 Kubernetes 环境，可自动执行集群管理。

如需了解如何部署 Slurm，请参阅使用 Slurm 部署 HPC 集群。您还可以使用 Managed Lustre 初始蓝图通过 Cluster Toolkit 进行部署。

加速器选项

机器加速器是一种专用处理器，旨在加快 AI 和 ML 工作负载所需的计算速度。您可以选择 GPU 或 TPU。

GPU 加速器可为各种任务提供出色的性能，包括图形渲染、深度学习训练和科学计算。 Google Cloud 提供多种不同性能和价位的 GPU 可供选择。如需了解 GPU 型号和价格，请参阅 GPU 价格。
TPU 是定制设计的 AI 加速器，针对大型 AI 模型的训练和推理进行了优化。TPU 非常适合各种应用场景，例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎和个性化模型。如需详细了解 TPU 型号和价格，请参阅 TPU 价格。

存储替代方案

Cloud Storage FUSE 与 Anywhere Cache 搭配使用，可用于训练、检查点和部署工作负载。与 Managed Lustre 相比，Cloud Storage FUSE with Anywhere Cache 成本更低，并且易于进行多区域推理，因此是推荐用于服务和推理的存储解决方案。为了尽可能确保高可用性，请将 Cloud Storage FUSE 与 Anywhere Cache 以及多区域或双区域存储桶搭配使用。此配置可让您在多个区域中使用训练好的 AI 模型。不过，与托管 Lustre 实例相比，Cloud Storage FUSE 的每个虚拟机的吞吐量可能较低。如需了解详情，请参阅使用 Cloud Storage FUSE 优化 AI 和机器学习工作负载。

设计考虑事项

如需设计一个 Managed Lustre 部署，以优化 Google Cloud上 AI 和机器学习工作负载的安全性、可靠性、费用、运营和性能，请遵循以下部分中的准则。

如需简要了解 Google Cloud中针对 AI 和机器学习工作负载的架构原则和建议，请参阅 Well-Architected 框架中的 AI 和机器学习视角。

安全性、隐私权和合规性

本部分介绍了在Google Cloud 中满足安全性、隐私权和合规性要求的 AI 和机器学习工作负载的相关注意事项。

SSH 安全性

如需增强对 GKE 中运行的应用的访问权限控制，您可以使用 Identity-Aware Proxy (IAP)。IAP 可与 GKE Ingress 资源集成，有助于验证只有拥有正确 Identity and Access Management (IAM) 角色且经过身份验证的用户才能访问应用。如需了解详情，请参阅为 GKE 启用 IAP和使用 IAM 进行访问权限控制。

数据加密

默认情况下，GKE 中的数据（包括存储在受管 Lustre 实例中的数据）使用 Google-owned and Google-managed encryption keys进行静态加密和传输中加密。作为适用于敏感数据的一层额外的安全防护，您可以借助 Cloud Key Management Service (Cloud KMS)，使用自己所拥有和管理的密钥在应用层加密数据。如需了解详情，请参阅在应用层对 Secret 加密。

如果您使用 GKE Standard 集群，则可以使用以下额外的数据加密功能：

使用机密 Google Kubernetes Engine 节点加密使用中的数据（即内存中的数据）。如需详细了解机密 GKE 节点的功能、可用性和限制，请参阅通过机密 GKE 节点加密使用中的工作负载数据。
如果您需要更好地控制用于跨 GKE 节点加密 Pod 流量的加密密钥，则可以使用自己管理的密钥加密传输中的数据。如需了解详情，请参阅使用用户管理的加密密钥在 GKE 中加密传输中的数据。

数据隔离

为了增强安全性并改进数据保护，请将训练数据存储在与检查点和训练后模型分开的受管 Lustre 实例中。使用单独的存储实例可实现性能隔离，通过隔离训练数据来增强安全性，并提高数据保护能力。虽然访问权限控制列表可让您管理单个实例中的安全性，但使用单独的实例可提供更强大的安全边界。

可靠性

本部分介绍使用此参考架构为 Google Cloud中的区域级部署构建和运营可靠的基础设施时应考虑的设计因素。

针对基础设施服务中断的稳健性

通过此架构中使用的 Autopilot 操作模式，GKE 可提供以下内置可靠性功能：

您的工作负载使用区域级 GKE 集群。控制平面和工作器节点分布在一个区域内的三个不同可用区中。您的工作负载可稳健可靠地应对可用区服务中断。区域级 GKE 集群的正常运行时间服务等级协议 (SLA) 高于可用区级集群。
您无需创建节点或管理节点池。GKE 会自动创建节点池并根据工作负载的要求对其进行自动扩缩。

为了提高应用的可用性，您可以在每个可用区中部署一个 Managed Lustre 实例，从而从多个可用区提供应用。

集群容量规划

为确保可提供在自动扩缩 GKE 集群时所需的足够 GPU 容量，您可以创建并使用预留。预留会在特定可用区中为指定资源提供有保障的容量。预留可以专用于某个项目，也可以在多个项目中共享。即使未预配或使用预留的资源，您也需要为预留的资源付费。如需了解详情，请参阅使用预留的可用区级资源。

数据耐用性

如需在 GKE 中备份和恢复工作负载，请在每个集群中启用 Backup for GKE。Backup for GKE 可用于灾难恢复、CI/CD 流水线、克隆工作负载和升级场景。

您可以选择要备份和恢复的特定工作负载或所有工作负载。您还可以从一个集群中备份工作负载，并将工作负载恢复到另一个集群中。为了减少工作负载停机时间，您可以安排自动运行备份，以便在发生突发事件时快速恢复工作负载。

费用优化

本部分提供的指导可帮助您优化在 Google Cloud中设置和操作 AI 和 ML 工作流的费用。

Managed Lustre 性能层级

创建 Managed Lustre 实例时，您需要选择性能层级。根据工作负载的性能和费用要求选择合适的层级。

节点配置模型

在 Autopilot 模式下，GKE 会根据工作负载要求优化集群基础架构的效率。您无需持续监控资源利用率或管理容量来控制费用。

如果您可以预测 Autopilot 集群的 CPU、内存和临时存储空间用量，则可以获得承诺使用折扣。如需降低应用运行费用，您可以为 GKE 节点使用 Spot 虚拟机。Spot 虚拟机的价格低于标准虚拟机，但无法保证可用性。

资源管理

如需通过高效管理来优化费用和性能，请使用 Dynamic Workload Scheduler。动态工作负载调度器是一种资源管理和作业调度器，可帮助您提高对 AI 加速器（GPU 和 TPU）的访问权限。动态工作负载调度器可同时调度所有加速器，并且可在非高峰时段运行，同时具有已定义的加速器容量管理。通过战略性地调度作业，动态工作负载调度程序有助于最大限度地提高加速器利用率、减少空闲时间并优化云支出。

资源利用率

为了最大限度地提高资源利用率，请使用一个 Managed Lustre 实例进行训练和投放。将训练和服务工作负载整合到单个托管 Lustre 实例中，可消除冗余的基础设施并简化资源管理，从而最大限度地降低成本。不过，如果这两个工作负载都对吞吐量有较高要求，则可能会出现资源争用。如果训练后有剩余 IOPS，使用同一实例可以加快模型加载速度，从而提高服务效率。使用 Cloud Monitoring 帮助验证您是否分配了足够的资源来满足吞吐量需求。

为尽量降低存储费用，请在训练和检查点设置完成后，将数据从受管 Lustre 实例导出到费用较低的 Cloud Storage 类。将数据导出到 Cloud Storage 后，您还可以根据工作负载的需要销毁和重新创建 Managed Lustre 实例。

为了帮助您控制 Cloud Storage 存储桶的费用，请启用对象生命周期管理或自动类。对象生命周期管理功能会根据您设置的规则，自动将较旧或使用较少的数据移至费用较低的存储类别或删除这些数据。Autoclass 会根据您的访问模式在存储类别之间移动数据。使用对象生命周期管理或 Autoclass 有助于确保您的数据使用量采用最具成本效益的存储类别，从而最大限度地减少费用并有助于避免意外的检索费用。

卓越运营

本部分提供了一些指南，可帮助您为 AI 和机器学习工作流设计可高效运行的基础设施。

模型管理

如需跟踪和管理模型制品（包括二进制文件和元数据），请使用 Vertex AI Model Registry，该服务可让您无缝存储、整理和部署模型版本。

为了优化模型可靠性，请实现 Vertex AI Model Monitoring 以检测数据漂移、跟踪性能并识别生产环境中的异常情况。

GKE 集群自动扩缩

使用 Autopilot 集群时，您无需预配或管理节点池。节点池通过节点自动预配功能自动预配，并自动扩缩以满足工作负载的要求。

对于 GKE 标准集群，集群自动扩缩器会根据工作负载需求自动调整节点池中的节点数量。如需控制集群自动扩缩器的自动扩缩行为，您可以为节点池指定最小大小和最大大小。

使用 GKE 集群自动扩缩程序时，请勿为集群节点启用针对托管式实例组 (MIG) 的 Compute Engine 自动扩缩功能。GKE 集群自动扩缩器独立于 Compute Engine 自动扩缩器。GKE 集群自动扩缩器旨在通过分析整个 GKE 集群（包括底层 MIG）的资源利用率来扩缩工作负载。同时使用这两个自动伸缩器可能会导致伸缩决策相互冲突。如需了解详情，请参阅 GKE 集群自动扩缩简介。

指标监控

如需识别瓶颈，请使用 Cloud Monitoring 监控延迟时间、错误率和资源使用情况等关键指标。 Cloud Monitoring 提供实时可见性，可用于跟踪资源使用模式并发现潜在的效率低下问题。

存储管理

如需根据 Cloud Storage 存储桶的用量自动管理数据，请启用对象生命周期管理或 Autoclass。对象生命周期管理功能会根据您设置的规则，自动将较旧或使用较少的数据移至费用较低的存储类别或删除这些数据。Autoclass 会根据您的访问模式在存储类别之间移动数据。使用对象生命周期管理或 Autoclass 有助于确保在整个存储基础架构中应用一致的政策，并有助于减少潜在的人为错误，从而在无需人工干预的情况下提高性能并节省费用。

性能优化

本部分提供的指导可帮助您优化 Google Cloud中的 AI 和 ML 工作流的性能。本部分中的指导并非详尽无遗。如需详细了解如何优化 Google Cloud Managed Lustre 环境的性能，请参阅性能注意事项。

训练注意事项

每个 A3 或 A4 虚拟机都可以从受管 Lustre 实例提供 20 GB/秒的吞吐量，即每个 GPU 大约 2.5 GB/秒。在开始训练之前，必须从 Cloud Storage 中预提取训练数据，并将其导入到受管理的 Lustre 中，以最大限度地减少训练期间的延迟。为了最大限度地提高训练工作负载的吞吐量，请根据您的吞吐量和存储容量需求预配 Managed Lustre 实例。例如，一个 20 TiB 的 Managed Lustre 实例在所有客户端之间提供的总吞吐量介于 2.5 GB/s 和 20 GB/s 之间，具体取决于所选的性能层级。如果训练需要更高的吞吐量，您需要相应地增加 Managed Lustre 实例大小。

检查点注意事项

为了充分利用 Managed Lustre 提供的高写入吞吐量并尽可能缩短训练时间，请将 Managed Lustre 同时用于训练和检查点。这种方法有助于实现高效的资源利用，并通过尽可能加快训练和检查点保存速度来帮助降低 GPU 资源的总拥有成本。为了实现快速检查点，您可以运行分布式异步检查点。由于 Managed Lustre 具有持久性，因此您可以将检查点存储在同一实例中。为了进一步优化费用并实现长期存储，请考虑将检查点导出到 Cloud Storage 存储桶。

投放注意事项

为了在提供服务期间实现最佳性能，您需要尽可能缩短将模型加载到内存中的时间。Managed Lustre 可提供超过 20 GB/s 的高单虚拟机吞吐量，从而实现高集群总吞吐量。此功能可帮助您最大限度地缩短数千个虚拟机的模型加载时间。如需跟踪可帮助您找出瓶颈的关键指标，请使用 Cloud Monitoring，并确保您部署了足够的容量，因为性能会随着存储容量的增加而提高。

资源放置

为了最大限度地缩短延迟时间并提高性能，请在地理位置上靠近 GPU 或 TPU 计算客户端的区域中创建受管 Lustre 实例。在本文档介绍的参考架构中，GKE 容器和文件系统位于同一可用区内。

对于训练和检查点：为获得最佳效果，请在同一可用区中部署客户端和受管理的 Lustre 实例。这种同位可最大限度地缩短数据传输时间，并最大限度地提高受管 Lustre 写入吞吐量的利用率。
对于提供服务：虽然最好与同一可用区中的计算客户端并置，但每个区域有一个代管式 Lustre 实例就足够了。这种方法可避免与部署多个实例相关的额外费用，并有助于最大限度地提高计算性能。不过，如果您需要额外的容量或吞吐量，不妨考虑在每个区域部署多个实例。

如需了解受管理的 Lustre 实例支持的区域和可用区，请参阅支持的位置。

部署

如需创建和装载托管 Lustre 实例，我们建议您使用 Cluster Toolkit 中提供的托管 Lustre 模块。Cluster Toolkit 是一款基于 Terraform 的模块化工具包，旨在用于在Google Cloud上部署可重复使用的 AI 和 ML 环境。

如需了解如何在 GKE 上手动部署 Managed Lustre，请参阅创建 Managed Lustre 实例和从 Google Kubernetes Engine 连接到现有的 Managed Lustre 实例。

如需了解如何为托管 Lustre 配置 VPC 网络，请参阅配置 VPC 网络。

后续步骤

详细了解如何将并行文件系统用于 HPC 工作负载。
详细了解在 Google Cloud上实现机器学习的最佳实践。
详细了解如何为 Google Cloud中的 AI 和机器学习工作负载设计存储。
详细了解如何在 GKE 上使用 Keras 训练 TensorFlow 模型。
如需查看更多参考架构、图表和最佳实践，请浏览 Cloud 架构中心。

贡献者

作者：Samantha He | 技术文档工程师

其他贡献者：

Dean Hildebrand | 首席技术官办公室技术总监
Kumar Dhanagopal | 跨产品解决方案开发者
Sean Derrington | 存储组合产品经理