AI Platform Training 会限制资源的分配和使用,并按项目实施相应的配额。具体政策取决于资源可用性、用户个人资料、服务使用记录和其他因素,如有更改,恕不另行通知。
以下部分概述了系统当前的配额限制。
服务请求数限制
在每 60 秒时间范围内,您可以发送的 API 请求数是受限的。每项限制都适用于特定的 API 或 API 组,具体如以下各节所述。
您可以在 Google Cloud 控制台中的 AI Platform Training API 管理器中查看项目的请求配额。如果要申请增加配额,请点击配额限制旁边的修改图标,然后点击申请更高配额。
作业请求数
以下限制适用于 projects.jobs.create 请求(训练作业和批量预测作业的请求数之和):
周期 | 限制 |
---|---|
60 秒 | 60 |
在线预测请求数
以下限制适用于 projects.predict 请求:
周期 | 限制 |
---|---|
60 秒 | 60 万 |
资源管理请求数
以下限制适用于此列表中所有受支持请求的数量之和:
针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 list 请求。
针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 get 请求。
针对 projects.models 和 projects.models.versions 的 delete 请求。
针对 projects.models 和 projects.models.versions 的 create 请求。
针对 projects.jobs 和 projects.operations 的 cancel 请求。
周期 | 限制 |
---|---|
60 秒 | 300 |
此外,上面列出的所有 delete 请求和所有版本的 create 请求的总并发请求数不能超过 10 个。
虚拟机并发用量限额
项目的 Google Cloud 处理资源用量根据其使用的虚拟机数量来衡量。本部分将介绍在您的整个项目中并发使用这些资源时的一些限制。
进行训练时的并发 CPU 用量限额
项目的并发虚拟 CPU 数量通常会根据项目的使用记录进行调整。
- 并发 CPU 总数:最少 20 个,可增加到 450 个 CPU(典型值)。此类限制表示可并发使用的 CPU 总数上限(所有机器类型均包括在内)。
某些区域有额外的默认配额。当您在这些区域使用 CPU 时,它们会计入区域配额以及总配额:
asia-northeast2
:20 个 CPUasia-northeast3
:20 个 CPUeurope-north1
:20 个 CPUeurope-west3
:20 个 CPUeurope-west6
:20 个 CPUus-east4
:20 个 CPUus-west2
:20 个 CPUus-west3
:20 个 CPU
您在训练模型时使用的 CPU 不计为 Compute Engine 的 CPU,而且拥有 AI Platform Training 配额并不表示您可以使用 Compute Engine 虚拟机来满足您的其他计算需求。如果您想要启动 Compute Engine 虚拟机,则需要按 Compute Engine 文档中所述申请 Compute Engine 配额。
训练时的并发 GPU 用量限制
项目在首次使用 AI Platform Training 时,用于训练机器学习模型的并发 GPU 数通常会受到如下限制:
并发 GPU 总数:这是可并发使用的 GPU 数量上限,按类型划分如下:
- 并发 A100 GPU 数量:8
- 并发 P4 GPU 数量:8
- 并发 P100 GPU 数量:30
- 并发 V100 GPU 数量:8
- 并发 T4 GPU 数量:6
某些区域有额外的默认配额。当您在列出的区域中使用以下 GPU 时,它们会计入区域配额以及总配额:
asia-southeast1
中的 P4 GPU:4us-east4
中的 P4 GPU:1us-west2
中的 P4 GPU:1asia-northeast3
中的 T4 GPU:1asia-southeast1
中的 T4 GPU:4
请注意,项目的配额取决于多种因素,因此特定项目中的配额可能会低于上面列出的数字。您在训练模型时使用的 GPU 不计为 Compute Engine 的 GPU,而且拥有 AI Platform Training 配额并不表示您可以使用任何配有 GPU 的 Compute Engine 虚拟机。如果您想要启动使用 GPU 的 Compute Engine 虚拟机,则需要按 Compute Engine 文档中所述申请 Compute Engine GPU 配额。
如果您需要更多 GPU 以用于 AI Platform Training,请参阅本指南的申请增加配额部分。
如需详细了解 GPU,请参阅如何在云端使用 GPU 训练模型。
训练时的并发 TPU 用量限制
与 GPU 一样,AI Platform Training 的 TPU 配额与 Cloud TPU 配额是分开计量的,您可以直接将 Cloud TPU 配额用于 Compute Engine 虚拟机。您在训练模型时使用的 TPU 不计为 Compute Engine 的 TPU,而且拥有 AI Platform Training 配额并不表示您可以使用任何配有 TPU 的 Compute Engine 虚拟机。
Google Cloud 控制台仅显示用于 Compute Engine 的 Cloud TPU 配额。如需申请用于 Compute Engine 的 Cloud TPU 配额,请向 Cloud TPU 团队提交请求。
系统会为所有 Google Cloud 项目至少分配 1 个 Cloud TPU 的默认 AI Platform Training 配额。系统会按照每个 Cloud TPU 8 个 TPU 核心为单元分配配额。此配额不会显示在 Google Cloud 控制台中。
申请增加配额
本页所列的配额是按项目分配的,可能会随使用时间的推移而增加。如果您需要更多的处理能力,可以通过以下方式申请增加配额:
使用 Google Cloud 控制台申请增加 AI Platform Training API 管理器中列出的配额:
找到要增加的配额所在的部分。
在相应配额的使用情况图表底部,点击配额值旁边的铅笔图标。
输入您要申请增加到的目标额度:
如果您所需的配额值未超出配额上限对话框中所示的范围,请输入新值,然后点击保存。
如果要将配额增加到超过所示上限的水平,请点击申请更高配额,然后按照第二种方法的说明申请提高配额。
如果要增加 Google Cloud 控制台中未列出的配额(例如 GPU 配额),请使用 AI Platform 配额申请表来申请增加配额。我们会尽力处理这些请求,这意味着在审核这些请求时,不会涉及服务等级协议 (SLA) 或服务等级目标 (SLO)。
训练时的并发磁盘用量限额
根据项目的用量记录,典型项目的并发虚拟磁盘数量会相应扩缩:
- 并发磁盘总数:对于标准硬盘 (HDD),总数从 4000 GB 开始,对于固态硬盘 (SSD),总数从 500 GB 开始,HDD 典型情况下可扩容到 180000 GB,SSD 典型情况下可扩容到 75000 GB。此类限制表示可并发使用的磁盘总数上限(所有机器类型均包括在内)。
您在训练模型时使用的磁盘不计为 Compute Engine 的磁盘,AI Platform Training 的配额并不代表您可以使用任何 Compute Engine 虚拟机实例以满足其他计算需求。如果您要创建 Compute Engine 虚拟机,则必须申请 Compute Engine 配额