Vertex AI 會分配節點來處理線上和批次推論。將自訂訓練模型或 AutoML 模型部署至 Endpoint
資源,以提供線上推論,或是要求批次推論時,您可以自訂推論服務用於這些節點的虛擬機器類型。您可以選擇設定推論節點以使用 GPU。
機器類型的不同之處:
- 每個節點的虛擬 CPU (vCPU) 數量
- 每個節點的記憶體量
- 定價
選取具備更多運算資源的機器類型,即可提供延遲時間更短的推論服務,或同時處理更多推論要求。
管理費用和供應情形
為協助您管理成本或確保 VM 資源的可用性,Vertex AI 提供以下功能:
如要確保在推論工作需要時就能使用 VM 資源,您可以使用 Compute Engine 預訂功能。保留項目可確保您取得 Compute Engine 資源的容量,詳情請參閱「使用預留空間進行推論」。
如要降低執行推論工作所需的費用,您可以使用 Spot VM。Spot VM 是 Compute Engine 容量過剩的虛擬機器 (VM) 執行個體。Spot VM 的費用大幅折扣,但 Compute Engine 隨時可能會搶先停止或刪除 Spot VM,以便回收容量。詳情請參閱「使用 Spot VM 進行推論」。
指定運算資源的位置
線上推論
如果您想使用自訂訓練模型或 AutoML 表格模型來提供線上推論,請務必在將 Model
資源部署為 DeployedModel
至 Endpoint
時指定機器類型。對於其他類型的 AutoML 模型,Vertex AI 會自動設定機器類型。
在 DeployedModel
的 dedicatedResources.machineSpec
欄位中指定機器類型 (以及選用的 GPU 設定)。
瞭解如何部署各模型類型:
- 在 Google Cloud 控制台中部署 AutoML 表格型模型
- 在 Google Cloud 控制台中部署自訂訓練模型
- 使用用戶端程式庫部署自訂訓練模型
批次推論
如果您想從自訂訓練模型或 AutoML 表格模型取得批次推論結果,請務必在建立 BatchPredictionJob
資源時指定機器類型。在 BatchPredictionJob
的 dedicatedResources.machineSpec
欄位中指定機器類型 (以及選用的 GPU 設定)。
機器類型
下表比較了可用機器類型,用於提供自訂訓練模型和 AutoML 表格型模型的推論結果:
E2 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
N1 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
n1-standard-2 |
2 | 7.5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3.6 |
n1-highcpu-8 |
8 | 7.2 |
n1-highcpu-16 |
16 | 14.4 |
n1-highcpu-32 |
32 | 28.8 |
N2 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
N2D 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
C2 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
C2D 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
C3 系列
名稱 | vCPU | 記憶體 (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
A2 系列
名稱 | vCPU | 記憶體 (GB) | GPU (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 80GB) |
A3 系列
名稱 | vCPU | 記憶體 (GB) | GPU (NVIDIA H100 或 H200) |
---|---|---|---|
a3-highgpu-1g |
26 | 234 | 1 (H100 80GB) |
a3-highgpu-2g |
52 | 468 | 2 (H100 80GB) |
a3-highgpu-4g |
104 | 936 | 4 (H100 80GB) |
a3-highgpu-8g |
208 | 1872 | 8 (H100 80GB) |
a3-edgegpu-8g |
208 | 1872 | 8 (H100 80GB) |
a3-ultragpu-8g |
224 | 2952 | 8 (H200 141GB) |
G2 系列
名稱 | vCPU | 記憶體 (GB) | GPU (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
瞭解各機器類型的定價。如要進一步瞭解這些機器類型的詳細規格,請參閱 Compute Engine 說明文件中的機器類型。
尋找理想的機器類型
線上推論
如要找出最適合用途的機器類型,建議您在多個機器類型上載入模型,並評估延遲、成本、並行作業和傳輸量等特性。
方法之一是在多個機器類型上執行這個筆記本,然後比較結果,找出最適合您的機器類型。
Vertex AI 會為每個副本預留約 1 個 vCPU,用於執行系統程序。也就是說,在單核心機器類型上執行筆記本,與使用 2 核心機器類型提供推論結果相似。
在考量推論成本時,請記住,雖然大型機器的成本較高,但由於需要較少的複本即可處理相同的工作負載,因此整體成本反而會降低。這一點在 GPU 上尤其明顯,因為 GPU 每小時的費用較高,但可以提供更低的延遲時間和更低的整體成本。
批次推論
詳情請參閱「選擇機器類型和複本數量」。
選用 GPU 加速器
部分設定 (例如 A2 系列和 G2 系列) 內建固定數量的 GPU。
其他設定 (例如 N1 系列) 可讓您選擇性新增 GPU,以便加快每個推論節點的速度。
如要新增選用的 GPU 加速器,您必須考量以下幾項規定:
- 只有在
Model
資源以 TensorFlow SavedModel 為基礎,或是使用設計用來充分利用 GPU 的自訂容器時,才能使用 GPU。您無法為 scikit-learn 或 XGBoost 模型使用 GPU。 - 每種 GPU 的供應情形會因模型使用的區域而異。瞭解各區域提供哪些類型的 GPU。
- 您只能在
DeployedModel
資源或BatchPredictionJob
上使用一種 GPU,可新增的 GPU 數量有其限制,依您使用的機器類型而定。下表說明這些限制。
下表所列的是可用於線上預測的選用 GPU,以及各 Compute Engine 機器類型可使用的各類 GPU 數量:
各機器類型的有效 GPU 數量 | |||||
---|---|---|---|---|---|
機器類型 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-32 |
2、4 | 4、8 | 2、4 | 2、4 | |
n1-highmem-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-32 |
2、4 | 4、8 | 2、4 | 2、4 | |
n1-highcpu-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-32 |
2、4 | 4、8 | 2、4 | 2、4 |
選用 GPU 會產生額外費用。
後續步驟
- 在 Google Cloud 控制台中部署 AutoML 表格型模型
- 在 Google Cloud 控制台中部署自訂訓練模型
- 使用用戶端程式庫部署自訂訓練模型
- 取得批次預測結果