設定用於推論的運算資源

Vertex AI 會分配節點來處理線上和批次推論。將自訂訓練模型或 AutoML 模型部署至 Endpoint 資源,以提供線上推論,或是要求批次推論時,您可以自訂推論服務用於這些節點的虛擬機器類型。您可以選擇設定推論節點以使用 GPU。

機器類型的不同之處:

  • 每個節點的虛擬 CPU (vCPU) 數量
  • 每個節點的記憶體量
  • 定價

選取具備更多運算資源的機器類型,即可提供延遲時間更短的推論服務,或同時處理更多推論要求。

管理費用和供應情形

為協助您管理成本或確保 VM 資源的可用性,Vertex AI 提供以下功能:

  • 如要確保在推論工作需要時就能使用 VM 資源,您可以使用 Compute Engine 預訂功能。保留項目可確保您取得 Compute Engine 資源的容量,詳情請參閱「使用預留空間進行推論」。

  • 如要降低執行推論工作所需的費用,您可以使用 Spot VM。Spot VM 是 Compute Engine 容量過剩的虛擬機器 (VM) 執行個體。Spot VM 的費用大幅折扣,但 Compute Engine 隨時可能會搶先停止或刪除 Spot VM,以便回收容量。詳情請參閱「使用 Spot VM 進行推論」。

指定運算資源的位置

線上推論

如果您想使用自訂訓練模型或 AutoML 表格模型來提供線上推論,請務必在將 Model 資源部署為 DeployedModelEndpoint 時指定機器類型。對於其他類型的 AutoML 模型,Vertex AI 會自動設定機器類型。

DeployedModeldedicatedResources.machineSpec 欄位中指定機器類型 (以及選用的 GPU 設定)。

瞭解如何部署各模型類型:

批次推論

如果您想從自訂訓練模型或 AutoML 表格模型取得批次推論結果,請務必在建立 BatchPredictionJob 資源時指定機器類型。在 BatchPredictionJobdedicatedResources.machineSpec 欄位中指定機器類型 (以及選用的 GPU 設定)。

機器類型

下表比較了可用機器類型,用於提供自訂訓練模型和 AutoML 表格型模型的推論結果:

E2 系列

名稱 vCPU 記憶體 (GB)
e2-standard-2 2 8
e2-standard-4 4 16
e2-standard-8 8 32
e2-standard-16 16 64
e2-standard-32 32 128
e2-highmem-2 2 16
e2-highmem-4 4 32
e2-highmem-8 8 64
e2-highmem-16 16 128
e2-highcpu-2 2 2
e2-highcpu-4 4 4
e2-highcpu-8 8 8
e2-highcpu-16 16 16
e2-highcpu-32 32 32

N1 系列

名稱 vCPU 記憶體 (GB)
n1-standard-2 2 7.5
n1-standard-4 4 15
n1-standard-8 8 30
n1-standard-16 16 60
n1-standard-32 32 120
n1-highmem-2 2 13
n1-highmem-4 4 26
n1-highmem-8 8 52
n1-highmem-16 16 104
n1-highmem-32 32 208
n1-highcpu-4 4 3.6
n1-highcpu-8 8 7.2
n1-highcpu-16 16 14.4
n1-highcpu-32 32 28.8

N2 系列

名稱 vCPU 記憶體 (GB)
n2-standard-2 2 8
n2-standard-4 4 16
n2-standard-8 8 32
n2-standard-16 16 64
n2-standard-32 32 128
n2-standard-48 48 192
n2-standard-64 64 256
n2-standard-80 80 320
n2-standard-96 96 384
n2-standard-128 128 512
n2-highmem-2 2 16
n2-highmem-4 4 32
n2-highmem-8 8 64
n2-highmem-16 16 128
n2-highmem-32 32 256
n2-highmem-48 48 384
n2-highmem-64 64 512
n2-highmem-80 80 640
n2-highmem-96 96 768
n2-highmem-128 128 864
n2-highcpu-2 2 2
n2-highcpu-4 4 4
n2-highcpu-8 8 8
n2-highcpu-16 16 16
n2-highcpu-32 32 32
n2-highcpu-48 48 48
n2-highcpu-64 64 64
n2-highcpu-80 80 80
n2-highcpu-96 96 96

N2D 系列

名稱 vCPU 記憶體 (GB)
n2d-standard-2 2 8
n2d-standard-4 4 16
n2d-standard-8 8 32
n2d-standard-16 16 64
n2d-standard-32 32 128
n2d-standard-48 48 192
n2d-standard-64 64 256
n2d-standard-80 80 320
n2d-standard-96 96 384
n2d-standard-128 128 512
n2d-standard-224 224 896
n2d-highmem-2 2 16
n2d-highmem-4 4 32
n2d-highmem-8 8 64
n2d-highmem-16 16 128
n2d-highmem-32 32 256
n2d-highmem-48 48 384
n2d-highmem-64 64 512
n2d-highmem-80 80 640
n2d-highmem-96 96 768
n2d-highcpu-2 2 2
n2d-highcpu-4 4 4
n2d-highcpu-8 8 8
n2d-highcpu-16 16 16
n2d-highcpu-32 32 32
n2d-highcpu-48 48 48
n2d-highcpu-64 64 64
n2d-highcpu-80 80 80
n2d-highcpu-96 96 96
n2d-highcpu-128 128 128
n2d-highcpu-224 224 224

C2 系列

名稱 vCPU 記憶體 (GB)
c2-standard-4 4 16
c2-standard-8 8 32
c2-standard-16 16 64
c2-standard-30 30 120
c2-standard-60 60 240

C2D 系列

名稱 vCPU 記憶體 (GB)
c2d-standard-2 2 8
c2d-standard-4 4 16
c2d-standard-8 8 32
c2d-standard-16 16 64
c2d-standard-32 32 128
c2d-standard-56 56 224
c2d-standard-112 112 448
c2d-highcpu-2 2 4
c2d-highcpu-4 4 8
c2d-highcpu-8 8 16
c2d-highcpu-16 16 32
c2d-highcpu-32 32 64
c2d-highcpu-56 56 112
c2d-highcpu-112 112 224
c2d-highmem-2 2 16
c2d-highmem-4 4 32
c2d-highmem-8 8 64
c2d-highmem-16 16 128
c2d-highmem-32 32 256
c2d-highmem-56 56 448
c2d-highmem-112 112 896

C3 系列

名稱 vCPU 記憶體 (GB)
c3-highcpu-4 4 8
c3-highcpu-8 8 16
c3-highcpu-22 22 44
c3-highcpu-44 44 88
c3-highcpu-88 88 176
c3-highcpu-176 176 352

A2 系列

名稱 vCPU 記憶體 (GB) GPU (NVIDIA A100)
a2-highgpu-1g 12 85 1 (A100 40GB)
a2-highgpu-2g 24 170 2 (A100 40GB)
a2-highgpu-4g 48 340 4 (A100 40GB)
a2-highgpu-8g 96 680 8 (A100 40GB)
a2-megagpu-16g 96 1360 16 (A100 40GB)
a2-ultragpu-1g 12 170 1 (A100 80GB)
a2-ultragpu-2g 24 340 2 (A100 80GB)
a2-ultragpu-4g 48 680 4 (A100 80GB)
a2-ultragpu-8g 96 1360 8 (A100 80GB)

A3 系列

名稱 vCPU 記憶體 (GB) GPU (NVIDIA H100 或 H200)
a3-highgpu-1g 26 234 1 (H100 80GB)
a3-highgpu-2g 52 468 2 (H100 80GB)
a3-highgpu-4g 104 936 4 (H100 80GB)
a3-highgpu-8g 208 1872 8 (H100 80GB)
a3-edgegpu-8g 208 1872 8 (H100 80GB)
a3-ultragpu-8g 224 2952 8 (H200 141GB)

G2 系列

名稱 vCPU 記憶體 (GB) GPU (NVIDIA L4)
g2-standard-4 4 16 1
g2-standard-8 8 32 1
g2-standard-12 12 48 1
g2-standard-16 16 64 1
g2-standard-24 24 96 2
g2-standard-32 32 128 1
g2-standard-48 48 192 4
g2-standard-96 96 384 8

瞭解各機器類型的定價。如要進一步瞭解這些機器類型的詳細規格,請參閱 Compute Engine 說明文件中的機器類型

尋找理想的機器類型

線上推論

如要找出最適合用途的機器類型,建議您在多個機器類型上載入模型,並評估延遲、成本、並行作業和傳輸量等特性。

方法之一是在多個機器類型上執行這個筆記本,然後比較結果,找出最適合您的機器類型。

Vertex AI 會為每個副本預留約 1 個 vCPU,用於執行系統程序。也就是說,在單核心機器類型上執行筆記本,與使用 2 核心機器類型提供推論結果相似。

在考量推論成本時,請記住,雖然大型機器的成本較高,但由於需要較少的複本即可處理相同的工作負載,因此整體成本反而會降低。這一點在 GPU 上尤其明顯,因為 GPU 每小時的費用較高,但可以提供更低的延遲時間和更低的整體成本。

批次推論

詳情請參閱「選擇機器類型和複本數量」。

選用 GPU 加速器

部分設定 (例如 A2 系列G2 系列) 內建固定數量的 GPU。

其他設定 (例如 N1 系列) 可讓您選擇性新增 GPU,以便加快每個推論節點的速度。

如要新增選用的 GPU 加速器,您必須考量以下幾項規定:

下表所列的是可用於線上預測的選用 GPU,以及各 Compute Engine 機器類型可使用的各類 GPU 數量:

各機器類型的有效 GPU 數量
機器類型 NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA Tesla P4 NVIDIA Tesla T4
n1-standard-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-standard-32 2、4 4、8 2、4 2、4
n1-highmem-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highmem-32 2、4 4、8 2、4 2、4
n1-highcpu-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highcpu-32 2、4 4、8 2、4 2、4

選用 GPU 會產生額外費用

後續步驟