本頁面由 Cloud Translation API 翻譯而成。

搭配推論使用 Spot VM

總覽

使用 Spot VM 可降低執行預測工作的費用。Spot VM 是虛擬機器 (VM) 執行個體，屬於 Compute Engine 的多餘容量。Spot VM 的折扣幅度相當可觀，但 Compute Engine 可能隨時會先占 Spot VM，藉此停止或刪除 Spot VM，以回收容量。

詳情請參閱「Spot VM」。

限制與需求

使用 Vertex AI 的 Spot VM 時，請注意下列限制和規定：

使用 Vertex AI 的 Spot VM 時，適用所有Spot VM 限制。
使用 Spot VM 搭配 Vertex AI 時，僅支援自訂訓練和推論。
不支援搭配 TPU Pod 使用 Spot VM。
不支援透過 Google Cloud 控制台提交工作。

帳單

如果工作負載具備容錯能力，且能承受 VM 可能遭到先占的影響，Spot VM 就能大幅降低運算成本。如果部分 VM 在處理過程中停止，工作執行速度會變慢，但不會完全停止。Spot VM 不會對現有 VM 造成額外負載，就能完成批次處理工作，且不用全額購買更多標準 VM。請參閱「先占處理」。

使用 Spot VM 時，系統會根據工作持續時間和機器類型計費。工作處於佇列或遭到搶占時，您不需支付費用。

注意：使用預留或 Spot 容量時，帳單會列出兩個 SKU：標籤為 vertex-ai-online-prediction 的 Compute Engine SKU，以及 Vertex AI 管理費 SKU。這樣一來，您就能在 Vertex AI 中使用承諾使用折扣 (CUD)。

先占處理

Compute Engine 隨時可以回收 Spot VM。如要瞭解如何充分運用 Spot VM，請參閱 Spot VM 最佳做法。

使用 Spot VM 取得推論結果

如要在部署模型以取得推論結果時使用 Spot VM，可以採用 REST API 或 Python 適用的 Vertex AI SDK。

REST

使用任何要求資料之前，請先替換以下項目：

LOCATION_ID：您使用 Vertex AI 的區域。
PROJECT_ID：您的專案 ID。
ENDPOINT_ID：端點的 ID。
MODEL_ID：要部署的模型 ID。
DEPLOYED_MODEL_NAME：DeployedModel 的名稱。您也可以使用 Model 的顯示名稱做為 DeployedModel。
MACHINE_TYPE：選用。用於此部署作業每個節點的機器資源。預設設定為 n1-standard-2。進一步瞭解機器類型。
ACCELERATOR_TYPE：選用。要附加至機器的加速器類型。瞭解詳情。
ACCELERATOR_COUNT：選用。每個副本要使用的加速器數量。
MIN_REPLICA_COUNT：此部署作業的節點數量下限。節點數量可視推論負載需求增加或減少，最多可達節點數量上限，最少則不得低於這個數量。這個值必須大於或等於 1。
MAX_REPLICA_COUNT：此部署作業的節點數量上限。節點數量可視推論負載需求增減，最多可達這個節點數量，且絕不會少於節點數量下限。
TRAFFIC_SPLIT_THIS_MODEL：要將多少預測流量從這個端點導向透過這項作業部署的模型。預設值為 100。所有流量百分比加總必須為 100%。進一步瞭解流量分配。
DEPLOYED_MODEL_ID_N：選用。如果其他模型部署至這個端點，您必須更新流量分配百分比，讓所有百分比加總為 100%。
TRAFFIC_SPLIT_MODEL_N：已部署模型 ID 鍵的流量分配百分比值。
PROJECT_NUMBER：系統自動為專案產生的專案編號。

HTTP 方法和網址：

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

JSON 要求主體：

{


"acceleratorCount": 1}, "spot": true, "minReplicaCount": 1, "maxReplicaCount": 1}}, "trafficSplit": {"0": 100}}' \
  "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

  "deployedModel": {
    "model": "projects/PROJECT/locations/us-central1/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "spot": true,
      "minReplicaCount": MIN_REPLICA_COUNT,
      "maxReplicaCount": MAX_REPLICA_COUNT
    },
  },
  "trafficSplit": {
    "0": TRAFFIC_SPLIT_THIS_MODEL,
    "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1,
    "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2
  },
}

如要傳送要求，請展開以下其中一個選項：

curl (Linux、macOS 或 Cloud Shell)

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI，或使用 Cloud Shell，自動登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

您應該會收到如下的 JSON 回應：

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Python

如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK，請參閱「安裝 Python 適用的 Vertex AI SDK」。詳情請參閱 Python 適用的 Vertex AI SDK API 參考說明文件。

endpoint5.deploy(
    model = model,
    deployed_model_display_name=DEPLOYED_NAME,
    traffic_split=TRAFFIC_SPLIT,
    machine_type="MACHINE_TYPE",
    accelerator_type="ACCELERATOR_TYPE",
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    spot=True,
    sync=True
)

後續步驟

進一步瞭解 Spot VM。
如要進一步瞭解 Compute Engine VM 的一般資訊，請參閱虛擬機器執行個體說明文件。
如要瞭解如何建立 Spot VM，請參閱「建立及使用 Spot VM」。
搭配 Vertex AI 訓練作業使用 Spot VM。
搭配 Vertex AI 推論功能使用彈性啟動 VM。