本頁面由 Cloud Translation API 翻譯而成。

取得預測模型的線上推論

Vertex AI 提供兩種方式，可使用訓練好的預測模型預測未來值：線上推論和批次推論。

線上推論是同步要求。如要依據應用程式輸入內容發出要求，或是需要及時進行推論，您可以選用「線上推論」模式。

批次推論要求為非同步要求。如果您不需要立即取得回應，並想透過單一要求處理累積的資料，就適合選用「批次推論」模式。

本頁說明如何使用線上推論預測未來值。如要瞭解如何使用批次推論預測值，請參閱「取得預測模型的批次推論」。

您必須先將模型部署至端點，才能用於推論。端點是一組實體資源。

您可以要求系統提供說明，而非推論結果。說明的本機特徵重要性值會顯示各項特徵對推論結果的影響程度。如需概念總覽，請參閱「預測功能特徵歸因」。

如要瞭解線上推論的定價，請參閱「表格工作流程定價」。

事前準備

如要提出線上推論要求，請先訓練模型。

建立或選取端點

使用 aiplatform.Endpoint.create() 函式建立端點。如果已有端點，請使用 aiplatform.Endpoint() 函式選取端點。

以下程式碼提供範例：

# Import required modules
from google.cloud import aiplatform
from google.cloud.aiplatform import models

PROJECT_ID = "PROJECT_ID"
REGION = "REGION"

# Initialize the Vertex SDK for Python for your project.
aiplatform.init(project=PROJECT_ID, location=REGION)
endpoint = aiplatform.Endpoint.create(display_name='ENDPOINT_NAME')

更改下列內容：

PROJECT_ID：您的專案 ID。
REGION：您使用 Vertex AI 的區域。
ENDPOINT_NAME：端點的顯示名稱。

選取經過訓練的模型

使用 aiplatform.Model() 函式選取訓練好的模型：

# Create reference to the model trained ahead of time.
model_obj = models.Model("TRAINED_MODEL_PATH")

更改下列內容：

TRAINED_MODEL_PATH：例如 projects/PROJECT_ID/locations/REGION/models/[TRAINED_MODEL_ID]

將模型部署至端點

使用 deploy() 函式將模型部署至端點。以下程式碼提供範例：

deployed_model = endpoint.deploy(
    model_obj,
    machine_type='MACHINE_TYPE',
    traffic_percentage=100,
    min_replica_count='MIN_REPLICA_COUNT',
    max_replica_count='MAX_REPLICA_COUNT',
    sync=True,
    deployed_model_display_name='DEPLOYED_MODEL_NAME',
)

更改下列內容：

MACHINE_TYPE：例如 n1-standard-8。進一步瞭解機器類型。
MIN_REPLICA_COUNT：此部署作業的節點數量下限。您可以視推論負載需求增減節點數量，但不得超過節點數上限，且不得低於節點數下限。這個值必須大於或等於 1。如未設定 min_replica_count 變數，值會預設為 1。
MAX_REPLICA_COUNT：此部署作業的節點數量上限。您可以視推論負載需求增減節點數量，但不得超過這個節點數量，且不得少於節點數量下限。如果未設定 max_replica_count 變數，節點數量上限會設為 min_replica_count 的值。
DEPLOYED_MODEL_NAME：DeployedModel 的名稱。你也可以使用 Model 的顯示名稱做為 DeployedModel。

模型部署作業大約需要十分鐘。

取得線上推論結果

如要取得推論結果，請使用 predict() 函式，並提供一或多個輸入執行個體。下列程式碼範例說明：

predictions = endpoint.predict(instances=[{...}, {...}])

每個輸入執行個體都是 Python 字典，且具有與模型訓練時相同的結構定義。必須包含與時間資料欄對應的「available at forecast」鍵/值配對，以及包含目標推論資料欄歷來值的「unavailable at forecast」鍵/值配對。Vertex AI 預期每個輸入執行個體都屬於單一時間序列。執行個體中鍵/值組合的順序並不重要。

輸入執行個體有下列限制：

「可供預測」鍵/值組合必須具有相同數量的資料點。
所有「預測時無法使用」鍵/值組合的資料點數量必須相同。
「可預測」鍵/值組合的資料點數量，必須至少與「不可預測」鍵/值組合的資料點數量相同。

如要進一步瞭解預測中使用的欄類型，請參閱「預測時的特徵類型和可用性」。

以下程式碼示範一組兩個輸入例項。 Category 資料欄包含屬性資料。「Timestamp」欄包含預測時可用的資料。三個點是「情境」資料，兩個點是「預測期間」資料。「Sales」資料欄包含預測時無法使用的資料。這三點都是情境資料。如要瞭解預測如何使用背景和預測期間，請參閱「預測期間、背景區間和預測區間」。

instances=[
  {
    # Attribute
    "Category": "Electronics",
    # Available at forecast: three days of context, two days of horizon
    "Timestamp": ['2023-08-03', '2023-08-04', '2023-08-05', '2023-08-06', '2023-08-07'],
    # Unavailable at forecast: three days of context
    "Sales": [490.50, 325.25, 647.00],
  },
  {
    # Attribute
    "Category": "Food",
    # Available at forecast: three days of context, two days of horizon
    "Timestamp": ['2023-08-03', '2023-08-04', '2023-08-05', '2023-08-06', '2023-08-07'],
    # Unavailable at forecast: three days of context
    "Sales": [190.50, 395.25, 47.00],
  }
])

針對每個執行個體，Vertex AI 會回應 Sales 的兩項推論，分別對應兩個時間範圍時間戳記 (「2023-08-06」和「2023-08-07」)。

為獲得最佳效能，每個輸入例項中的脈絡資料點數量和時間範圍資料點數量，必須與模型訓練時使用的脈絡和時間範圍長度相符。如有不符，Vertex AI 會填補或截斷執行個體，以符合模型大小。

如果輸入例項中的內容資料點數量少於或多於模型訓練所用的內容資料點數量，請確保所有可供預測的鍵值組和所有無法預測的鍵值組，都使用相同數量的資料點。

舉例來說，假設模型是使用四天的脈絡資料和兩天的預測資料訓練而成。您只需三天的脈絡資料，即可提出推論要求。在本例中，「無法用於預測」鍵/值組合包含三個值。「可預測」鍵/值組合必須包含五個值。

線上推論的輸出內容

Vertex AI 會在 value 欄位中提供線上推論輸出內容：

{
  'value': [...]
}

推論回覆的長度取決於模型訓練中使用的預測範圍，以及輸入例項的預測範圍。推論回應的長度為這兩個值中較小的值。

請見以下範例：

您可以使用 context = 15 和 horizon = 50 訓練模型。您的輸入執行個體有 context = 15 和 horizon = 20。推論回應的長度為 20。
您可以使用 context = 15 和 horizon = 50 訓練模型。您的輸入執行個體有 context = 15 和 horizon = 100。推論回應的長度為 50。

TFT 模型的線上推論輸出內容

如果是使用時間融合轉換器 (TFT) 訓練的模型，Vertex AI 除了 value 欄位中的推論結果外，還提供 TFT 可解讀性 tft_feature_importance：

{
  "tft_feature_importance": {
    "attribute_weights": [...],
    "attribute_columns": [...],
    "context_columns": [...],
    "context_weights": [...],
    "horizon_weights": [...],
    "horizon_columns": [...]
  },
  "value": [...]
}

attribute_columns：預測功能，與時間無關。
attribute_weights：與每個 attribute_columns 相關聯的權重。
context_columns：預測特徵，其內容視窗值會做為 TFT 長短期記憶 (LSTM) 編碼器的輸入。
context_weights：與預測執行個體的每個 context_columns 相關聯的特徵重要性權重。
horizon_columns：預測特徵，其預測範圍值會做為 TFT 長短期記憶 (LSTM) 解碼器的輸入。
horizon_weights：與預測執行個體的每個 horizon_columns 相關聯的特徵重要性權重。

針對分位數損失最佳化的模型線上推論輸出內容

如果是針對分位數損失最佳化的模型，Vertex AI 會提供下列線上推論輸出內容：

{
  "value": [...],
  "quantile_values": [...],
  "quantile_predictions": [...]
}

value：如果分位數集包含中位數，value 就是中位數的推論值。否則，value 是集合中最低分位數的推論值。舉例來說，如果您的分位數集為 [0.1, 0.5, 0.9]，則 value 是分位數 0.5 的推論結果。如果分位數集為 [0.1, 0.9]，則 value 是分位數 0.1 的推論結果。
quantile_values：分位數的值，是在模型訓練期間設定。
quantile_predictions：與 quantile_values 相關聯的推論值。

舉例來說，假設目標資料欄是銷售價值。分位數值定義為 [0.1, 0.5, 0.9]。Vertex AI 會傳回下列分位數推論：[4484, 5615, 6853]。這裡的量化值集包含中位數，因此 value 是量化值 0.5 (5615) 的推論。您可以按照下列方式解讀量化值推論：

P(sales value < 4484) = 10%
P(sales value < 5615) = 50%
P(sales value < 6853) = 90%

使用機率推論的模型線上推論輸出內容

如果模型使用機率推論，value 欄位會包含最佳化目標的最小化值。舉例來說，如果您的最佳化目標是 minimize-rmse，則 value 欄位會包含平均值。如果為 minimize-mae，則 value 欄位會包含中位數值。

如果模型使用機率推論和分位數，Vertex AI 除了提供最佳化目標的最小化值，還會提供分位數值和推論結果。模型訓練期間會設定分位數值。分位數推論是與分位數值相關聯的推論值。

取得線上說明

如要取得說明，請使用 explain() 函式，並提供一或多個輸入例項。下列程式碼範例說明：

explanations = endpoint.explain(instances=[{...}, {...}])

線上推論和線上說明的輸入樣本格式相同。詳情請參閱「取得線上推論結果」。

如需特徵歸因的概念總覽，請參閱「特徵歸因 (預測)」。

線上說明的輸出內容

以下程式碼示範如何輸出說明結果：

# Import required modules
import json
from google.protobuf import json_format

def explanation_to_dict(explanation):
  """Converts the explanation proto to a human-friendly json."""
  return json.loads(json_format.MessageToJson(explanation._pb))

for response in explanations.explanations:
  print(explanation_to_dict(response))

說明結果的格式如下：

{
  "attributions": [
    {
      "baselineOutputValue": 1.4194682836532593,
      "instanceOutputValue": 2.152980089187622,
      "featureAttributions": {
        ...
        "store_id": [
          0.007947325706481934
        ],
        ...
        "dept_id": [
          5.960464477539062e-08
        ],
        "item_id": [
          0.1100526452064514
        ],
        "date": [
          0.8525647521018982
        ],
        ...
        "sales": [
          0.0
        ]
      },
      "outputIndex": [
        2
      ],
      "approximationError": 0.01433318599207033,
      "outputName": "value"
    },
    ...
  ]
}

attributions 元素的數量取決於模型訓練中使用的預測範圍，以及輸入執行個體的預測範圍。元素數量是這兩個值中較小的值。

attributions 元素中的 featureAttributions 欄位包含輸入資料集中每個資料欄的值。Vertex AI 會針對所有類型的特徵生成說明：屬性、可供預測和無法預測。如要進一步瞭解 attributions 元素的欄位，請參閱「歸因」。

刪除端點

使用 undeploy_all() 和 delete() 函式刪除端點。下列程式碼範例說明：

endpoint.undeploy_all()
endpoint.delete()

後續步驟

瞭解線上推論的定價。