推論是訓練完成的機器學習模型輸出內容。本頁面概略說明在 Vertex AI 中從模型取得推論結果的工作流程。
Vertex AI 提供兩種方法來取得推論:
-
線上推論是指對部署至
Endpoint
的模型發出的同步要求。因此,您必須先將Model
資源部署至端點,才能傳送要求。這麼做可將運算資源與模型建立關聯,讓模型以低延遲的方式提供線上推論結果。如要依據應用程式輸入內容發出要求,或是需要及時進行推論,您可以選用「線上推論」模式。 -
批次推論是對未部署至端點的模型提出的非同步要求。您可以將要求 (以
BatchPredictionJob
資源的形式) 直接傳送至Model
資源。如果您不需要立即取得回應,並想透過單一要求處理累積的資料,就適合使用批次推論功能。
在本機測試模型
在取得推論結果之前,建議您在開發和測試階段將模型部署至本機端點。這樣一來,您就能更快速地進行模型的疊代和測試,而無須將模型部署至線上端點或產生推論費用。本機部署作業適用於本機開發及測試,而非用於正式部署。
如要本機部署模型,請使用 Python 適用的 Vertex AI SDK,並將 LocalModel
部署至 LocalEndpoint
。如需示範,請參閱這個筆記本。
即使用戶端並非以 Python 編寫,您還是可以使用 Python 適用的 Vertex AI SDK 啟動容器和伺服器,以便測試來自用戶端的要求。
透過自訂訓練模型取得推論結果
如要取得推論結果,您必須先匯入模型。匯入後,這項資源就會成為 Model
資源,並顯示在 Vertex AI Model Registry 中。
接著,請參閱下列說明文件,瞭解如何取得推論結果:
後續步驟
- 瞭解預測作業的運算資源。