您可以在 Google Cloud 控制台中建立公開端點,並將模型部署至該端點。
您可以從線上預測頁面或模型註冊頁面部署模型。
透過「線上預測」頁面部署模型
在「線上預測」頁面中,您可以建立端點,並將一或多個模型部署至該端點,步驟如下:
在 Google Cloud 控制台的 Vertex AI 專區中,前往「Online prediction」頁面。
按一下
「Create」(建立)。在「New endpoint」窗格中:
輸入「端點名稱」。
選取「標準」做為存取權類型。
如要建立專用 (非共用) 公開端點,請勾選「啟用專用 DNS」核取方塊。
按一下「繼續」。
在「Model settings」窗格中:
從下拉式清單中選取所需型號。
從下拉式清單中選擇模型版本。
輸入模型的流量分配百分比。
按一下 [完成]。
針對要部署的其他模型重複執行這些步驟。
透過 Model Registry 頁面部署模型
在「模型註冊」頁面中,您可以將模型部署至一或多個新端點或現有端點,方法如下:
在 Google Cloud 控制台的 Vertex AI 專區中,前往「Models」頁面。
按一下要部署的模型名稱和版本 ID,開啟詳細資料頁面。
選取「Deploy & Test」分頁標籤。
如果模型已部署至任何端點,這些端點會列在「Deploy your model」部分。
按一下「Deploy to endpoint」。
如要將模型部署至新端點,請按照下列步驟操作:
- 選取 「建立新端點」
- 輸入新端點的名稱。
- 如要建立專用 (非共用) 公開端點,請勾選「啟用專用 DNS」核取方塊。
- 按一下「繼續」。
如要將模型部署至現有端點,請按照下列步驟操作:
- 選取 「新增至現有端點」。
- 從下拉式清單中選取端點。
- 按一下「繼續」。
您可以將多個模型部署至端點,也可以將相同模型部署至多個端點。
如果您將模型部署至已部署一或多個模型的現有端點,則必須更新要部署的模型和已部署模型的流量分配百分比,讓所有百分比加總為 100%。
如果您要將模型部署至新端點,請接受「流量分配」為 100。否則,請調整端點上所有模型的流量拆分值,使其相加結果為 100。
輸入要為模型提供的運算節點數量下限。
這是模型隨時需要的節點數量。
無論是用於處理推論負載,還是用於待命 (最少) 節點,您都必須為所使用的節點付費,即使沒有推論流量也一樣。請參閱定價頁面。
運算節點數量可視需要增加,以便處理推論流量,但絕不會超過節點數量上限。
如要使用自動調度資源功能,請輸入 Vertex AI 要擴充的運算節點數量上限。
選取機器類型。
機器資源越多,推論效能就越高,成本也會隨之增加。比較可用的機器類型。
選取「加速器類型」和「加速器數量」。
如果您在匯入或建立模型時啟用加速器使用功能,系統就會顯示這個選項。
如要查看加速器數量,請參閱 GPU 表格,瞭解可搭配各 CPU 機器類型使用的有效 GPU 數量。加速器計數是指每個節點的加速器數量,而非部署中的加速器總數。
如果您想在部署作業中使用自訂服務帳戶,請在「Service account」下拉式方塊中選取服務帳戶。
瞭解如何變更推論記錄的預設設定。
按一下模型的「完成」,然後在所有流量分配百分比都正確後,按一下「繼續」。
系統會顯示模型部署的區域。這個地區必須是您建立模型的地區。
按一下「Deploy」,將模型部署至端點。
後續步驟
- 瞭解如何取得線上推論結果。
- 瞭解如何變更推論記錄的預設設定。