本頁面由 Cloud Translation API 翻譯而成。

使用 Google Cloud 控制台部署模型

您可以在 Google Cloud 控制台中建立公開端點，並將模型部署至該端點。

您可以從線上預測頁面或模型註冊頁面部署模型。

透過「線上預測」頁面部署模型

在「線上預測」頁面中，您可以建立端點，並將一或多個模型部署至該端點，步驟如下：

在 Google Cloud 控制台的 Vertex AI 專區中，前往「Online prediction」頁面。

前往線上預測頁面
按一下「Create」(建立)。
在「New endpoint」窗格中：
1. 輸入「端點名稱」。
2. 選取「標準」做為存取權類型。
3. 如要建立專用 (非共用) 公開端點，請勾選「啟用專用 DNS」核取方塊。
4. 按一下「繼續」。
在「Model settings」窗格中：
1. 從下拉式清單中選取所需型號。
2. 從下拉式清單中選擇模型版本。
3. 輸入模型的流量分配百分比。
4. 按一下 [完成]。
5. 針對要部署的其他模型重複執行這些步驟。

透過 Model Registry 頁面部署模型

在「模型註冊」頁面中，您可以將模型部署至一或多個新端點或現有端點，方法如下：

在 Google Cloud 控制台的 Vertex AI 專區中，前往「Models」頁面。

前往「Models」(模型) 頁面
按一下要部署的模型名稱和版本 ID，開啟詳細資料頁面。
選取「Deploy & Test」分頁標籤。

如果模型已部署至任何端點，這些端點會列在「Deploy your model」部分。
按一下「Deploy to endpoint」。
如要將模型部署至新端點，請按照下列步驟操作：
1. 選取「建立新端點」
2. 輸入新端點的名稱。
3. 如要建立專用 (非共用) 公開端點，請勾選「啟用專用 DNS」核取方塊。
4. 按一下「繼續」。
如要將模型部署至現有端點，請按照下列步驟操作：
1. 選取「新增至現有端點」。
2. 從下拉式清單中選取端點。
3. 按一下「繼續」。
您可以將多個模型部署至端點，也可以將相同模型部署至多個端點。
如果您將模型部署至已部署一或多個模型的現有端點，則必須更新要部署的模型和已部署模型的流量分配百分比，讓所有百分比加總為 100%。
如果您要將模型部署至新端點，請接受「流量分配」為 100。否則，請調整端點上所有模型的流量拆分值，使其相加結果為 100。
輸入要為模型提供的運算節點數量下限。

這是模型隨時需要的節點數量。

無論是用於處理推論負載，還是用於待命 (最少) 節點，您都必須為所使用的節點付費，即使沒有推論流量也一樣。請參閱定價頁面。

運算節點數量可視需要增加，以便處理推論流量，但絕不會超過節點數量上限。
如要使用自動調度資源功能，請輸入 Vertex AI 要擴充的運算節點數量上限。
選取機器類型。

機器資源越多，推論效能就越高，成本也會隨之增加。比較可用的機器類型。
選取「加速器類型」和「加速器數量」。

如果您在匯入或建立模型時啟用加速器使用功能，系統就會顯示這個選項。

如要查看加速器數量，請參閱 GPU 表格，瞭解可搭配各 CPU 機器類型使用的有效 GPU 數量。加速器計數是指每個節點的加速器數量，而非部署中的加速器總數。
如果您想在部署作業中使用自訂服務帳戶，請在「Service account」下拉式方塊中選取服務帳戶。
瞭解如何變更推論記錄的預設設定。
按一下模型的「完成」，然後在所有流量分配百分比都正確後，按一下「繼續」。
系統會顯示模型部署的區域。這個地區必須是您建立模型的地區。
按一下「Deploy」，將模型部署至端點。

後續步驟

瞭解如何取得線上推論結果。
瞭解如何變更推論記錄的預設設定。