部分生成式 AI 模型 (例如 Gemini) 具有受管理的 API,無須部署即可接受提示。如需含有受管理 API 的模型清單,請參閱「基礎模型 API」。
其他生成式 AI 模型必須先部署到端點,才能接受提示。必須部署兩種生成模型:
微調模型:使用自己的資料調整支援的基礎模型後建立。
沒有受管理 API 的生成式模型。在 Model Garden 中,這些是未標示為「可用 API」或「Vertex AI Studio」的模型,例如 Llama 2。
將模型部署至端點時,Vertex AI 會將運算資源和 URI 與模型建立關聯,以便提供提示要求。
部署經過調整的模型
經過調整的模型會自動上傳至 Vertex AI Model Registry,並部署至 Vertex AI 共用的公開 endpoint
。經過調整的模型不會顯示在 Model Garden 中,因為這些模型是使用您的資料調整而成。詳情請參閱模型調整總覽。
端點啟用後,即可在其 URI 中接受提示要求。經過調整的模型 API 呼叫格式與基礎模型相同。舉例來說,如果模型是在 Gemini 上調整,則提示要求應遵循 Gemini API。
請務必將提示要求傳送至經過調整的模型端點,而非受管理的 API。經過調整的模型端點格式如下:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
如要取得端點 ID,請參閱「查看或管理端點」。
如要進一步瞭解如何設定提示要求的格式,請參閱 Model API 參考資料。
部署沒有管理式 API 的生成式模型
如要使用 Model Garden 中沒有受管理 API 的模型,您必須先將模型上傳至 Model Registry,並將模型部署至端點,才能傳送提示要求。這與在 Vertex AI 中上傳及部署自訂訓練模型做線上預測類似。
如要部署其中一個模型,請前往 Model Garden,然後選取要部署的模型。
每張模型資訊卡都會顯示下列一或多個部署選項:
「Deploy」按鈕:Model Garden 中的大部分生成式模型都有「Deploy」按鈕,可引導您將模型部署至 Vertex AI。如果您沒有看到「部署」按鈕,請參閱下一點的說明。
如要在 Vertex AI 上部署,您可以使用建議的設定或修改設定。您也可以設定進階部署設定,例如選取 Compute Engine 預留。
「Open Notebook」按鈕:這個選項會開啟 Jupyter 筆記本。每張模型資訊卡都會顯示這個選項。Jupyter 筆記本包含操作說明和範例程式碼,可用於將模型上傳至 Model Registry、將模型部署至端點,以及傳送提示要求。
部署完成且端點處於啟用狀態後,即可透過 URI 接受提示要求。API 的格式為 predict
,而要求主體中每個 instance
的格式則取決於模型。如需更多資訊,請參閱下列資源:
請確認您有足夠的機器配額可用於模型部署作業。如要查看目前的配額或要求更多配額,請前往 Google Cloud 控制台的「Quotas」(配額) 頁面。
接著,依據配額名稱 Custom Model Serving
進行篩選,即可查看線上預測的配額。詳情請參閱「查看及管理配額」。
使用 Compute Engine 預留項目,確保已部署模型的容量
您可以在透過 Compute Engine 保留項目分配的 VM 資源上部署 Model Garden 模型。預留可用容量有助於確保模型預測要求在需要時有足夠的容量可用。詳情請參閱「使用預留容量與預測功能」。
查看或管理模型
如要查看經過微調的模型,請在 Google Cloud 控制台的「Tune and Distill」(調整及精煉) 頁面中查看模型及其微調工作。
您也可以在 Model Registry 中查看及管理所有已上傳的模型。
在 Model Registry 中,已調整的模型會歸類為大型模型,並附有標籤,指出基礎模型和用於調整的管道或調整工作。
使用「Deploy」按鈕部署的模型,其 Source
會標示為「Model Garden」。請注意,如果模型在 Model Garden 中更新,Model Registry 中上傳的模型不會更新。
詳情請參閱「Vertex AI Model Registry 簡介」。
查看或管理端點
如要查看及管理端點,請前往 Vertex AI 的「線上預測」頁面。根據預設,端點名稱會與模型名稱相同。
詳情請參閱「將模型部署至端點」。
監控模型端點流量
請按照下列操作說明,在 Metrics Explorer 中監控端點的流量。
前往 Google Cloud 控制台的「Metrics Explorer」頁面。
選取要查看指標的專案。
在「指標」下拉式選單中,按一下「選取指標」。
在「依據資源或指標名稱篩選」搜尋列中,輸入
Vertex AI Endpoint
。選取「Vertex AI 端點」>「預測」成效指標類別。在「有效指標」下方,選取下列任一指標:
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
按一下 [套用]。如要新增多個指標,請按一下「新增查詢」。
您可以使用下列下拉式選單篩選或匯總指標:
如要根據指定條件選取及查看部分資料,請使用「篩選」下拉式選單。例如
endpoint_id = gemini-2p0-flash-001
(模型名稱中的小數點應替換為p
)。如要將多個資料點合併為單一值,並查看指標的摘要檢視畫面,請使用「Aggregation」下拉式選單。例如,您可以匯總
response_code
的總和。
您也可以為端點設定警報。詳情請參閱「管理快訊政策」。
如要查看透過資訊主頁新增至專案的指標,請參閱資訊主頁總覽。
限制
- 經過調整的 Gemini 模型只能部署至共用公開端點。不支援部署至專屬公開端點、Private Service Connect 端點和私人端點。
定價
針對經過調整的模型,系統會以與基礎模型相同的費率,依每個符記收取費用。端點不需付費,因為調整功能是以基礎模型為基礎,以小型轉接器的形式實作。詳情請參閱「Vertex AI 的生成式 AI 定價」。
如果模型沒有管理式 API,您必須支付端點使用的機器小時費率,這與 Vertex AI 線上預測的費率相同。您不需要為每個符記付費。詳情請參閱「Vertex AI 預測定價」。