如要部署模型以進行線上推論,您需要端點。端點可分為下列類型:
公開端點可透過公開網際網路存取。 使用起來更簡單,因為不需要私人網路基礎架構。公開端點分為兩種:專用和共用。專屬公開端點速度較快,可提供生產隔離、支援較大的酬載大小,以及較長的要求逾時時間,優於共用公開端點。此外,當您將推論要求傳送至專屬公開端點時,系統會將其與其他使用者的流量隔離。因此,建議您採用專屬公開端點。
使用 Private Service Connect 的專屬私人端點,可為內部部署環境與Google Cloud之間的私人通訊提供安全連線。您可以使用 Private Service Connect API 控制 Google API 流量。建議您採用這些做法。
私人端點也能提供與模型的安全連線,還可用於內部部署與Google Cloud之間的私人通訊。這些服務會透過 VPC 網路對等互連連線,使用私人服務存取權。
如要進一步瞭解如何將模型部署至端點,請參閱「將模型部署至端點」。
下表比較了支援的端點類型,可用於提供 Vertex AI 線上推論服務。
專屬公開端點 (建議) | 共用公開端點 | 使用 Private Service Connect 的專屬私有端點 (建議) | 私人端點 | |
---|---|---|---|---|
目的 | 預設網路體驗。允許從公開網際網路提交要求。 | 預設網路體驗。允許從公開網際網路提交要求。 | 建議用於正式版企業應用程式。確保要求和回應以私密方式傳送,藉此改善網路延遲和安全性。 | 建議用於正式版企業應用程式。確保要求和回應以私密方式傳送,藉此改善網路延遲和安全性。 |
網路存取權 | 使用專屬網路平面連上公開網際網路 | 使用共用網路平面連上公開網際網路 | 使用 Private Service Connect 端點的私有網路 | 使用私人服務存取權 (虛擬私有雲網路對等互連) 的私有網路 |
VPC Service Controls | 不支援。請改用專屬私人端點。 | 支援 | 支援 | 支援 |
費用 | Vertex AI 推論 | Vertex AI 推論 | Vertex AI 推論 + Private Service Connect 端點 | Vertex AI Inference + Private Service Access (請參閱「使用 Private Service Connect 端點 (轉送規則) 存取已發布的服務」) |
網路延遲 | 最佳化 | 未經最佳化 | 最佳化 | 最佳化 |
傳輸中資料加密 | 使用憑證授權單位簽署的憑證進行 TLS | 使用憑證授權單位簽署的憑證進行 TLS | 選用傳輸層安全標準 (TLS) 搭配自行簽署的憑證 | 無 |
推論逾時 | 最多可設定 1 小時 | 60 秒 | 最多可設定 1 小時 | 60 秒 |
酬載大小上限 | 10 MB | 1.5 MB | 10 MB | 10 MB |
QPM 配額 | 無限制 | 30,000 | 無限制 | 無限制 |
通訊協定支援 | HTTP 或 gRPC | HTTP | HTTP 或 gRPC | HTTP |
串流支援 | 可以 (SSE) | 否 | 可以 (SSE) | 否 |
流量拆分 | 是 | 是 | 是 | 否 |
要求和回應記錄 | 是 | 是 | 是 | 否 |
存取記錄 | 是 | 是 | 是 | 否 |
部署調整過的 Gemini 模型 | 否 | 是 | 否 | 否 |
AutoML 模型和說明 | 否 | 是 | 否 | 否 |
支援的用戶端程式庫 | Vertex AI SDK for Python | Vertex AI 用戶端程式庫、Vertex AI SDK for Python | Vertex AI SDK for Python | Vertex AI SDK for Python |
後續步驟
- 進一步瞭解如何將模型部署至端點。