選擇端點類型

如要部署模型以進行線上推論,您需要端點。端點可分為下列類型:

  • 公開端點可透過公開網際網路存取。 使用起來更簡單,因為不需要私人網路基礎架構。公開端點分為兩種:專用和共用。專屬公開端點速度較快,可提供生產隔離、支援較大的酬載大小,以及較長的要求逾時時間,優於共用公開端點。此外,當您將推論要求傳送至專屬公開端點時,系統會將其與其他使用者的流量隔離。因此,建議您採用專屬公開端點。

  • 使用 Private Service Connect 的專屬私人端點,可為內部部署環境與Google Cloud之間的私人通訊提供安全連線。您可以使用 Private Service Connect API 控制 Google API 流量。建議您採用這些做法。

  • 私人端點也能提供與模型的安全連線,還可用於內部部署與Google Cloud之間的私人通訊。這些服務會透過 VPC 網路對等互連連線,使用私人服務存取權

如要進一步瞭解如何將模型部署至端點,請參閱「將模型部署至端點」。

下表比較了支援的端點類型,可用於提供 Vertex AI 線上推論服務。

專屬公開端點 (建議) 共用公開端點 使用 Private Service Connect 的專屬私有端點 (建議) 私人端點
目的 預設網路體驗。允許從公開網際網路提交要求。 預設網路體驗。允許從公開網際網路提交要求。 建議用於正式版企業應用程式。確保要求和回應以私密方式傳送,藉此改善網路延遲和安全性。 建議用於正式版企業應用程式。確保要求和回應以私密方式傳送,藉此改善網路延遲和安全性。
網路存取權 使用專屬網路平面連上公開網際網路 使用共用網路平面連上公開網際網路 使用 Private Service Connect 端點的私有網路 使用私人服務存取權 (虛擬私有雲網路對等互連) 的私有網路
VPC Service Controls 不支援。請改用專屬私人端點。 支援 支援 支援
費用 Vertex AI 推論 Vertex AI 推論 Vertex AI 推論 + Private Service Connect 端點 Vertex AI Inference + Private Service Access (請參閱「使用 Private Service Connect 端點 (轉送規則) 存取已發布的服務」)
網路延遲 最佳化 未經最佳化 最佳化 最佳化
傳輸中資料加密 使用憑證授權單位簽署的憑證進行 TLS 使用憑證授權單位簽署的憑證進行 TLS 選用傳輸層安全標準 (TLS) 搭配自行簽署的憑證
推論逾時 最多可設定 1 小時 60 秒 最多可設定 1 小時 60 秒
酬載大小上限 10 MB 1.5 MB 10 MB 10 MB
QPM 配額 無限制 30,000 無限制 無限制
通訊協定支援 HTTP 或 gRPC HTTP HTTP 或 gRPC HTTP
串流支援 可以 (SSE) 可以 (SSE)
流量拆分
要求和回應記錄
存取記錄
部署調整過的 Gemini 模型
AutoML 模型和說明
支援的用戶端程式庫 Vertex AI SDK for Python Vertex AI 用戶端程式庫Vertex AI SDK for Python Vertex AI SDK for Python Vertex AI SDK for Python

後續步驟