Wenn Sie ein Modell für die Onlineinferenz bereitstellen möchten, benötigen Sie einen Endpunkt. Endpunkte lassen sich in die folgenden Typen unterteilen:
Auf öffentliche Endpunkte kann über das öffentliche Internet zugegriffen werden. Sie sind einfacher zu verwenden, da keine private Netzwerkinfrastruktur erforderlich ist. Es gibt zwei Arten von öffentlichen Endpunkten: dedizierte und freigegebene. Ein dedizierter öffentlicher Endpunkt ist ein schnellerer Endpunkt, der Produktionsisolation, Unterstützung für größere Nutzlasten und längere Zeitüberschreitungen für Anfragen als ein gemeinsamer öffentlicher Endpunkt bietet. Wenn Sie eine Inferenzanfrage an einen dedizierten öffentlichen Endpunkt senden, wird sie außerdem vom Traffic anderer Nutzer isoliert. Aus diesen Gründen werden dedizierte öffentliche Endpunkte als Best Practice empfohlen.
Dedizierte private Endpunkte mit Private Service Connect bieten eine sichere Verbindung für die private Kommunikation zwischen lokalen Umgebungen undGoogle Cloud. Sie können verwendet werden, um den Google API-Traffic über die Verwendung von Private Service Connect-APIs zu steuern. Sie werden als Best Practice empfohlen.
Private Endpunkte bieten auch eine sichere Verbindung zu Ihrem Modell und können auch für die private Kommunikation zwischen lokalen undGoogle Cloud-Umgebungen verwendet werden. Sie verwenden Zugriff auf private Dienste über eine VPC-Netzwerk-Peering-Verbindung.
Weitere Informationen zum Bereitstellen eines Modells auf einem Endpunkt finden Sie unter Modell auf einem Endpunkt bereitstellen.
In der folgenden Tabelle werden die unterstützten Endpunkttypen für die Bereitstellung von Vertex AI-Onlineinferenzen verglichen.
Dedizierter öffentlicher Endpunkt (empfohlen) | Gemeinsamer öffentlicher Endpunkt | Dedizierter privater Endpunkt mit Private Service Connect (empfohlen) | Privater Endpunkt | |
---|---|---|---|---|
Zweck | Standard-Netzwerkverhalten. Ermöglicht das Senden von Anfragen über das öffentliche Internet. | Standard-Netzwerkverhalten. Ermöglicht das Senden von Anfragen über das öffentliche Internet. | Empfohlen für Unternehmensanwendungen in der Produktionsumgebung. Verbessert die Netzwerklatenz und ‑sicherheit, da Anfragen und Antworten privat weitergeleitet werden. | Empfohlen für Unternehmensanwendungen in der Produktionsumgebung. Verbessert die Netzwerklatenz und ‑sicherheit, da Anfragen und Antworten privat weitergeleitet werden. |
Netzwerkzugriff | Öffentliches Internet über eine dedizierte Netzwerkebene | Öffentliches Internet über eine gemeinsame Netzwerkebene | Private Netzwerke mit Private Service Connect-Endpunkt | Private Netzwerke mit Zugriff auf private Dienste (VPC-Netzwerk-Peering) |
VPC Service Controls | Nicht unterstützt. Verwenden Sie stattdessen einen dedizierten privaten Endpunkt. | Unterstützt | Unterstützt | Unterstützt |
Kosten | Vertex AI Inference | Vertex AI Inference | Vertex AI Inference + Private Service Connect-Endpunkt | Vertex AI Inference + Private Service Access (siehe „Private Service Connect-Endpunkt (Weiterleitungsregel) verwenden, um auf einen veröffentlichten Dienst zuzugreifen“) |
Netzwerklatenz | Optimiert | Nicht optimiert | Optimiert | Optimiert |
Verschlüsselung während der Übertragung | TLS mit CA-signiertem Zertifikat | TLS mit CA-signiertem Zertifikat | Optionale TLS-Verschlüsselung mit selbstsigniertem Zertifikat | Keine |
Zeitlimit für Inferenz | Bis zu 1 Stunde konfigurierbar | 60 Sekunden | Bis zu 1 Stunde konfigurierbar | 60 Sekunden |
Beschränkung der Nutzlastgröße | 10 MB | 1,5 MB | 10 MB | 10 MB |
QPM-Kontingent | Unbegrenzt | 30.000 | Unbegrenzt | Unbegrenzt |
Protokollunterstützung | HTTP oder gRPC | HTTP | HTTP oder gRPC | HTTP |
Streaming-Support | Ja (SSE) | Nein | Ja (SSE) | Nein |
Trafficaufteilung | Ja | Ja | Ja | Nein |
Anfrage-/Antwort-Logging | Ja | Ja | Ja | Nein |
Zugriffs-Logging | Ja | Ja | Ja | Nein |
Bereitstellung abgestimmter Gemini-Modelle | Nein | Ja | Nein | Nein |
AutoML-Modelle und Erklärbarkeit | Nein | Ja | Nein | Nein |
Unterstützte Clientbibliotheken | Vertex AI SDK für Python | Vertex AI-Clientbibliotheken, Vertex AI SDK für Python | Vertex AI SDK für Python | Vertex AI SDK für Python |