Endpunkttyp auswählen

Wenn Sie ein Modell für die Onlineinferenz bereitstellen möchten, benötigen Sie einen Endpunkt. Endpunkte lassen sich in die folgenden Typen unterteilen:

  • Auf öffentliche Endpunkte kann über das öffentliche Internet zugegriffen werden. Sie sind einfacher zu verwenden, da keine private Netzwerkinfrastruktur erforderlich ist. Es gibt zwei Arten von öffentlichen Endpunkten: dedizierte und freigegebene. Ein dedizierter öffentlicher Endpunkt ist ein schnellerer Endpunkt, der Produktionsisolation, Unterstützung für größere Nutzlasten und längere Zeitüberschreitungen für Anfragen als ein gemeinsamer öffentlicher Endpunkt bietet. Wenn Sie eine Inferenzanfrage an einen dedizierten öffentlichen Endpunkt senden, wird sie außerdem vom Traffic anderer Nutzer isoliert. Aus diesen Gründen werden dedizierte öffentliche Endpunkte als Best Practice empfohlen.

  • Dedizierte private Endpunkte mit Private Service Connect bieten eine sichere Verbindung für die private Kommunikation zwischen lokalen Umgebungen undGoogle Cloud. Sie können verwendet werden, um den Google API-Traffic über die Verwendung von Private Service Connect-APIs zu steuern. Sie werden als Best Practice empfohlen.

  • Private Endpunkte bieten auch eine sichere Verbindung zu Ihrem Modell und können auch für die private Kommunikation zwischen lokalen undGoogle Cloud-Umgebungen verwendet werden. Sie verwenden Zugriff auf private Dienste über eine VPC-Netzwerk-Peering-Verbindung.

Weitere Informationen zum Bereitstellen eines Modells auf einem Endpunkt finden Sie unter Modell auf einem Endpunkt bereitstellen.

In der folgenden Tabelle werden die unterstützten Endpunkttypen für die Bereitstellung von Vertex AI-Onlineinferenzen verglichen.

Dedizierter öffentlicher Endpunkt (empfohlen) Gemeinsamer öffentlicher Endpunkt Dedizierter privater Endpunkt mit Private Service Connect (empfohlen) Privater Endpunkt
Zweck Standard-Netzwerkverhalten. Ermöglicht das Senden von Anfragen über das öffentliche Internet. Standard-Netzwerkverhalten. Ermöglicht das Senden von Anfragen über das öffentliche Internet. Empfohlen für Unternehmensanwendungen in der Produktionsumgebung. Verbessert die Netzwerklatenz und ‑sicherheit, da Anfragen und Antworten privat weitergeleitet werden. Empfohlen für Unternehmensanwendungen in der Produktionsumgebung. Verbessert die Netzwerklatenz und ‑sicherheit, da Anfragen und Antworten privat weitergeleitet werden.
Netzwerkzugriff Öffentliches Internet über eine dedizierte Netzwerkebene Öffentliches Internet über eine gemeinsame Netzwerkebene Private Netzwerke mit Private Service Connect-Endpunkt Private Netzwerke mit Zugriff auf private Dienste (VPC-Netzwerk-Peering)
VPC Service Controls Nicht unterstützt. Verwenden Sie stattdessen einen dedizierten privaten Endpunkt. Unterstützt Unterstützt Unterstützt
Kosten Vertex AI Inference Vertex AI Inference Vertex AI Inference + Private Service Connect-Endpunkt Vertex AI Inference + Private Service Access (siehe „Private Service Connect-Endpunkt (Weiterleitungsregel) verwenden, um auf einen veröffentlichten Dienst zuzugreifen“)
Netzwerklatenz Optimiert Nicht optimiert Optimiert Optimiert
Verschlüsselung während der Übertragung TLS mit CA-signiertem Zertifikat TLS mit CA-signiertem Zertifikat Optionale TLS-Verschlüsselung mit selbstsigniertem Zertifikat Keine
Zeitlimit für Inferenz Bis zu 1 Stunde konfigurierbar 60 Sekunden Bis zu 1 Stunde konfigurierbar 60 Sekunden
Beschränkung der Nutzlastgröße 10 MB 1,5 MB 10 MB 10 MB
QPM-Kontingent Unbegrenzt 30.000 Unbegrenzt Unbegrenzt
Protokollunterstützung HTTP oder gRPC HTTP HTTP oder gRPC HTTP
Streaming-Support Ja (SSE) Nein Ja (SSE) Nein
Trafficaufteilung Ja Ja Ja Nein
Anfrage-/Antwort-Logging Ja Ja Ja Nein
Zugriffs-Logging Ja Ja Ja Nein
Bereitstellung abgestimmter Gemini-Modelle Nein Ja Nein Nein
AutoML-Modelle und Erklärbarkeit Nein Ja Nein Nein
Unterstützte Clientbibliotheken Vertex AI SDK für Python Vertex AI-Clientbibliotheken, Vertex AI SDK für Python Vertex AI SDK für Python Vertex AI SDK für Python

Nächste Schritte