Auf dieser Seite finden Sie eine Anleitung zum Bereitstellen eines generativen KI-Modells in einem Endpunkt für Onlinevorhersagen.
Model Garden prüfen
Wenn sich das Modell in Model Garden befindet, können Sie es bereitstellen, indem Sie auf Bereitstellen (für einige Modelle verfügbar) oder Notebook öffnen klicken.
Andernfalls haben Sie folgende Möglichkeiten:
Wenn Ihr Modell einem Modell in Model Garden ähnelt, können Sie möglicherweise einen der Model Garden-Container direkt wiederverwenden.
Erstellen Sie vor dem Modellimport in die Vertex AI Model Registry Ihren eigenen benutzerdefinierten Container, der die Anforderungen für benutzerdefinierte Container für die Vorhersage erfüllt. Nach dem Import wird er zu einer
model
-Ressource, die Sie auf einem Endpunkt bereitstellen können.Sie können die Dockerfiles und Scripts, die wir zum Erstellen unserer Model Garden-Container verwenden, als Referenz oder Ausgangspunkt für die Erstellung eigener benutzerdefinierter Container verwenden.
Vorhersagen mit NVIDIA NIM bereitstellen
NVIDIA Inference Microservices (NIM) sind vortrainierte und optimierte KI-Modelle, die als Mikrodienste bereitgestellt werden. Sie sollen die Bereitstellung leistungsstarker, produktionsreifer KI in Anwendungen vereinfachen.
NVIDIA NIM kann zusammen mit Artifact Registry und Vertex AI Prediction verwendet werden, um generative KI-Modelle für Onlinevorhersagen bereitzustellen.
Einstellungen für benutzerdefinierte Container
In diesem Abschnitt werden Felder in containerSpec
Ihres Modells beschrieben, die Sie beim Importieren von generativen KI-Modellen möglicherweise angeben müssen.
Sie können diese Felder mit der Vertex AI REST API oder dem Befehl gcloud ai models upload
angeben.
Weitere Informationen finden Sie unter Containerbezogene API-Felder.
sharedMemorySizeMb
Einige generative KI-Modelle benötigen mehr gemeinsamen Arbeitsspeicher. Gemeinsam genutzter Speicher ist ein IPC-Mechanismus (Inter-Process Communication), der es mehreren Prozessen ermöglicht, auf einen gemeinsamen Speicherblock zuzugreifen und diesen zu bearbeiten. Die Standardgröße des gemeinsamen Arbeitsspeichers beträgt 64 MB.
Einige Modellserver wie vLLM oder Nvidia Triton verwenden gemeinsamen Arbeitsspeicher, um interne Daten während der Modellinferenzen im Cache zu speichern. Ohne ausreichend gemeinsamen Arbeitsspeicher können einige Modellserver keine Vorhersagen für generative Modelle liefern. Die Größe des erforderlichen gemeinsamen Speichers ist ein Implementierungsdetail Ihres Containers und Modells. Weitere Informationen finden Sie in der Dokumentation Ihres Modellservers.
Da gemeinsam genutzter Arbeitsspeicher auch für die GPU-übergreifende Kommunikation verwendet werden kann, kann die Verwendung von mehr gemeinsam genutztem Arbeitsspeicher die Leistung von Beschleunigern ohne NVLink-Funktionen (z. B. L4) verbessern, wenn der Modellcontainer eine GPU-übergreifende Kommunikation erfordert.
Informationen zum Angeben eines benutzerdefinierten Werts für den gemeinsamen Speicher finden Sie unter Containerbezogene API-Felder.
startupProbe
Eine Startprüfung ist eine optionale Prüfung, mit der festgestellt wird, ob der Container gestartet wurde. Mit dieser Prüfung werden die Systemdiagnose und die Aktivitätsprüfungen bis zum Start des Containers verzögert. So wird verhindert, dass langsam startende Container vorzeitig heruntergefahren werden.
Weitere Informationen finden Sie unter Systemdiagnosen.
healthProbe
Die Systemdiagnose prüft, ob ein Container bereit ist, Traffic anzunehmen. Wenn keine Systemdiagnose angegeben ist, verwendet Vertex AI die Standardsystemdiagnosen, bei denen eine HTTP-Anfrage an den Port des Containers gesendet und nach einer
200 OK
-Antwort vom Modellserver gesucht wird.Wenn Ihr Modellserver mit
200 OK
antwortet, bevor das Modell vollständig geladen ist, was insbesondere bei großen Modellen möglich ist, dann ist die Systemdiagnose vorzeitig erfolgreich und Vertex AI leitet den Traffic an den Container weiter, bevor dieser fertig ist.Geben Sie in diesen Fällen eine benutzerdefinierte Systemdiagnose an, die erst dann erfolgreich ist, wenn das Modell vollständig geladen und bereit ist, Traffic entgegenzunehmen.
Weitere Informationen finden Sie unter Systemdiagnosen.
Beschränkungen
Beachten Sie beim Bereitstellen von Modellen mit generativer KI die folgenden Einschränkungen:
- Generative KI-Modelle können nur auf einem einzigen Computer bereitgestellt werden. Die Bereitstellung auf mehreren Hosts wird nicht unterstützt.
- Bei sehr großen Modellen, die nicht in den größten unterstützten vRAM passen, z. B. Llama 3.1 405B, empfehlen wir, sie zu quantisieren.