Diese Seite wurde von der Cloud Translation API übersetzt.

Generative KI-Modelle bereitstellen

Auf dieser Seite finden Sie eine Anleitung zum Bereitstellen eines generativen KI-Modells in einem Endpunkt für Onlineinferenz.

Model Garden prüfen

Wenn sich das Modell in Model Garden befindet, können Sie es bereitstellen, indem Sie auf Bereitstellen (für einige Modelle verfügbar) oder Notebook öffnen klicken.

Zu Model Garden

Andernfalls haben Sie folgende Möglichkeiten:

Wenn Ihr Modell einem Modell in Model Garden ähnelt, können Sie möglicherweise einen der Model Garden-Container direkt wiederverwenden.
Erstellen Sie vor dem Modellimport in die Vertex AI Model Registry Ihren eigenen benutzerdefinierten Container, der die Anforderungen für benutzerdefinierte Container für die Inferenz erfüllt. Nach dem Import wird er zu einer model-Ressource, die Sie auf einem Endpunkt bereitstellen können.

Sie können die Dockerfiles und Scripts, die wir zum Erstellen unserer Model Garden-Container verwenden, als Referenz oder Ausgangspunkt für die Erstellung eigener benutzerdefinierter Container verwenden.

Inferenzanfragen mit NVIDIA NIM bereitstellen

NVIDIA Inference Microservices (NIM) sind vortrainierte und optimierte KI-Modelle, die als Mikrodienste verpackt sind. Sie sollen die Bereitstellung von leistungsstarker, produktionsreifer KI in Anwendungen vereinfachen.

NVIDIA NIM kann zusammen mit Artifact Registry und Vertex AI verwendet werden, um generative KI-Modelle für Onlineinferenz bereitzustellen.

Einstellungen für benutzerdefinierte Container

In diesem Abschnitt werden Felder in der containerSpec Ihres Modells beschrieben, die Sie beim Importieren von generativen KI-Modellen möglicherweise angeben müssen.

Sie können diese Felder mit der Vertex AI REST API oder dem gcloud ai models upload-Befehl angeben. Weitere Informationen finden Sie unter Containerbezogene API-Felder.

sharedMemorySizeMb

Einige generative KI-Modelle benötigen mehr gemeinsam genutzten Speicher. Gemeinsam genutzter Speicher ist ein IPC-Mechanismus (Inter-Process Communication), der es mehreren Prozessen ermöglicht, auf einen gemeinsamen Speicherblock zuzugreifen und diesen zu bearbeiten. Die Standardgröße des gemeinsam genutzten Speichers beträgt 64 MB.

Einige Modellserver wie vLLM oder Nvidia Triton verwenden gemeinsam genutzten Speicher, um interne Daten während der Modellinferenzen im Cache zu speichern. Ohne ausreichend gemeinsam genutzten Speicher können einige Modellserver keine Inferenzanfragen für generative Modelle bearbeiten. Die Größe des erforderlichen gemeinsam genutzten Speichers ist ein Implementierungsdetail Ihres Containers und Modells. Weitere Informationen finden Sie in der Dokumentation Ihres Modellservers.

Da gemeinsam genutzter Speicher auch für die GPU-übergreifende Kommunikation verwendet werden kann, kann die Verwendung von mehr gemeinsam genutzten Speichern die Leistung von Accelerators ohne NVLink-Funktionen (z. B. L4) verbessern, wenn der Modellcontainer eine GPU-übergreifende Kommunikation erfordert.

Informationen zum Angeben eines benutzerdefinierten Werts für den gemeinsam genutzten Speicher finden Sie unter Containerbezogene API-Felder.

startupProbe

Eine Startprüfung ist eine optionale Prüfung, mit der festgestellt wird, wann der Container gestartet wurde. Mit dieser Prüfung werden die Zustandsprüfung und die Aktivitätsprüfungen bis zum Start des Containers verzögert. So wird verhindert, dass langsam startende Container vorzeitig heruntergefahren werden.

Weitere Informationen finden Sie unter Systemdiagnosen.

healthProbe

Mit der Systemdiagnose wird geprüft, ob ein Container bereit ist, Traffic anzunehmen. Wenn keine Zustandsprüfung angegeben ist, verwendet Vertex AI die Standardsystemdiagnosen, bei denen eine HTTP-Anfrage an den Port des Containers gesendet und nach einer 200 OK-Antwort vom Modellserver gesucht wird.

Wenn Ihr Modellserver mit 200 OK antwortet, bevor das Modell vollständig geladen ist, was insbesondere bei großen Modellen möglich ist, dann ist die Systemdiagnose vorzeitig erfolgreich und Vertex AI leitet den Traffic an den Container weiter, bevor dieser fertig ist.

Geben Sie in diesen Fällen eine benutzerdefinierte Zustandsprüfung an, die erst dann erfolgreich ist, wenn das Modell vollständig geladen und bereit ist, Traffic anzunehmen.