Generative KI-Modelle bereitstellen

Auf dieser Seite finden Sie eine Anleitung zum Bereitstellen eines generativen KI-Modells in einem Endpunkt für Onlinevorhersagen.

Model Garden prüfen

Wenn sich das Modell in Model Garden befindet, können Sie es bereitstellen, indem Sie auf Bereitstellen (für einige Modelle verfügbar) oder Notebook öffnen klicken.

Zu Model Garden

Andernfalls haben Sie folgende Möglichkeiten:

Vorhersagen mit NVIDIA NIM bereitstellen

NVIDIA Inference Microservices (NIM) sind vortrainierte und optimierte KI-Modelle, die als Mikrodienste bereitgestellt werden. Sie sollen die Bereitstellung leistungsstarker, produktionsreifer KI in Anwendungen vereinfachen.

NVIDIA NIM kann zusammen mit Artifact Registry und Vertex AI Prediction verwendet werden, um generative KI-Modelle für Onlinevorhersagen bereitzustellen.

Einstellungen für benutzerdefinierte Container

In diesem Abschnitt werden Felder in containerSpec Ihres Modells beschrieben, die Sie beim Importieren von generativen KI-Modellen möglicherweise angeben müssen.

Sie können diese Felder mit der Vertex AI REST API oder dem Befehl gcloud ai models upload angeben. Weitere Informationen finden Sie unter Containerbezogene API-Felder.

sharedMemorySizeMb

Einige generative KI-Modelle benötigen mehr gemeinsamen Arbeitsspeicher. Gemeinsam genutzter Speicher ist ein IPC-Mechanismus (Inter-Process Communication), der es mehreren Prozessen ermöglicht, auf einen gemeinsamen Speicherblock zuzugreifen und diesen zu bearbeiten. Die Standardgröße des gemeinsamen Arbeitsspeichers beträgt 64 MB.

Einige Modellserver wie vLLM oder Nvidia Triton verwenden gemeinsamen Arbeitsspeicher, um interne Daten während der Modellinferenzen im Cache zu speichern. Ohne ausreichend gemeinsamen Arbeitsspeicher können einige Modellserver keine Vorhersagen für generative Modelle liefern. Die Größe des erforderlichen gemeinsamen Speichers ist ein Implementierungsdetail Ihres Containers und Modells. Weitere Informationen finden Sie in der Dokumentation Ihres Modellservers.

Da gemeinsam genutzter Arbeitsspeicher auch für die GPU-übergreifende Kommunikation verwendet werden kann, kann die Verwendung von mehr gemeinsam genutztem Arbeitsspeicher die Leistung von Beschleunigern ohne NVLink-Funktionen (z. B. L4) verbessern, wenn der Modellcontainer eine GPU-übergreifende Kommunikation erfordert.

Informationen zum Angeben eines benutzerdefinierten Werts für den gemeinsamen Speicher finden Sie unter Containerbezogene API-Felder.

startupProbe

Eine Startprüfung ist eine optionale Prüfung, mit der festgestellt wird, ob der Container gestartet wurde. Mit dieser Prüfung werden die Systemdiagnose und die Aktivitätsprüfungen bis zum Start des Containers verzögert. So wird verhindert, dass langsam startende Container vorzeitig heruntergefahren werden.

Weitere Informationen finden Sie unter Systemdiagnosen.

healthProbe

Die Systemdiagnose prüft, ob ein Container bereit ist, Traffic anzunehmen. Wenn keine Systemdiagnose angegeben ist, verwendet Vertex AI die Standardsystemdiagnosen, bei denen eine HTTP-Anfrage an den Port des Containers gesendet und nach einer 200 OK-Antwort vom Modellserver gesucht wird.

Wenn Ihr Modellserver mit 200 OK antwortet, bevor das Modell vollständig geladen ist, was insbesondere bei großen Modellen möglich ist, dann ist die Systemdiagnose vorzeitig erfolgreich und Vertex AI leitet den Traffic an den Container weiter, bevor dieser fertig ist.

Geben Sie in diesen Fällen eine benutzerdefinierte Systemdiagnose an, die erst dann erfolgreich ist, wenn das Modell vollständig geladen und bereit ist, Traffic entgegenzunehmen.

Weitere Informationen finden Sie unter Systemdiagnosen.

Beschränkungen

Beachten Sie beim Bereitstellen von Modellen mit generativer KI die folgenden Einschränkungen:

  • Generative KI-Modelle können nur auf einem einzigen Computer bereitgestellt werden. Die Bereitstellung auf mehreren Hosts wird nicht unterstützt.
  • Bei sehr großen Modellen, die nicht in den größten unterstützten vRAM passen, z. B. Llama 3.1 405B, empfehlen wir, sie zu quantisieren.