Llama-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Llama-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.
Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.
Verfügbare Llama-Modelle
Die folgenden Llama-Modelle sind von Meta zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.
Für Modelle in der Vorabversion gibt es auch die Option zur eigenständigen Bereitstellung. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst bereitgestellten Llama-Modelle.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E ist das größte und leistungsstärkste Llama 4-Modell mit Programmier-, Logik- und Bildfunktionen. Es hat eine Mixture-of-Experts-Architektur (MoE) mit 17 Milliarden aktiven Parametern von insgesamt 400 Milliarden Parametern und 128 Experten. Llama 4 Maverick 17B-128E verwendet abwechselnd dichte und MoE-Ebenen, wobei jedes Token einen freigegebenen Experten sowie einen der 128 gerouteten Experten aktiviert. Das Modell wurde mit 200 Sprachen vorab trainiert und durch eine optimierte Pipeline nach dem Training für qualitativ hochwertige Chatinteraktionen optimiert.
Llama 4 Maverick 17B-128E ist multimodal und eignet sich für erweiterte Bildunterschriften, Analysen, präzises Bildverständnis, visuelle Fragen und Antworten, kreative Textgenerierung, allgemeine KI-Assistenten und ausgefeilte Chatbots, die eine hohe Intelligenz und Bilderkennung erfordern.
Hinweise
- Pro Anfrage können Sie maximal drei Bilder angeben.
- Der MaaS-Endpunkt verwendet im Gegensatz zu früheren Versionen kein Llama Guard. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
- Batchvorhersagen werden nicht unterstützt.
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E liefert für seine Größenklasse Spitzenergebnisse und übertrifft frühere Llama-Generationen sowie andere offene und proprietäre Modelle in mehreren Benchmarks. Es hat eine MoE-Architektur mit 17 Milliarden aktiven Parametern von insgesamt 109 Milliarden Parametern und 16 Experten.
Llama 4 Scout 17B-16E eignet sich für Abrufaufgaben in langen Kontexten und Aufgaben, die eine Inferenz über große Datenmengen erfordern, z. B. das Zusammenfassen mehrerer großer Dokumente, die Analyse umfangreicher Nutzerinteraktionsprotokolle zur Personalisierung und die Inferenz über große Codebasen.
Hinweise
- Pro Anfrage können Sie maximal drei Bilder angeben.
- Der MaaS-Endpunkt verwendet im Gegensatz zu früheren Versionen kein Llama Guard. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
- Batchvorhersagen werden nicht unterstützt.
Llama 3.3
Llama 3.3 ist ein anweisungensoptimiertes Modell mit 70 Billionen Parametern, das bei der Verwendung für reine Textanwendungen eine bessere Leistung als Llama 3.1 70B und Llama 3.2 90B bietet.
Während des Vorschauzeitraums werden Ihnen die Kosten für die Nutzung des Modells in Rechnung gestellt (Pay-as-you-go). Die Preise für Pay-as-you-go finden Sie in den Preisen des Llama-Modells auf der Preisseite für Vertex AI.
Llama 3.2
Mit Llama 3.2 können Entwickler die neuesten generativen KI-Modelle und ‑Anwendungen erstellen und bereitstellen, die die neuesten Funktionen von Llama nutzen, z. B. Bildreasoning. Llama 3.2 ist außerdem für On-Device-Anwendungen besser zugänglich.
Während des Vorschauzeitraums fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.
Hinweise
Bei der Verwendung von llama-3.2-90b-vision-instruct-maas
gibt es keine Einschränkungen beim Senden von Prompts, die nur aus Text bestehen. Wenn Sie jedoch ein Bild in Ihren Prompt aufnehmen, muss es sich am Anfang des Prompts befinden und Sie dürfen nur ein Bild hinzufügen. Sie können beispielsweise keinen Text und dann ein Bild einfügen.
Llama 3.1
Llama 3.1 ist ein automatisches Regressor-Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen verwenden eine überwachte Feinabstimmung (SFT) und bestärkendes Lernen mit menschlichem Feedback (RLHF), um sich an menschliche Präferenzen für Nützlichkeit und Sicherheit anzupassen.
Llama 3.1 405B ist allgemein verfügbar. Die Kosten werden Ihnen in Rechnung gestellt, sobald Sie das Modell verwenden (Pay-as-you-go). Die Preise für Pay-as-you-go finden Sie in den Preisen des Llama-Modells auf der Preisseite für Vertex AI.
Die anderen Llama 3.1-Modelle befinden sich in der Vorabversion. Für die Vorschaumodelle fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.
Nächste Schritte
Weitere Informationen zur Verwendung von Llama-Modellen