Vollständig verwaltete Llama-Modelle


Llama-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Llama-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Verfügbare Llama-Modelle

Die folgenden Llama-Modelle sind von Meta zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.

Für Modelle, die sich in der Vorschau befinden, ist auch die Option zur Selbstbereitstellung verfügbar. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst bereitgestellten Llama-Modelle.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E ist das größte und leistungsstärkste Llama 4-Modell, das Funktionen für Programmierung, Reasoning und Bilder bietet. Das Modell basiert auf der Mixture-of-Experts-Architektur (MoE) mit 17 Mrd. aktiven Parametern von insgesamt 400 Mrd. Parametern und 128 Experten. Llama 4 Maverick 17B-128E verwendet abwechselnd dichte und MoE-Ebenen. Dabei wird für jedes Token ein gemeinsamer Experte sowie einer der 128 weitergeleiteten Experten aktiviert. Das Modell wurde in 200 Sprachen vortrainiert und durch eine optimierte Post-Training-Pipeline für hochwertige Chat-Interaktionen optimiert.

Llama 4 Maverick 17B-128E ist multimodal und eignet sich für die erweiterte Bildbeschriftung, Analyse, präzise Bilderkennung, visuelle Fragen und Antworten, kreative Textgenerierung, KI-Assistenten für allgemeine Zwecke und anspruchsvolle Chatbots, die erstklassige Intelligenz und Bilderkennung erfordern.

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird im Gegensatz zu früheren Versionen nicht Llama Guard verwendet. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E liefert für seine Größenklasse erstklassige Ergebnisse, die die vorherigen Llama-Generationen und andere offene und proprietäre Modelle bei mehreren Benchmarks übertreffen. Das Modell basiert auf einer MoE-Architektur mit 17 Mrd. aktiven Parametern von insgesamt 109 Mrd. Parametern und 16 Experten.

Llama 4 Scout 17B-16E eignet sich für Abrufvorgänge in langen Kontexten und für Aufgaben, die eine Analyse großer Mengen an Informationen erfordern, z. B. das Zusammenfassen mehrerer großer Dokumente, die Analyse umfangreicher Protokolle von Nutzerinteraktionen zur Personalisierung und die Analyse großer Codebasen.

Zur Modellkarte Llama 4

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird im Gegensatz zu früheren Versionen nicht Llama Guard verwendet. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 3.3

Llama 3.3 ist ein reines Textmodell mit 70 Milliarden Parametern, das auf Anweisungen abgestimmt ist und im Vergleich zu Llama 3.1 70B und Llama 3.2 90B eine verbesserte Leistung bei reinen Textanwendungen bietet.

Zur Modellkarte Llama 3.3 70B

Während des Vorschauzeitraums zahlen Sie für die Nutzung des Modells (Pay-as-you-go). Die „Pay-as-you-go“-Preise finden Sie in den Preisen des Llama-Modells auf der Preisseite für Vertex AI.

Llama 3.2

Mit Llama 3.2 können Entwickler die neuesten generativen KI-Modelle und ‑Anwendungen erstellen und bereitstellen, die die neuesten Funktionen von Llama nutzen, z. B. Bildreasoning. Llama 3.2 ist außerdem für On-Device-Anwendungen besser zugänglich.

Zur Modellkarte Llama 3.2 90B

Während des Vorschauzeitraums fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.

Hinweise

Bei der Verwendung von llama-3.2-90b-vision-instruct-maas gibt es keine Einschränkungen beim Senden von Prompts, die nur aus Text bestehen. Wenn Sie jedoch ein Bild in Ihren Prompt aufnehmen, muss es sich am Anfang des Prompts befinden und Sie dürfen nur ein Bild hinzufügen. Sie können beispielsweise keinen Text und dann ein Bild einfügen.

Llama 3.1

Llama 3.1 ist ein automatisches Regressor-Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen verwenden eine überwachte Feinabstimmung (SFT) und bestärkendes Lernen mit menschlichem Feedback (RLHF), um sich an menschliche Präferenzen für Nützlichkeit und Sicherheit anzupassen.

Llama 3.1 405B ist allgemein verfügbar. Die Abrechnung erfolgt nutzungsabhängig (Pay-as-you-go). Die „Pay-as-you-go“-Preise finden Sie in den Preisen des Llama-Modells auf der Preisseite für Vertex AI.

Die anderen Llama 3.1-Modelle sind in der Vorschau verfügbar. Für die Vorschau-Modelle fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.

Zur Modellkarte Llama 3.1

Nächste Schritte

Informationen zur Verwendung von Llama-Modellen