Llama-Modelle


Llama-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Llama-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Verfügbare Llama-Modelle

Die folgenden Llama-Modelle sind von Meta zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.

Llama 3.2

Mit Llama 3.2 können Entwickler die neuesten generativen KI-Modelle und ‑Anwendungen erstellen und bereitstellen, die die neuesten Funktionen von Llama nutzen, z. B. Bildreasoning. Llama 3.2 ist außerdem für On-Device-Anwendungen besser zugänglich.

Zur Modellkarte Llama 3.2

Während des Vorschauzeitraums fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.

Hinweise

Bei der Verwendung von llama-3.2-90b-vision-instruct-maas gibt es keine Einschränkungen beim Senden von Prompts, die nur aus Text bestehen. Wenn Sie jedoch ein Bild in Ihren Prompt aufnehmen, muss es sich am Anfang des Prompts befinden und Sie dürfen nur ein Bild hinzufügen. Sie können beispielsweise keinen Text und dann ein Bild einfügen.

Llama 3.1

Llama 3.1 ist ein automatisches Regressor-Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen verwenden eine überwachte Feinabstimmung (SFT) und bestärkendes Lernen mit menschlichem Feedback (RLHF), um sich an menschliche Präferenzen für Nützlichkeit und Sicherheit anzupassen.

Llama 3.1 405B ist allgemein verfügbar. Die Kosten werden Ihnen in Rechnung gestellt, sobald Sie das Modell verwenden (Pay-as-you-go). Die Preise für Pay-as-you-go finden Sie in den Preisen des Llama-Modells auf der Preisseite für Vertex AI.

Die anderen Llama 3.1-Modelle befinden sich in der Vorabversion. Für die Vorschaumodelle fallen keine Gebühren an. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst gehosteten Llama-Modelle.

Zur Modellkarte Llama 3.1

Llama-Modelle verwenden

Verwenden Sie beim Senden von Anfragen zur Verwendung der Llama-Modelle die folgenden Modellnamen:

  • Verwenden Sie für Llama 3.2 90B (Vorabversion) llama-3.2-90b-vision-instruct-maas.
  • Verwenden Sie für Llama 3.1 405B (GA) llama-3.1-405b-instruct-maas.
  • Verwenden Sie für Llama 3.1 70B (Vorabversion) llama-3.1-70b-instruct-maas.
  • Verwenden Sie für Llama 3.1 8B (Vorabversion) llama-3.1-8b-instruct-maas.

Aufgrund der möglichen Unterschiede zwischen den Modellversionen empfehlen wir die Verwendung der Modellversionen, die ein Suffix enthalten, das mit einem @-Symbol beginnt. Wenn Sie keine Modellversion angeben, wird immer die aktuelle Version verwendet. Dies kann sich versehentlich auf Ihre Workflows auswirken, wenn sich eine Modellversion ändert.

Vorbereitung

Führen Sie die folgenden Schritte aus, um Llama-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sie müssen die erforderlichen Berechtigungen zum Aktivieren und Verwenden von Partnermodellen haben. Weitere Informationen finden Sie unter Erforderliche Berechtigungen erteilen.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:

Streaming-Aufruf an ein Llama-Modell senden

Im folgenden Beispiel wird ein Streaming-Aufruf an ein Llama-Modell gesendet.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Eine Region, die Llama-Modelle unterstützt.
  • MODEL: Der Modellname, den Sie verwenden möchten.
  • ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken.
  • CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
  • MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.

    Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

  • STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
  • ENABLE_LLAMA_GUARD: Ein boolescher Wert, der angibt, ob Llama Guard für Ihre Eingaben und Ausgaben aktiviert werden soll. Standardmäßig ist Llama Guard aktiviert und meldet Antworten, die als unsicher eingestuft werden.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON-Text der Anfrage:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Unäres Aufruf an ein Llama-Modell senden

Im folgenden Beispiel wird ein unärer Aufruf an ein Llama-Modell ausgeführt.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Eine Region, die Llama-Modelle unterstützt.
  • MODEL: Der Modellname, den Sie verwenden möchten.
  • ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken.
  • CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
  • MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.

    Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

  • STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
  • ENABLE_LLAMA_GUARD: Ein boolescher Wert, der angibt, ob Llama Guard für Ihre Eingaben und Ausgaben aktiviert werden soll. Standardmäßig ist Llama Guard aktiviert und meldet Antworten, die als unsicher eingestuft werden.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON-Text der Anfrage:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Gemeldete Antworten

Standardmäßig ist Llama Guard für alle Vorhersagen aktiviert, die Sie mit Llama 3.1-Modellen treffen. Llama Guard trägt zum Schutz von Antworten bei, indem Eingaben und Ausgaben geprüft werden. Wenn Llama Guard feststellt, dass sie unsicher sind, werden sie gemeldet.

Wenn Sie Llama Guard deaktivieren möchten, ändern Sie die Sicherheitseinstellungen des Modells. Weitere Informationen finden Sie im Feld model_safety_settings im Beispiel für Streaming oder Unary.

Vertex AI Studio verwenden

Bei Llama-Modellen können Sie mit Vertex AI Studio in der Google Cloud Console schnell Prototypen für generative KI-Modelle erstellen und testen. In Vertex AI Studio können Sie beispielsweise Antworten von Llama-Modellen mit anderen unterstützten Modellen wie Gemini von Google vergleichen.

Weitere Informationen finden Sie unter Kurzanleitung: Mit Vertex AI Studio Textprompts an Gemini senden.

Verfügbarkeit und Kontingente der Llama-Modellregion

Bei Llama-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) angegeben.

Die unterstützten Regionen, Standardkontingente und die maximale Kontextlänge für jedes Llama-Modell sind in den folgenden Tabellen aufgeführt:

Llama 3.2 90B (Vorabversion)

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 30 QPM 128.000 Token

Llama 3.1 405B (GA)

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 QPM 128.000 Token

Llama 3.1 70B (Vorabversion)

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 QPM 128.000 Token

Llama 3.1 8B (Vorabversion)

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 QPM 128.000 Token

Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.