Diese Seite wurde von der Cloud Translation API übersetzt.

Llama-Modelle

Sie können curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:

Verwenden Sie für Llama 4 Maverick 17B-128E llama-4-maverick-17b-128e-instruct-maas.
Verwenden Sie für Llama 4 Scout 17B-16E llama-4-scout-17b-16e-instruct-maas.
Verwenden Sie für Llama 3.3 70B llama-3.3-70b-instruct-maas.
Verwenden Sie für Llama 3.2 90B llama-3.2-90b-vision-instruct-maas.
Verwenden Sie für Llama 3.1 405B llama-3.1-405b-instruct-maas.
Verwenden Sie für Llama 3.1 70B llama-3.1-70b-instruct-maas.
Verwenden Sie für Llama 3.1 8B llama-3.1-8b-instruct-maas.

Hinweise

Führen Sie die folgenden Schritte aus, um Llama-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:

Streaming-Aufruf an ein Llama-Modell senden

Im folgenden Beispiel wird ein Streaming-Aufruf an ein Llama-Modell gesendet.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Llama-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
ENABLE_LLAMA_GUARD: Ein boolescher Wert, der angibt, ob Llama Guard für Ihre Eingaben und Ausgaben aktiviert werden soll. Standardmäßig ist Llama Guard aktiviert und kennzeichnet Antworten, wenn es feststellt, dass sie unsicher sind.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON-Text der Anfrage:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Unäres Aufruf an ein Llama-Modell senden

Im folgenden Beispiel wird ein unärer Aufruf an ein Llama-Modell ausgeführt.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Llama-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
ENABLE_LLAMA_GUARD: Ein boolescher Wert, der angibt, ob Llama Guard für Ihre Eingaben und Ausgaben aktiviert werden soll. Standardmäßig ist Llama Guard aktiviert und kennzeichnet Antworten, wenn es feststellt, dass sie unsicher sind.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

JSON-Text der Anfrage:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Gemeldete Antworten

Standardmäßig ist Llama Guard 3 8B für alle Vorhersagen aktiviert, die Sie mit Llama 3.3- und Llama 3.1-Modellen treffen. Standardmäßig ist Llama Guard 3 11B Vision für alle Vorhersagen aktiviert, die Sie mit Llama 3.2-Modellen treffen. Llama Guard trägt zum Schutz von Antworten bei, indem Eingaben und Ausgaben geprüft werden. Wenn Llama Guard feststellt, dass sie unsicher sind, werden sie gemeldet.

Wenn Sie Llama Guard deaktivieren möchten, ändern Sie die Sicherheitseinstellungen des Modells. Weitere Informationen finden Sie im Feld model_safety_settings im Beispiel für Streaming oder Unary.

Vertex AI Studio verwenden

Für Llama-Modelle können Sie Vertex AI Studio verwenden, um schnell Prototypen für generative KI-Modelle zu erstellen und diese in der Google Cloud Console zu testen. Sie können beispielsweise mit Vertex AI Studio die Antworten von Llama-Modellen mit anderen unterstützten Modellen wie Gemini von Google vergleichen.

Weitere Informationen finden Sie unter Kurzanleitung: Text-Prompts mit Vertex AI Studio an Gemini senden.

Verfügbarkeit und Kontingente der Llama-Modellregion

Bei Llama-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) angegeben.

Modell	Region	Kontingente	Kontextlänge
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`	QPM: 60	524.288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`	QPM: 60	1.310.720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 30	128.000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30	128.000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60	128.000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60	128.000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60	128.000

Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.

Llama-Modelle Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweise

Streaming-Aufruf an ein Llama-Modell senden

REST

curl

PowerShell

Antwort

Unäres Aufruf an ein Llama-Modell senden

REST

curl

PowerShell

Antwort

Gemeldete Antworten

Vertex AI Studio verwenden

Verfügbarkeit und Kontingente der Llama-Modellregion

Llama-Modelle