Vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI en employant les noms de modèles suivants :
- Pour Llama 4 Maverick 17B-128E, utilisez
llama-4-maverick-17b-128e-instruct-maas
. - Pour Llama 4 Scout 17B-16E, utilisez
llama-4-scout-17b-16e-instruct-maas
. - Pour Llama 3.3 70B, utilisez
llama-3.3-70b-instruct-maas
. - Pour Llama 3.2 90B, utilisez
llama-3.2-90b-vision-instruct-maas
. - Pour Llama 3.1 405B, utilisez
llama-3.1-405b-instruct-maas
. - Pour Llama 3.1 70B, utilisez
llama-3.1-70b-instruct-maas
. - Pour Llama 3.1 8B, utilisez
llama-3.1-8b-instruct-maas
.
Avant de commencer
Pour utiliser des modèles Llama avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com
) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez utiliser ce projet au lieu de créer un projet.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Accédez à l'une des fiches de modèle Model Garden suivantes, puis cliquez sur Activer :
- Accéder à la fiche de modèle Llama 4 Maverick 17B-128E
- Accéder à la fiche de modèle Llama 4 Scout 17B-16E
- Accéder à la fiche de modèle Llama 3.3 70B
- Accéder à la fiche de modèle Llama 3.2 90B
- Accéder à la fiche de modèle Llama 3.1 405B
- Accéder à la fiche de modèle Llama 3.1 70B
- Accéder à la fiche de modèle Llama 3.1 8B
- LOCATION : région compatible avec les modèles Llama.
- MODEL : nom du modèle que vous souhaitez utiliser.
- ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à quatre caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
- STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - ENABLE_LLAMA_GUARD : valeur booléenne qui indique si Llama Guard doit être activé sur vos entrées et sorties. Par défaut, Llama Guard est activé et signale les réponses si elles sont jugées non sécurisées.
- LOCATION : région compatible avec les modèles Llama.
- MODEL : nom du modèle que vous souhaitez utiliser.
- ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à quatre caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
- STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - ENABLE_LLAMA_GUARD : valeur booléenne qui indique si Llama Guard doit être activé sur vos entrées et sorties. Par défaut, Llama Guard est activé et signale les réponses si elles sont jugées non sécurisées.
- QPM : 120
- QPM : 120
- QPM : 100
- RPM : 30
- RPM : 60
- RPM : 60
- RPM : 60
Effectuer un appel en flux continu à un modèle Llama
L'exemple suivant effectue un appel en flux continu à un modèle Llama.
REST
Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corps JSON de la requête :
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Effectuer un appel unaire à un modèle Llama
L'exemple suivant effectue un appel unaire à un modèle Llama.
REST
Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corps JSON de la requête :
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Réponses signalées
Par défaut, Llama Guard 3 8B est activé pour toutes les prédictions que vous faites avec les modèles Llama 3.3 et Llama 3.1. Par défaut, Llama Guard 3 11B vision est activé pour toutes les prédictions que vous effectuez avec les modèles Llama 3.2. Llama Guard permet de protéger les réponses en vérifiant les entrées et les sorties. Si Llama Guard détermine qu'elles ne sont pas sûres, il signale la réponse.
Si vous souhaitez désactiver Llama Guard, modifiez le paramètre de sécurité du modèle. Pour en savoir plus, consultez le champ model_safety_settings
dans l'exemple d'appels en streaming ou d'appels unaires.
Utiliser Vertex AI Studio
Pour les modèles Llama, vous pouvez utiliser Vertex AI Studio pour créer rapidement des prototypes et tester des modèles d'IA générative dans la console Google Cloud . Par exemple, vous pouvez utiliser Vertex AI Studio pour comparer les réponses du modèle Llama à celles d'autres modèles acceptés, tels que Google Gemini.
Pour en savoir plus, consultez Démarrage rapide : envoyer des requêtes textuelles à Gemini à l'aide de Vertex AI Studio.
Disponibilité et quotas des régions d'un modèle Llama
Pour les modèles Llama, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM).
Modèle | Région | Quotas | Longueur du contexte |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524 288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1 310 720 | |
Llama 3.3 70B | |||
us-central1 |
|
128 000 | |
Llama 3.2 90B | |||
us-central1 |
|
128 000 | |
Llama 3.1 405B | |||
us-central1 |
|
128 000 | |
Llama 3.1 70B | |||
us-central1 |
|
128 000 | |
Llama 3.1 8B | |||
us-central1 |
|
128 000 |
Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud . Pour en savoir plus sur les quotas, consultez Utiliser des quotas.