Puedes usar comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:
- Para Llama 4 Maverick 17B-128E, usa
llama-4-maverick-17b-128e-instruct-maas
. - Para Llama 4 Scout 17B-16E, usa
llama-4-scout-17b-16e-instruct-maas
. - Para Llama 3.3 70B, usa
llama-3.3-70b-instruct-maas
. - Para Llama 3.2 90B, usa
llama-3.2-90b-vision-instruct-maas
. - Para Llama 3.1 405b, usa
llama-3.1-405b-instruct-maas
. - Para Llama 3.1 70B, usa
llama-3.1-70b-instruct-maas
. - Para Llama 3.1 8B, usa
llama-3.1-8b-instruct-maas
.
Antes de comenzar
Para usar los modelos de Llama con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com
) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en Habilitar:
- Ir a la tarjeta de modelo de Llama 4 Maverick 17B-128E
- Ir a la tarjeta de modelo de Llama 4 Scout 17B-16E
- Ir a la tarjeta de modelo de Llama 3.3 70B
- Ir a la tarjeta de modelo de Llama 3.2 90B
- Ir a la tarjeta de modelo de Llama 3.1 405b
- Ir a la tarjeta de modelo de Llama 3.1 70B
- Ir a la tarjeta de modelo de Llama 3.1 8B
- LOCATION: Una región que admite modelos de Llama.
- MODEL: El nombre del modelo que deseas usar.
- ROLE: El rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos operan con turnos alternativos deuser
yassistant
. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo. - CONTENT: el contenido, como texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene casi cuatro caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.
- STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como
true
para transmitir la respuesta yfalse
para mostrar la respuesta de una sola vez. - ENABLE_LLAMA_GUARD: Es un valor booleano que especifica si se debe habilitar Llama Guard en tus entradas y salidas. De forma predeterminada, Llama Guard está habilitado y marca las respuestas si determina que son inseguras.
- LOCATION: Una región que admite modelos de Llama.
- MODEL: El nombre del modelo que deseas usar.
- ROLE: El rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos operan con turnos alternativos deuser
yassistant
. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo. - CONTENT: el contenido, como texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene casi cuatro caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.
- STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como
true
para transmitir la respuesta yfalse
para mostrar la respuesta de una sola vez. - ENABLE_LLAMA_GUARD: Es un valor booleano que especifica si se debe habilitar Llama Guard en tus entradas y salidas. De forma predeterminada, Llama Guard está habilitado y marca las respuestas si determina que son inseguras.
- QPM: 60
- QPM: 60
- QPM: 30
- QPM: 30
- QPM: 60
- QPM: 60
- QPM: 60
Realiza una llamada de transmisión a un modelo de Llama
En el siguiente ejemplo, se realiza una llamada de transmisión a un modelo de Llama.
REST
Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Cuerpo JSON de la solicitud:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
Realiza una llamada unaria a un modelo de Llama
En el siguiente ejemplo, se realiza una llamada unaria a un modelo de Llama.
REST
Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Cuerpo JSON de la solicitud:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
Respuestas reportadas
De forma predeterminada, Llama Guard 3 8B está habilitado en todas las predicciones que realices con los modelos Llama 3.3 y Llama 3.1. De forma predeterminada, la visión de Llama Guard 3 11B está habilitada en todas las predicciones que realices con los modelos de Llama 3.2. Llama Guard ayuda a proteger las respuestas verificando las entradas y salidas. Si Llama Guard determina que no son seguras, marca las respuestas.
Si quieres inhabilitar Llama Guard, modifica la configuración de seguridad del modelo. Para obtener más información, consulta el campo model_safety_settings
en el ejemplo de transmisión o unario.
Usa Vertex AI Studio
En el caso de los modelos de Llama, puedes usar Vertex AI Studio para crear prototipos y probar modelos de IA generativa rápidamente en la consola de Google Cloud . Por ejemplo, puedes usar Vertex AI Studio para comparar las respuestas del modelo de Llama con las de otros modelos compatibles, como Gemini de Google.
Para obtener más información, consulta Guía de inicio rápido: Envía instrucciones de texto a Gemini con Vertex AI Studio.
Disponibilidad y cuotas de la región del modelo de Llama
En el caso de los modelos Llama, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM).
Modelo | Región | Cuotas | Longitud del contexto |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524,288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1,310,720 | |
Llama 3.3 70B | |||
us-central1 |
|
128,000 | |
Llama 3.2 90B | |||
us-central1 |
|
128,000 | |
Llama 3.1 405b | |||
us-central1 |
|
128,000 | |
Llama 3.1 70B | |||
us-central1 |
|
128,000 | |
Llama 3.1 8B | |||
us-central1 |
|
128,000 |
Si quieres aumentar tus cuotas para la IA generativa en Vertex AI, puedes usar la Google Cloud consola para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.