É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o Llama 4 Maverick 17B-128E, use
llama-4-maverick-17b-128e-instruct-maas
- Para o Llama 4 Scout 17B-16E, use
llama-4-scout-17b-16e-instruct-maas
- Para o Llama 3.3 70B, use
llama-3.3-70b-instruct-maas
- Para o Llama 3.2 90B, use
llama-3.2-90b-vision-instruct-maas
- Para o Llama 3.1 405B, use
llama-3.1-405b-instruct-maas
- Para o Llama 3.1 70B, use
llama-3.1-70b-instruct-maas
- Para o Llama 3.1 8B, use
llama-3.1-8b-instruct-maas
Antes de começar
Para usar modelos Llama com a Vertex AI, faça o
etapas a seguir. A API Vertex AI (aiplatform.googleapis.com
) precisa
estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com
a API do Vertex AI ativada, poderá usar esse projeto em vez de
criar um novo.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
- LOCATION: uma região compatível com modelos Llama.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - ENABLE_LLAMA_GUARD: um booleano que especifica se o Llama Guard será ativado nas suas entradas e saídas. Por padrão, o Llama Guard está ativado e sinaliza respostas se determinar que elas são inseguras.
- LOCATION: uma região compatível com modelos Llama.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - ENABLE_LLAMA_GUARD: um booleano que especifica se o Llama Guard será ativado nas suas entradas e saídas. Por padrão, o Llama Guard está ativado e sinaliza respostas se determinar que elas são inseguras.
- QPM: 60
- QPM: 60
- QPM: 30
- QPM: 30
- QPM: 60
- QPM: 60
- QPM: 60
Fazer uma chamada de streaming para um modelo Llama
O exemplo a seguir faz uma chamada de streaming para um modelo Llama.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON da solicitação:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Fazer uma chamada unária para um modelo Llama
O exemplo a seguir faz uma chamada unária para um modelo Llama.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON da solicitação:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Respostas sinalizadas
Por padrão, o Llama Guard 3 8B é ativado em todas as previsões feitas com os modelos Llama 3.3 e Llama 3.1. Por padrão, a visão do Llama Guard 3 11B é ativada em todas as previsões feitas com os modelos Llama 3.2. O Llama Guard ajuda a proteger as respostas verificando entradas e saídas. Se o Llama Guard determinar que elas não são seguras, a resposta será sinalizada.
Se você quiser desativar o Llama Guard, modifique a configuração de segurança do modelo. Para mais informações, consulte o campo model_safety_settings
no exemplo de streaming ou unário.
Usar o Vertex AI Studio
Para modelos Llama, use o Vertex AI Studio para prototipar e testar rapidamente modelos de IA generativa no console Google Cloud . Por exemplo, é possível usar o Vertex AI Studio para comparar as respostas do modelo Llama com outros modelos compatíveis, como o Gemini do Google.
Para mais informações, consulte Guia de início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade e cotas da região do modelo Llama
Para modelos Llama, aplica-se uma cota para cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).
Modelo | Região | Cotas | Tamanho do contexto |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524.288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1.310.720 | |
Llama 3.3 70B | |||
us-central1 |
|
128.000 | |
Llama 3.2 90B | |||
us-central1 |
|
128.000 | |
Llama 3.1 405B | |||
us-central1 |
|
128.000 | |
Llama 3.1 70B | |||
us-central1 |
|
128.000 | |
Llama 3.1 8B | |||
us-central1 |
|
128.000 |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.