Modelos Llama


Os modelos Llama na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo Llama na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Devido ao Os modelos Llama usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos de Llama disponíveis

Os seguintes modelos Llama estão disponíveis na Meta para uso na Vertex AI. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.

Os modelos que estão na pré-visualização também têm a opção de autoimplantação. Se você precisa de um serviço pronto para produção, use os modelos Llama de autoimplantação.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais eficiente, que oferece recursos de programação, raciocínio e imagem. Ele tem arquitetura de mistura de especialistas (MoE, na sigla em inglês) com 17 bilhões de parâmetros ativos de 400 bilhões de parâmetros totais e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas alternadas densas e MoE, em que cada token ativa um especialista compartilhado e um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por meio de um pipeline pós-treinamento refinado.

O Llama 4 Maverick 17B-128E é multimodal e é adequado para legendas avançadas de imagens, análises, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de primeira linha.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie as solicitações e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • Para chamadas unárias, o tamanho máximo do payload é de 1,5 MB. Use chamadas de streaming para solicitações maiores.
  • As previsões em lote não são compatíveis.
Acessar o card de modelo do Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho que supera as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele tem arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros de interação do usuário para personalização e raciocínio em grandes bases de código.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie as solicitações e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • Para chamadas unárias, o tamanho máximo do payload é de 1,5 MB. Use chamadas de streaming para solicitações maiores.
  • As previsões em lote não são compatíveis.
Acessar o card de modelo do Llama 4

Llama 3.3

O Llama 3.3 é um modelo ajustado por instrução de 70B apenas para texto que oferece desempenho melhor em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos somente de texto.

Acessar o card de modelo do Llama 3.3

Durante o período de pré-lançamento, você vai receber cobranças conforme o uso do modelo (pagamento por utilização). Para pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.

Llama 3.2

O Llama 3.2 permite que os desenvolvedores criem e implantem os modelos de IA generativa mais recentes e aplicativos que usam os recursos mais recentes do Llama, como o raciocínio de imagem. O Llama 3.2 também foi projetado para ser mais acessível para aplicativos no dispositivo.

Acessar o card do modelo Llama 3.2

Não há cobranças durante o Período de pré-lançamento. Se você precisar pronto para produção, use os modelos Llama auto-hospedados.

Considerações

Ao usar llama-3.2-90b-vision-instruct-maas, não há restrições ao enviar somente comandos de texto. No entanto, se você incluir uma imagem no comando, ela precisa estar no início do comando, e você só pode incluir uma imagem. Não é possível, por exemplo, incluir texto e uma imagem.

Llama 3.1

O Llama 3.1 é um modelo de linguagem autoregressivo que usa uma arquitetura de transformador. As versões ajustadas usam o ajuste supervisionado (SFT, na sigla em inglês) e aprendizado por reforço com feedback humano (RLHF) para se alinhar com o humano preferências de utilidade e segurança.

O Llama 3.1 405B está disponível para todos. Você vai receber cobranças conforme usa o modelo (pagamento por uso). Para preços de pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.

Os outros modelos do Llama 3.1 estão em fase de prévia. Não há cobranças para os modelos de pré-lançamento. Se você precisar de um serviço pronto para produção, use os modelos Llama auto-hospedados.

Acessar o card de modelo Llama 3.1

Usar modelos de Llama

Ao enviar solicitações para usar os modelos do Llama, use o modelo a seguir: nomes:

  • Para o Llama 4 Maverick 17B-128E (pré-lançamento), use llama-4-maverick-17b-128e-instruct-maas.
  • Para o Llama 4 Scout 17B-16E (pré-lançamento), use llama-4-scout-17b-16e-instruct-maas.
  • Para o Llama 3.3 70B (pré-lançamento), use llama-3.3-70b-instruct-maas.
  • Para o Llama 3.2 90B (pré-lançamento), use llama-3.2-90b-vision-instruct-maas.
  • Para o Llama 3.1 405B (GA), use llama-3.1-405b-instruct-maas.
  • Para o Llama 3.1 70B (pré-lançamento), use llama-3.1-70b-instruct-maas.
  • Para o Llama 3.1 8B (pré-lançamento), use llama-3.1-8b-instruct-maas.

Recomendamos usar as versões de modelo que incluem um sufixo que começa com o símbolo @ devido às possíveis diferenças entre de versões de modelo. Se você não especificar uma versão do modelo, a versão mais recente será sempre usado, o que pode afetar inadvertidamente seus fluxos de trabalho quando uma versão do modelo mudanças.

Antes de começar

Para usar modelos Llama com a Vertex AI, faça o etapas a seguir. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Verifique se você tem as permissões necessárias para ativar e usar de modelos de machine learning. Para mais informações, consulte Conceder as permissões necessárias.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Acesse um dos seguintes cards de modelo do Model Garden e clique em enable:

Fazer uma chamada de streaming para um modelo Llama

O exemplo a seguir faz uma chamada de streaming para um modelo Llama.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • LOCATION: uma região compatível com modelos Llama.
  • MODEL: o nome do modelo que você quer usar.
  • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
  • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
  • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

    Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

  • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
  • ENABLE_LLAMA_GUARD: booleano que especifica se o Llama Guard será ativado nas entradas e saídas. Por padrão, o Llama Guard é ativado e sinaliza respostas se determinar que elas não são seguras.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON da solicitação:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Fazer uma chamada unária para um modelo Llama

O exemplo a seguir faz uma chamada unária para um modelo Llama.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • LOCATION: uma região compatível com modelos Llama.
  • MODEL: o nome do modelo que você quer usar.
  • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
  • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
  • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

    Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

  • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
  • ENABLE_LLAMA_GUARD: booleano que especifica se o Llama Guard será ativado nas entradas e saídas. Por padrão, o Llama Guard é ativado e sinaliza respostas se determinar que elas não são seguras.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON da solicitação:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Respostas sinalizadas

Por padrão, o Llama Guard 3 8B é ativado em todas as previsões feitas com os modelos Llama 3.3 e Llama 3.1. Por padrão, a visão do Llama Guard 3 11B está ativada em todas as previsões feitas com os modelos Llama 3.2. O Llama Guard ajuda a proteger as respostas verificando entradas e saídas. Se o Llama Guard determinar que eles não são seguros, ele sinalizará a resposta.

Se você quiser desativar o Llama Guard, modifique a configuração de segurança do modelo. Para mais informações, consulte o campo model_safety_settings no exemplo de streaming ou unário.

Usar o Vertex AI Studio

Para modelos Llama, use o Vertex AI Studio para prototipar e testar rapidamente modelos de IA generativa no console do Google Cloud. Por exemplo, é possível usar o Vertex AI Studio para comparar as respostas do modelo Llama com outros modelos compatíveis, como o Gemini do Google.

Para mais informações, consulte Guia de início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.

Disponibilidade e cotas da região do modelo Llama

Para modelos Llama, aplica-se uma cota para cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).

As regiões compatíveis, as cotas padrão e o tamanho máximo do contexto de cada modelo lama listado nas tabelas abaixo:

Llama 4 Maverick 17B-128E (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-east5 60 QPM 524.288 tokens

Llama 4 Scout 17B-16E (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-east5 60 QPM 1.310.720 tokens

Llama 3.3 70B (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 30 QPM 128.000 tokens

Llama 3.2 90B (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 30 QPM 128.000 tokens

Llama 3.1 405B (disponibilidade geral)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM 128.000 tokens

Llama 3.1 70B (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM 128.000 tokens

Llama 3.1 8B (pré-lançamento)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM 128.000 tokens

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.