Modelos Llama totalmente gerenciados


Os modelos Llama na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo Llama na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Devido ao Os modelos Llama usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama disponíveis

Os seguintes modelos Llama estão disponíveis na Meta para uso na Vertex AI. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.

Os modelos em Prévia também têm a opção de autodeploy. Se você precisar de um serviço pronto para produção, use os modelos Llama de autodeploy.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o maior e mais eficiente modelo Llama 4 que oferece recursos de programação, raciocínio e imagem. Ele apresenta arquitetura de Mixture-of-Experts (MoE) com 17 bilhões de parâmetros ativos de um total de 400 bilhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista compartilhado e um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por um pipeline refinado pós-treinamento.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendas e análises de imagens avançadas, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de alto nível.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card de modelo do Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele apresenta arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros extensos de interação do usuário para personalização e raciocinar em grandes bases de código.

Acessar o card de modelo do Llama 4

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card de modelo do Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70B ajustado por instrução apenas para texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado em aplicativos apenas de texto.

Acessar o card do modelo Llama 3.3 70B

Durante o período de pré-lançamento, você paga conforme usa o modelo (pagamento por utilização). Para preços de pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.

Llama 3.2

O Llama 3.2 permite que os desenvolvedores criem e implantem os modelos de IA generativa mais recentes e aplicativos que usam os recursos mais recentes do Llama, como o raciocínio de imagem. O Llama 3.2 também foi projetado para ser mais acessível para aplicativos no dispositivo.

Acessar o card do modelo Llama 3.2 90B

Não há cobranças durante o Período de pré-lançamento. Se você precisar pronto para produção, use os modelos Llama auto-hospedados.

Considerações

Ao usar o llama-3.2-90b-vision-instruct-maas, não há restrições ao enviar somente comandos de texto. No entanto, se você incluir uma imagem no comando, ela precisa estar no início do comando, e você só pode incluir uma imagem. Não é possível, por exemplo, incluir texto e uma imagem.

Llama 3.1

O Llama 3.1 é um modelo de linguagem autoregressivo que usa uma arquitetura de transformador. As versões ajustadas usam o ajuste supervisionado (SFT, na sigla em inglês) e aprendizado por reforço com feedback humano (RLHF) para se alinhar com o humano preferências de utilidade e segurança.

O Llama 3.1 405B está em disponibilidade geral. Você paga conforme usa o modelo (pagamento por utilização). Para preços de pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.

Os outros modelos Llama 3.1 estão em prévia. Não há cobranças para os modelos de pré-lançamento. Se você precisar de um serviço pronto para produção, use os modelos Llama auto-hospedados.

Acessar o card do modelo Llama 3.1

A seguir

Saiba como usar os modelos Llama.