Os modelos Llama na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo Llama na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Devido ao Os modelos Llama usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.
É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos de Llama disponíveis
Os seguintes modelos Llama estão disponíveis na Meta para uso na Vertex AI. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.
Os modelos que estão na pré-visualização também têm a opção de autoimplantação. Se você precisar de um serviço pronto para produção, use os modelos Llama de autoimplantação.
Llama 4 Maverick 17B-128E
O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais eficiente, que oferece recursos de programação, raciocínio e imagem. Ele tem arquitetura de mistura de especialistas (MoE, na sigla em inglês) com 17 bilhões de parâmetros ativos de 400 bilhões de parâmetros totais e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas alternadas densas e MoE, em que cada token ativa um especialista compartilhado e um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por meio de um pipeline pós-treinamento refinado.
O Llama 4 Maverick 17B-128E é multimodal e adequado para legendas avançadas de imagens, análises, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de primeira linha.
Considerações
- Você pode incluir no máximo três imagens por solicitação.
- O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie as solicitações e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
- As previsões em lote não são compatíveis.
Acessar o card de modelo do Llama 4
Llama 4 Scout 17B-16E
O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho que supera as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele tem arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.
O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros de interação do usuário para personalização e raciocínio em grandes bases de código.
Acessar o card de modelo do Llama 4
Considerações
- Você pode incluir no máximo três imagens por solicitação.
- O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie as solicitações e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
- As previsões em lote não são compatíveis.
Acessar o card de modelo do Llama 4
Llama 3.3
O Llama 3.3 é um modelo ajustado por instrução de 70B apenas para texto que oferece desempenho melhor em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos somente de texto.
Acessar o card de modelo do Llama 3.3 70B
Durante o período de pré-lançamento, você vai receber cobranças conforme o uso do modelo (pagamento por utilização). Para pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.
Llama 3.2
O Llama 3.2 permite que os desenvolvedores criem e implantem os modelos de IA generativa mais recentes e aplicativos que usam os recursos mais recentes do Llama, como o raciocínio de imagem. O Llama 3.2 também foi projetado para ser mais acessível para aplicativos no dispositivo.
Acessar o card do modelo Llama 3.2 90B
Não há cobranças durante o Período de pré-lançamento. Se você precisar pronto para produção, use os modelos Llama auto-hospedados.
Considerações
Ao usar llama-3.2-90b-vision-instruct-maas
, não há restrições ao enviar
somente comandos de texto. No entanto, se você incluir uma imagem no comando, ela
precisa estar no início do comando, e você só pode incluir uma imagem. Não é possível, por exemplo, incluir texto e uma imagem.
Llama 3.1
O Llama 3.1 é um modelo de linguagem autoregressivo que usa uma arquitetura de transformador. As versões ajustadas usam o ajuste supervisionado (SFT, na sigla em inglês) e aprendizado por reforço com feedback humano (RLHF) para se alinhar com o humano preferências de utilidade e segurança.
O Llama 3.1 405B está disponível para todos. Você vai receber cobranças conforme usa o modelo (pagamento por uso). Para preços de pagamento por uso, consulte os preços do modelo Llama na página de preços da Vertex AI.
Os outros modelos do Llama 3.1 estão em fase de prévia. Não há cobranças para os modelos de pré-lançamento. Se você precisar de um serviço pronto para produção, use os modelos Llama auto-hospedados.
Acessar o card de modelo Llama 3.1
A seguir
Saiba como usar os modelos do Llama.