Modelos Llama totalmente gestionados


Los modelos Llama en Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo Llama en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos Llama usan una API gestionada, no es necesario aprovisionar ni gestionar ninguna infraestructura.

Puedes transmitir tus respuestas para reducir la latencia que perciben los usuarios finales. Una respuesta en streaming usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos Llama disponibles

Meta ofrece los siguientes modelos Llama para usarlos en Vertex AI. Para acceder a un modelo Llama, ve a su tarjeta de modelo de Model Garden.

Los modelos que están en Vista previa también tienen la opción de autodespliegue. Si necesitas un servicio listo para producción, usa los modelos Llama autodesplegables.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y potente, y ofrece funciones de programación, razonamiento e imagen. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de un total de 400.000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y MoE alternas, donde cada token activa un experto compartido más uno de los 128 expertos de la ruta. El modelo se ha preentrenado en 200 idiomas y se ha optimizado para ofrecer interacciones de chat de alta calidad mediante un proceso posterior al entrenamiento perfeccionado.

Llama 4 Maverick 17B-128E es multimodal y está diseñado para la generación de subtítulos de imágenes avanzada, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia y comprensión de imágenes de primer nivel.

Cuestiones importantes

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, despliega Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
  • No se admiten predicciones por lotes.

Ir a la tarjeta del modelo Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que supera a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de los 109.000 millones de parámetros totales y 16 expertos.

Llama 4 Scout 17B-16E es adecuado para tareas de recuperación en contextos largos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros de interacción de usuarios extensos para la personalización y razonar en grandes bases de código.

Ir a la tarjeta del modelo Llama 4

Cuestiones importantes

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, despliega Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
  • No se admiten predicciones por lotes.

Ir a la tarjeta del modelo Llama 4

Llama 3.3

Llama 3.3 es un modelo de 70.000 millones de parámetros ajustado para instrucciones de solo texto que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto.

Ir a la tarjeta del modelo Llama 3.3 70B

Durante el periodo de vista previa, se te cobrará a medida que uses el modelo (pago por uso). Para consultar los precios de pago por uso, consulta los precios de los modelos Llama en la página de precios de Vertex AI.

Llama 3.2

Llama 3.2 permite a los desarrolladores crear y desplegar los modelos y las aplicaciones de IA generativa más recientes que usan las funciones más recientes de Llama, como el razonamiento de imágenes. Llama 3.2 también se ha diseñado para que sea más accesible para las aplicaciones en el dispositivo.

Ir a la tarjeta del modelo Llama 3.2 90B

No se aplican cargos durante el periodo de vista previa. Si necesitas un servicio listo para producción, usa los modelos Llama autohospedados.

Cuestiones importantes

Cuando se usa llama-3.2-90b-vision-instruct-maas, no hay restricciones al enviar peticiones que solo contengan texto. Sin embargo, si incluyes una imagen en tu petición, esta debe estar al principio de la petición y solo puedes incluir una imagen. Por ejemplo, no puedes incluir texto y, después, una imagen.

Llama 3.1

Llama 3.1 es un modelo de lenguaje autorregresivo que usa una arquitectura de transformador optimizada. Las versiones optimizadas usan el ajuste de precisión supervisado (SFT) y el aprendizaje por refuerzo con retroalimentación humana (RLHF) para adaptarse a las preferencias de las personas en cuanto a utilidad y seguridad.

Llama 3.1 405B está disponible de forma general. Se te cobrará a medida que uses el modelo (pago por uso). Para consultar los precios de pago por uso, consulta los precios del modelo Llama en la página de precios de Vertex AI.

Los demás modelos de Llama 3.1 están en versión preliminar. No se aplican cargos por los modelos de vista previa. Si necesitas un servicio listo para producción, usa los modelos Llama autohospedados.

Ir a la tarjeta del modelo Llama 3.1

Siguientes pasos

Consulta cómo usar los modelos Llama.