Los modelos de Llama en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Llama en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de Llama usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.
Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.
Modelos de Llama disponibles
Los siguientes modelos de Llama están disponibles en Meta para usarse en Vertex AI. Para acceder a un modelo de Llama, ve a su tarjeta de modelo de Model Garden.
Los modelos que se encuentran en Vista previa también tienen la opción de autodespliegue. Si necesitas un servicio listo para la producción, usa los modelos de Llama autoadministrados.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E es el modelo Llama 4 más grande y capaz que ofrece capacidades de programación, razonamiento y generación de imágenes. Cuenta con una arquitectura de combinación de expertos (MoE) con 17,000 millones de parámetros activos de un total de 400,000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido más uno de los 128 expertos que se enrutan. El modelo se entrenó previamente en 200 idiomas y se optimizó para interacciones de chat de alta calidad a través de una canalización posterior al entrenamiento perfeccionada.
Llama 4 Maverick 17B-128E es multimodal y es adecuado para la generación avanzada de leyendas de imágenes, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia de primer nivel y comprensión de imágenes.
Consideraciones
- Puedes incluir un máximo de tres imágenes por solicitud.
- A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, impleméntalo desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que superan a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de MoE con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales y 16 expertos.
Llama 4 Scout 17B-16E es adecuado para tareas de recuperación dentro de contextos largos y tareas que exigen razonamiento sobre grandes cantidades de información, como resumir varios documentos extensos, analizar registros extensos de interacción del usuario para la personalización y razonar en grandes bases de código.
Ir a la tarjeta de modelo de Llama 4
Consideraciones
- Puedes incluir un máximo de tres imágenes por solicitud.
- A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, impleméntalo desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 3.3
Llama 3.3 es un modelo de solo texto de 70B ajustado por instrucciones que proporciona un rendimiento mejorado en relación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto.
Ir a la tarjeta de modelo de Llama 3.3 70B
Durante el período de versión preliminar, se te cobrará a medida que uses el modelo (pago por uso). Para conocer los precios del pago por uso, consulta los precios del modelo Llama en la página de precios de Vertex AI.
Llama 3.2
Llama 3.2 permite a los desarrolladores compilar e implementar los modelos y las aplicaciones de IA generativa más recientes que usan las capacidades más recientes de Llama, como el razonamiento de imágenes. Llama 3.2 también está diseñado para ser más accesible para las aplicaciones integradas en el dispositivo.
Ir a la tarjeta de modelo de Llama 3.2 90B
No se aplican cargos durante el período de vista previa. Si necesitas un servicio listo para producción, usa los modelos de Llama alojados por tu cuenta.
Consideraciones
Cuando usas llama-3.2-90b-vision-instruct-maas
, no hay restricciones cuando envías instrucciones de solo texto. Sin embargo, si incluyes una imagen en la instrucción, esta debe estar al comienzo y solo puedes incluir una. Por ejemplo, no puedes incluir texto y, luego, una imagen.
Llama 3.1
Llama 3.1 es un modelo de lenguaje de regresión automática que usa una arquitectura de transformador optimizada. Las versiones ajustadas utilizan el ajuste supervisado (SFT) y el aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinearse con las preferencias humanas en cuanto a utilidad y seguridad.
Llama 3.1 405b está disponible de forma general. Se te cobra a medida que usas el modelo (pago por uso). Para conocer los precios del pago por uso, consulta los precios del modelo Llama en la página de precios de Vertex AI.
Los otros modelos de Llama 3.1 están en versión preliminar. No se aplican cargos por los modelos de la versión preliminar. Si necesitas un servicio listo para producción, usa los modelos de Llama alojados por tu cuenta.
Ir a la tarjeta de modelo de Llama 3.1
¿Qué sigue?
Obtén más información para usar los modelos de Llama.