Modelos Llama con despliegue automático

Llama es una colección de modelos abiertos desarrollados por Meta que puedes afinar e implementar en Vertex AI. Llama ofrece modelos de texto generativo y multimodales preentrenados y ajustados mediante instrucciones.

Llama 4

La familia de modelos Llama 4 es una colección de modelos multimodales que usan la arquitectura Mixture-of-Experts (MoE). Al usar la arquitectura MoE, los modelos con un número muy elevado de parámetros pueden activar un subconjunto de esos parámetros para cualquier entrada, lo que lleva a inferencias más eficientes. Además, Llama 4 usa la fusión temprana, que integra información de texto y de visión desde las fases de procesamiento iniciales. Este método permite a los modelos de Llama 4 comprender de forma más eficaz las relaciones complejas y sutiles entre el texto y las imágenes. Model Garden en Vertex AI ofrece dos modelos Llama 4: Llama 4 Scout y Llama 4 Maverick.

Para obtener más información, consulta la tarjeta del modelo Llama 4 en Model Garden o lee la entrada de blog sobre la presentación de Llama 4 en Vertex AI.

Llama 4 Maverick

Llama 4 Maverick es el modelo de Llama 4 más grande y potente, y ofrece funciones líderes del sector en las pruebas de referencia de programación, razonamiento e imagen. Cuenta con 17.000 millones de parámetros activos de un total de 400.000 millones de parámetros con 128 expertos. Llama 4 Maverick usa capas densas y MoE alternas, donde cada token activa un experto compartido más uno de los 128 expertos de la ruta. Puedes usar el modelo como modelo preentrenado (PT) o como modelo ajustado mediante instrucciones (IT) con compatibilidad con FP8. El modelo se ha preentrenado en 200 idiomas y se ha optimizado para ofrecer interacciones de chat de alta calidad mediante un proceso posterior al entrenamiento perfeccionado.

Llama 4 Maverick es multimodal y tiene una longitud de contexto de 1 millón de tokens. Es adecuada para generar descripciones de imágenes avanzadas, analizar imágenes, comprender imágenes con precisión, responder preguntas sobre contenido visual, generar textos creativos, usar asistentes de IA de uso general y crear chatbots sofisticados que requieran inteligencia y comprensión de imágenes de primer nivel.

Llama 4 Scout

Llama 4 Scout ofrece resultados de vanguardia para su clase de tamaño con una ventana de contexto de 10 millones de tokens, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con 17.000 millones de parámetros activos de los 109.000 millones de parámetros totales con 16 expertos y está disponible como modelo preentrenado (PT) o ajustado mediante instrucciones (IT). Llama 4 Scout es adecuado para tareas de recuperación en contextos largos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos extensos, analizar registros de interacción de usuarios extensos para la personalización y razonar en grandes bases de código.

Llama 3.3

Llama 3.3 es un modelo de 70.000 millones de parámetros ajustado para instrucciones de solo texto que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto. Además, en algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B.

Para obtener más información, consulta la tarjeta del modelo Llama 3.3 en Model Garden.

Llama 3.2

Llama 3.2 permite a los desarrolladores crear y desplegar los modelos y las aplicaciones de IA generativa más recientes que usan las funciones de Llama para impulsar nuevas innovaciones, como el razonamiento de imágenes. Llama 3.2 también se ha diseñado para que sea más accesible para las aplicaciones en el dispositivo. En la siguiente lista se destacan las funciones de Llama 3.2:

  • Ofrece una experiencia de IA más privada y personalizada, con procesamiento en el dispositivo para modelos más pequeños.
  • Ofrece modelos diseñados para ser más eficientes, con una latencia reducida y un rendimiento mejorado, lo que los hace adecuados para una amplia gama de aplicaciones.
  • Se basa en la pila Llama, lo que facilita la creación y la implementación de aplicaciones. Llama Stack es una interfaz estandarizada para crear componentes de cadena de herramientas canónicos y aplicaciones de agentes.
  • Admite tareas de visión con una nueva arquitectura de modelo que integra representaciones de codificador de imágenes en el modelo de lenguaje.

Los modelos 1B y 3B son modelos ligeros solo de texto que admiten casos prácticos en el dispositivo, como la recuperación de conocimientos locales multilingües, la creación de resúmenes y la reescritura.

Los modelos Llama 11B y 90B son modelos multimodales de tamaño pequeño y mediano con razonamiento de imágenes. Por ejemplo, pueden analizar datos visuales de gráficos para ofrecer respuestas más precisas y extraer detalles de imágenes para generar descripciones de texto.

Para obtener más información, consulta la tarjeta del modelo Llama 3.2 en Model Garden.

Cuestiones importantes

Cuando se usan los modelos 11B y 90B, no hay restricciones al enviar peticiones de solo texto. Sin embargo, si incluyes una imagen en tu petición, esta debe estar al principio de la petición y solo puedes incluir una imagen. Por ejemplo, no puedes incluir texto y, después, una imagen.

Llama 3.1

La colección de modelos de lenguaje extensos (LLMs) multilingües Llama 3.1 es una colección de modelos generativos preentrenados y ajustados mediante instrucciones de 8B, 70B y 405B (texto de entrada y texto de salida). Los modelos de solo texto ajustados para instrucciones de Llama 3.1 (8B, 70B y 405B) están optimizados para casos prácticos de diálogo multilingüe y superan a muchos de los modelos de chat de código abierto y cerrados disponibles en las comparativas habituales del sector.

Para obtener más información, consulta la tarjeta del modelo Llama 3.1 en Model Garden.

Llama 3

Los modelos ajustados para instrucciones de Llama 3 son una colección de LLMs optimizados para casos prácticos de diálogo. Los modelos Llama 3 superan a muchos de los modelos de chat de código abierto disponibles en las métricas comunes del sector.

Para obtener más información, consulta la tarjeta del modelo Llama 3 en Model Garden.

Llama 2

Los LLMs de Llama 2 son una colección de modelos de texto generativo preentrenados y ajustados, que varían en tamaño de 7000 a 70.000 millones de parámetros.

Para obtener más información, consulta la tarjeta del modelo Llama 2 en Model Garden.

Code Llama

Los modelos Code Llama de Meta se han diseñado para la síntesis, la comprensión y las instrucciones de código.

Para obtener más información, consulta la tarjeta del modelo Code Llama en Model Garden.

Llama Guard 3

Llama Guard 3 se basa en las funciones de Llama Guard 2 y añade tres categorías nuevas: difamación, elecciones y abuso del intérprete de código. Además, este modelo es multilingüe y tiene un formato de petición que es coherente con los modelos de instrucciones de Llama 3 o versiones posteriores.

Para obtener más información, consulta la tarjeta del modelo Llama Guard en Model Garden.

Recursos

Para obtener más información sobre Model Garden, consulta el artículo Descubrir modelos de IA en Model Garden.