自行部署的 Llama 模型

Llama 是由 Meta 开发的一组开放模型,您可以在 Vertex AI 上微调和部署这些模型。Llama 提供经过预训练和指令调优的生成文本和多模态模型。

Llama 4

Llama 4 系列模型是一组使用专家组合 (MoE) 架构的多模态模型。通过使用 MoE 架构,参数数量非常大的模型可以针对任何给定输入激活其中的一部分参数,从而实现更高效的推理。此外,Llama 4 还使用了早期融合,它会在初始处理阶段集成文本和视觉信息。这种方法让 Llama 4 模型能够更有效地掌握文本和图片之间复杂细致的关系。Vertex AI 上的 Model Garden 提供两个 Llama 4 模型:Llama 4 Scout 和 Llama 4 Maverick。

如需了解详情,请参阅 Model Garden 中的 Llama 4 模型卡片,或查看 Vertex AI 博文“介绍 Vertex AI 上的 Llama 4”

Llama 4 Maverick

Llama 4 Maverick 是体量最大、功能最强大的 Llama 4 模型,在编码、推理和图片基准方面提供业界领先的功能。它拥有 128 位专家,总共有 4000 亿个参数,其中 170 亿个是活跃参数。Llama 4 Maverick 使用交替的密集层和 MoE 层,其中每个令牌都会激活一个共享专家以及 128 个路由专家之一。您可以将该模型用作支持 FP8 的预训练 (PT) 模型或指令调优 (IT) 模型。该模型基于 200 种语言进行预训练,并通过经过改进的训练后流水线进行了优化,以实现高质量的聊天互动。

Llama 4 Maverick 是多模态模型,上下文长度为 100 万。它适用于高级图片字幕、分析、精确图片理解、视觉问答、富有创意的文本生成、通用 AI 助理,以及需要顶级智能和图片理解的高级聊天机器人。

Llama 4 Scout

Llama 4 Scout 在其大小类别中具有 1, 000 万个令牌的大型上下文窗口,可提供最先进的结果,在多个基准测试中都优于之前的 Llama 几代和其他开源和专有模型。该模型包含 16 位专家,总共有 1,090 亿个参数,其中有 170 亿个是活跃参数,可作为预训练 (PT) 或指令调优 (IT) 模型使用。Llama 4 Scout 适用于长上下文中的检索任务,以及需要对大量信息进行推理处理的任务,例如总结多个大型文档、分析大量用户互动日志以实现个性化,以及跨大型代码库进行推理。

Llama 3.3

Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。

如需了解详情,请参阅 Model Garden 中的 Llama 3.3 模型卡片。

Llama 3.2

借助 Llama 3.2,开发者可以构建和部署最新的生成式 AI 模型和应用,这些模型和应用使用 Llama 的功能来激发新的创新(例如图片推理)。Llama 3.2 还旨在让设备端应用更易于访问。以下列表突出显示了 Llama 3.2 功能:

  • 提供更加私密和个性化的 AI 体验,并可在设备上处理较小的模型。
  • 提供的模型旨在提高效率、缩短延迟时间并提升性能,因此适用于各种应用。
  • 构建在 Llama Stack 之上,可让您更轻松地构建和部署应用。Llama Stack 是一个标准化界面,用于构建规范的工具链组件和代理应用。
  • 支持视觉任务,并采用一种新的模型架构,将图片编码器表示法集成到语言模型。

1B 和 3B 模型是轻量级纯文本模型,支持设备端应用场景,例如多语言本地知识检索、总结和重写。

Llama 11B 和 90B 模型是具有图片推理功能的小型和中型多模态模型。例如,它们可以分析图表中的视觉数据,以提供更准确的回答,并从图片中提取详细信息以生成文本说明。

如需了解详情,请参阅 Model Garden 中的 Llama 3.2 模型卡片。

注意事项

使用 11B 和 90B 时,在发送纯文本提示时没有任何限制。不过,如果您在提示中加入图片,该图片必须位于提示的开头,并且您只能加入一张图片。例如,您不能先添加文本,然后再添加图片。

Llama 3.1

Llama 3.1 多语言的大语言模型 (LLM) 集合是一组经过预训练和指令调优的生成模型,大小为 8B、70B 和 405B(文本输入/文本输出)。Llama 3.1 指令调优的纯文本模型(8B、70B、405B)针对多语言对话应用场景进行了优化,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。

如需了解详情,请参阅 Model Garden 中的 Llama 3.1 模型卡片。

Llama 3

Llama 3 指令调优的模型是一组针对对话应用场景优化的 LLM。在常见行业基准中,Llama 3 模型的表现优于许多可用的开源聊天模型。

如需了解详情,请参阅 Model Garden 中的 Llama 3 模型卡片。

Llama 2

Llama 2 LLM 是一组经过预训练和微调的生成文本模型,大小范围从 7B 到 70B 参数不等。

如需了解详情,请参阅 Model Garden 中的 Llama 2 模型卡片。

Code Llama

Meta 的 Code Llama 模型专为代码合成、理解和指令而设计。

如需了解详情,请参阅 Model Garden 中的 Code Llama 模型卡片。

Llama Guard 3

Llama Guard 3 基于 Llama Guard 2 的功能而构建,并添加了三个新类别:诽谤、选举和代码解释器滥用。此外,此模型支持多语言,其提示格式与 Llama 3 或更高版本的指令模型一致。

如需了解详情,请参阅 Model Garden 中的 Llama Guard 模型卡片。

资源

如需详细了解 Model Garden,请参阅在 Model Garden 中探索 AI 模型