全托管式 Llama 模型


Vertex AI 上的 Llama 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 Llama 模型,请直接向 Vertex AI API 端点发送请求。由于 Llama 模型使用托管式 API,因此无需预配或管理基础设施。

您可以流式传输回答,以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 Llama 模型

Meta 提供了以下 Llama 模型,可在 Vertex AI 中使用。如需访问 Llama 模型,请前往其 Model Garden 模型卡片。

预览版模型也提供自行部署选项。如果您需要可用于生产用途的服务,请使用自行部署的 Llama 模型

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E 是 Llama 4 中最大、功能最强的模型,提供编码、推理和图像功能。它采用专家组合 (MoE) 架构,总共有 4,000 亿个参数,其中 170 亿个是活跃参数,并且有 128 个专家。Llama 4 Maverick 17B-128E 使用交替的密集层和 MoE 层,其中每个令牌都会激活一个共享专家以及 128 个路由专家之一。该模型基于 200 种语言进行预训练,并通过经过改进的后训练流水线进行了优化,以实现高质量的聊天互动。

Llama 4 Maverick 17B-128E 是多模态模型,适用于高级图片注释、分析、精确图片理解、视觉问答、富有创意的文本生成、通用 AI 助理,以及需要顶级智能和图片理解的复杂聊天机器人。

注意事项

  • 每个请求最多可以包含 3 张图片。
  • 与之前的版本不同,MaaS 端点不使用 Llama Guard。如需使用 Llama Guard,请从 Model Garden 部署 Llama Guard,然后将提示和回答发送到该端点。不过,与 Llama 4 相比,Llama Guard 的上下文更有限(128,000),并且只能处理在提示开头处包含单张图片的请求。
  • 不支持批量预测。

前往 Llama 4 模型卡片

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E 在其大小类别中可提供最先进的结果,在多个基准测试中都优于之前的 Llama 几代和其他开放式和专有模型。它采用 MoE 架构,总共有 1,090 亿个参数,其中 170 亿个是活跃参数,并且有 16 位专家。

Llama 4 Scout 17B-16E 适用于长上下文中的检索任务,以及需要对大量信息进行推理处理的任务,例如总结多个大型文档、分析大量用户互动日志以实现个性化,以及跨大型代码库进行推理。

前往 Llama 4 模型卡片

注意事项

  • 每个请求最多可以包含 3 张图片。
  • 与之前的版本不同,MaaS 端点不使用 Llama Guard。如需使用 Llama Guard,请从 Model Garden 部署 Llama Guard,然后将提示和回答发送到该端点。不过,与 Llama 4 相比,Llama Guard 的上下文更有限(128,000),并且只能处理在提示开头处包含单张图片的请求。
  • 不支持批量预测。

前往 Llama 4 模型卡片

Llama 3.3

Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。

前往 Llama 3.3 70B 模型卡片

在预览版期间,您只需按实际模型用量付费(随用随付)。如需了解随用随付价格,请参阅 Vertex AI 价格页面上的 Llama 模型价格。

Llama 3.2

借助 Llama 3.2,开发者可以构建和部署最新的生成式 AI 模型和应用,这些模型和应用使用了最新的 Llama 功能(例如图像推理)。Llama 3.2 还旨在让设备端应用更易于访问。

前往 Llama 3.2 90B 模型卡片

在预览版期间,不会产生费用。如果您需要可用于生产用途的服务,请使用自托管的 Llama 模型

注意事项

使用 llama-3.2-90b-vision-instruct-maas 时,在发送纯文本提示时没有任何限制。不过,如果您在提示中加入图片,该图片必须位于提示的开头,并且您只能加入一张图片。例如,您不能先添加文本,然后再添加图片。

Llama 3.1

Llama 3.1 是一种使用经过优化的 Transformer 架构的自动回归语言模型。经过调优的版本使用监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF),以符合人类对实用性和安全性的偏好。

Llama 3.1 405B 已正式发布。您只需按实际模型用量付费(随用随付)。如需了解随用随付价格,请参阅 Vertex AI 价格页面上的 Llama 模型价格。

其他 Llama 3.1 模型目前为预览版。预览版模型可免费使用。如果您需要可用于生产用途的服务,请使用自托管的 Llama 模型

前往 Llama 3.1 模型卡片

后续步骤

了解如何使用 Llama 模型