此页面由 Cloud Translation API 翻译。

全托管式 Llama 模型

Vertex AI 上的 Llama 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 Llama 模型，请直接向 Vertex AI API 端点发送请求。由于 Llama 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 Llama 模型

Meta 提供了以下 Llama 模型，可在 Vertex AI 中使用。如需访问 Llama 模型，请前往其 Model Garden 模型卡片。

处于预览版阶段的模型也提供自行部署选项。如果您需要可用于生产用途的服务，请使用自行部署的 Llama 模型。

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E 是最大、功能最强大的 Llama 4 模型，可提供编码、推理和图片功能。它采用混合专家 (MoE) 架构，在 4,000 亿个总参数中，有 170 亿个有效参数和 128 个专家。Llama 4 Maverick 17B-128E 使用交替的密集层和 MoE 层，其中每个 token 都会激活一个共享专家和 128 个路由专家之一。该模型预训练了 200 种语言，并通过精细的训练后流水线进行了优化，可实现高质量的聊天互动。

Llama 4 Maverick 17B-128E 是一个多模态模型，适用于高级图片标注、分析、精确的图片理解、视觉问答、创意文本生成、通用 AI 助理，以及需要顶级智能和图片理解能力的复杂聊天机器人。

注意事项

每个请求最多可包含三张图片。
与之前的版本不同，MaaS 端点不使用 Llama Guard。如需使用 Llama Guard，请从 Model Garden 部署 Llama Guard，然后将提示和回答发送到该端点。不过，与 Llama 4 相比，Llama Guard 的上下文更有限（128,000），并且只能处理提示开头包含单张图片的请求。
不支持批量预测。

前往 Llama 4 模型卡片

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E 在同类模型中取得了出色的结果，在多项基准测试中均优于之前的 Llama 模型以及其他开放模型和专有模型。它采用 MoE 架构，在 1,090 亿个总参数中包含 170 亿个有效参数和 16 个专家。

Llama 4 Scout 17B-16E 适用于长上下文中的检索任务，以及需要对大量信息进行推理的任务，例如总结多个大型文档、分析大量用户互动日志以实现个性化，以及在大型代码库中进行推理。

前往 Llama 4 模型卡片

注意事项

每个请求最多可包含三张图片。
与之前的版本不同，MaaS 端点不使用 Llama Guard。如需使用 Llama Guard，请从 Model Garden 部署 Llama Guard，然后将提示和回答发送到该端点。不过，与 Llama 4 相比，Llama Guard 的上下文更有限（128,000），并且只能处理提示开头包含单张图片的请求。
不支持批量预测。

前往 Llama 4 模型卡片

Llama 3.3

Llama 3.3 是纯文本 70B 指令调优模型，用于纯文本应用时，相对于 Llama 3.1 70B 和 Llama 3.2 90B，可提供增强的性能。

前往 Llama 3.3 70B 模型卡片

在预览版期间，您只需按实际模型用量付费（随用随付）。如需了解随用随付价格，请参阅 Vertex AI 价格页面上的 Llama 模型价格。

Llama 3.2

借助 Llama 3.2，开发者可以构建和部署最新的生成式 AI 模型和应用，这些模型和应用使用了最新的 Llama 功能（例如图像推理）。Llama 3.2 还旨在让设备端应用更易于访问。

前往 Llama 3.2 90B 模型卡片

在预览版期间，不会产生费用。如果您需要可用于生产用途的服务，请使用自托管的 Llama 模型。

注意事项

使用 llama-3.2-90b-vision-instruct-maas 时，在发送纯文本提示时没有任何限制。不过，如果您在提示中加入图片，该图片必须位于提示的开头，并且您只能加入一张图片。例如，您不能先添加文本，然后再添加图片。

Llama 3.1

Llama 3.1 是一种使用经过优化的 Transformer 架构的自动回归语言模型。经过调优的版本使用监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF)，以符合人类对实用性和安全性的偏好。

Llama 3.1 405B 已正式发布。您只需按实际模型用量付费（随用随付）。如需了解随用随付价格，请参阅 Vertex AI 价格页面上的 Llama 模型价格。

其他 Llama 3.1 模型目前为预览版。预览版模型可免费使用。如果您需要可用于生产用途的服务，请使用自托管的 Llama 模型。

前往 Llama 3.1 模型卡片

后续步骤

了解如何使用 Llama 模型。

全托管式 Llama 模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

可用的 Llama 模型

Llama 4 Maverick 17B-128E

注意事项

Llama 4 Scout 17B-16E

注意事项

Llama 3.3

Llama 3.2

注意事项

Llama 3.1

后续步骤

全托管式 Llama 模型