Vertex AI 上的 Llama 模型提供全代管無伺服器模型做為 API。如要在 Vertex AI 上使用 Llama 模型,請直接將要求傳送至 Vertex AI API 端點。由於 Llama 模型使用代管 API,因此不需要佈建或管理基礎架構。
您可以串流回應,減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE),逐步串流回應。
可用的 Llama 模型
Meta 提供下列 Llama 模型,可在 Vertex AI 中使用。如要存取 Llama 模型,請前往 Model Garden 的模型資訊卡。
預覽中的模型也提供自行部署選項。如需可供正式環境使用的服務,請自行部署 Llama 模型。
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E 是最大、最強大的 Llama 4 模型,可提供程式設計、推理和圖像功能。這項模型採用專家混合 (MoE) 架構,在 4,000 億個參數和 128 位專家中,有 170 億個有效參數。Llama 4 Maverick 17B-128E 使用交替的密集層和 MoE 層,其中每個權杖會啟動共用專家,以及 128 個路由專家之一。這款模型已預先訓練 200 種語言,並透過精細的訓練後流程,針對高品質的對話互動進行最佳化。
Llama 4 Maverick 17B-128E 屬於多模態模型,適合用於進階圖片說明、分析、精確圖片理解、視覺問題與答案、創意文字生成、通用型 AI 助理,以及需要頂尖智慧和圖片理解能力的高階聊天機器人。
注意事項
- 每個要求最多可包含三張圖片。
- 與先前版本不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,LlamaGuard 的背景資訊較少 (128,000),且只能處理提示開頭的單一圖片要求。
- 不支援批次預測。
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E 在同類模型中表現優異,在多項基準測試中,都優於先前的 Llama 版本和其他開放式及專有模型。這個模型採用 MoE 架構,在總共 1,090 億個參數和 16 位專家中,有 170 億個有效參數。
Llama 4 Scout 17B-16E 適合用於長篇脈絡資料的擷取作業,以及需要對大量資訊進行推理的作業,例如總結多份大型文件、分析大量使用者互動記錄以進行個人化,以及對大型程式碼集進行推理。
注意事項
- 每個要求最多可包含三張圖片。
- 與先前版本不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,LlamaGuard 的背景資訊較少 (128,000),且只能處理提示開頭的單一圖片要求。
- 不支援批次預測。
Llama 3.3
Llama 3.3 是純文字 70B 指令微調模型,用於純文字應用程式時,效能比 Llama 3.1 70B 和 Llama 3.2 90B 更出色。
在預先發布期間,系統會根據模型用量向您收費 (即付即用)。如要瞭解隨用隨付方案的價格,請參閱 Vertex AI 定價頁面的 Llama 模型定價。
Llama 3.2
開發人員可使用 Llama 3.2 建構及部署最新的生成式 AI 模型和應用程式,並運用 Llama 的最新功能,例如圖像推理。Llama 3.2 的設計宗旨是讓裝置端應用程式更容易存取。
預先發布期間不會產生費用。如需適用於正式環境的服務,請使用自行代管的 Llama 模型。
注意事項
使用 llama-3.2-90b-vision-instruct-maas
時,傳送純文字提示沒有限制。不過,如果提示中包含圖片,圖片必須位於提示開頭,且只能包含一張圖片。舉例來說,您無法同時加入文字和圖片。
Llama 3.1
Llama 3.1 是一種自動迴歸語言模型,採用經過最佳化的 Transformer 架構。微調版本採用監督式微調 (SFT) 和人類回饋增強學習 (RLHF),以符合人類對實用性和安全性的偏好。
Llama 3.1 405B 現已正式發布。系統會根據模型用量收費 (隨用隨付)。如需隨用隨付定價,請參閱 Vertex AI 定價頁面的 Llama 模型定價。
其他 Llama 3.1 模型為預先發布版。預先發布版模型不會產生任何費用。如需適用於正式環境的服務,請使用自行代管的 Llama 模型。