本頁面由 Cloud Translation API 翻譯而成。

大型語言模型 (LLM) 的最佳做法

多模態提示

如要瞭解多模態提示的最佳做法，請參閱下列頁面，瞭解您使用的模態：

建構互動式應用程式時，回應時間 (也稱為延遲時間) 對使用者體驗至關重要。本節將探討 Vertex AI LLM API 的延遲概念，並提供實用策略，協助您盡量縮短延遲時間，進而提升 AI 輔助應用程式的回應速度。

延遲是指模型處理輸入提示並生成相應輸出回覆所需的時間。

使用模型檢查延遲時間時，請注意下列事項：

第一個權杖時間 (TTFT) 是指模型在收到提示後，產生回應的第一個權杖所需的時間。TTFT 特別適用於使用串流技術的應用程式，因為即時回饋至關重要。

最後一個權杖的時間 (TTLT)：用來測量模型處理提示並生成回覆的總時間。

您可以搭配使用 Vertex AI 和多種策略，盡量縮短延遲時間，並提升應用程式的回應速度：

Vertex AI 提供各種模型，功能和效能特性各不相同。請仔細評估速度和輸出品質方面的需求，選擇最符合用途的模型。如需可用型號清單，請參閱「探索所有型號」。

輸入提示和預期輸出內容的權杖數量，會直接影響處理時間。盡量減少權杖數量，以降低延遲。

撰寫清楚簡潔的提示，有效傳達意圖，避免不必要的細節或重複內容。提示越短，產生第一個權杖所需的時間就越短。
使用系統指令控制回覆長度。指示模型提供簡潔的答案，或將輸出內容限制在特定句數或段落數。這項策略可縮短最後一個權杖的產生時間。
調整 temperature。您可以測試 temperature 參數，控制輸出內容的隨機性。temperature 值越低，生成的回覆就越短且更著重重點；值越高，生成的回覆就越多元，但可能較長。詳情請參閱模型參數參考資料中的 temperature。
設定限制來限制輸出內容。使用 max_output_tokens 參數設定生成回覆的長度上限，避免輸出內容過長。不過請注意，這可能會導致回覆在句子中途截斷。

使用串流功能時，模型會在生成完整輸出內容前，開始傳送回覆。這項功能可即時處理輸出內容，方便您立即更新使用者介面及執行其他並行工作。

串流功能可提升使用者對回應速度的感受，並打造互動性更高的使用者體驗。