大型語言模型 (LLM) 的最佳做法

多模態提示

如要瞭解多模態提示的最佳做法,請根據您使用的模態,參閱下列頁面:

減少延遲時間

建構互動式應用程式時,回應時間 (也稱為延遲時間) 在使用者體驗中扮演著關鍵角色。本節將探討 Vertex AI LLM API 中延遲的概念,並提供可行的策略,協助您盡可能減少延遲,並縮短 AI 輔助應用程式的回應時間。

瞭解大型語言模型 (LLM) 的延遲指標

延遲時間是指模型處理輸入提示並產生相應輸出回覆所需的時間。

使用模型檢查延遲時間時,請考量以下事項:

第一個符記的時間 (TTFT) 是指模型收到提示後,產生回應第一個符記所需的時間。對於使用串流的應用程式而言,TTFD 特別重要,因為這類應用程式必須提供即時的意見回饋。

最後一個符號的時間 (TTLT) 會評估模型處理提示並產生回覆所需的整體時間。

減少延遲時間的策略

您可以使用 Vertex AI 的多種策略,盡可能減少延遲時間並提升應用程式的回應速度:

根據用途選擇合適的模型

Vertex AI 提供多種模型,各自具備不同的功能和效能特性。請仔細評估速度和輸出品質方面的需求,選擇最符合用途的模型。如需可用型號的清單,請參閱「探索所有型號」。

將提示和輸出內容長度最佳化

輸入提示和預期輸出內容中的符號數量會直接影響處理時間。盡量減少符記數量,以降低延遲時間。

  • 製作清楚簡明的提示,有效傳達您的意圖,且不含不必要的細節或重複內容。提示越短,首次產生符記的時間就越短。

  • 使用系統指示來控制回覆的長度。指示模型提供簡短的答案,或將輸出內容限制為特定數量的句子或段落。這項策略可縮短到達最後符號的時間。

  • 調整 temperature。您可以嘗試使用 temperature 參數,控制輸出的隨機性。temperature 值越低,回覆就會越短、越聚焦;值越高,輸出內容就會越多元,但可能會較長。詳情請參閱模型參數參考資料中的 temperature

  • 設定限制來限制輸出內容。使用 max_output_tokens 參數,為產生的回應長度設定長度上限,避免產生過長的輸出內容。不過,請小心使用,因為這可能會導致回覆內容中斷。

逐句回覆

透過串流功能,模型會在產生完整輸出內容之前開始傳送回應。這可讓您即時處理輸出內容,並立即更新使用者介面及執行其他並行工作。

串流功能可提升感知回應速度,並提供更具互動性的使用者體驗。

後續步驟