多模态提示
如需了解多模态提示的最佳实践,请根据您使用的模态参阅以下页面:
缩短延迟时间
在构建交互式应用时,回答时间(也称为延迟时间)在用户体验中起着至关重要的作用。本部分探讨了 Vertex AI LLM API 环境中的延迟概念,并提供了切实可行的策略,以最大限度地减少延迟并缩短 AI 驱动的应用的回答时间。
了解 LLM 的延迟时间指标
延迟时间是指模型处理输入提示并生成相应的输出回答所需的时间。
检查模型延迟时间时,请考虑以下事项:
第一个词元 (TTFT) 的时间是模型在收到提示后生成回答的第一个词元所需的时间。TTFT 对利用流式传输的应用尤其重要,其中提供即时反馈至关重要。
最后一个词元 (TTLT) 的时间用于衡量模型处理提示和生成回答所花费的时间。
缩短延迟时间的策略
您可以将多种策略与 Vertex AI 搭配使用,以最大限度地减少延迟时间并提高应用的回答速度:
根据您的使用场景选择合适的模型
Vertex AI 提供各种模型,这些模型具有不同的功能和性能特征。请仔细评估您对速度和输出质量的要求,选择最符合您使用场景的模型。如需查看可用模型的列表,请参阅探索所有模型。
优化提示和输出长度
输入提示和预期输出中的 token 数量都会直接影响处理时间。尽可能减少token数量,以缩短延迟时间。
精心设计清晰简洁的提示,有效传达您的意图,避免不必要的细节或冗余。提示越短,从发出提示到获得第一个 token 的时间就越短。
使用系统说明控制回答的长度。指示模型提供简洁的答案,或将输出限制为特定数量的句子或段落。此策略可以缩短从发出提示到获得最后一个token的时间。
调整
temperature
。您可以尝试使用temperature
参数来控制输出的随机性。较低的temperature
值可以产生更短、更有针对性的回答,而较高的值可能会产生更多样化(但可能更长)的输出。如需了解详情,请参阅模型参数参考文档中的temperature
。通过设置限制来限制输出。使用
max_output_tokens
参数对生成的回答长度设置上限,以防止输出过长。但是要小心,因为这可能会导致句子中的回答被截断。
流式传输响应
借助流式传输,模型会在生成完整输出之前开始发送其回答。这样一来,您就可以实时处理输出,并立即更新界面和执行其他并发任务。
流式传输可增强感知到的回答速度,并打造更具互动性的用户体验。
后续步骤
- 了解提示设计的通用策略。
- 查看一些提示示例。
- 了解如何发送聊天提示。
- 了解 Responsible AI 最佳实践和 Vertex AI 的安全过滤条件。
- 了解如何调整模型。
- 了解用于确保生产工作负载的预配吞吐量。