借助 Vertex AI 中的 Gen AI 评估服务,您可以使用自己的评估标准来评估任何生成模型或应用,并根据自己的判断对评估结果进行基准比较。
虽然排行榜和报告可让您深入了解整体模型性能,但并不能揭示模型如何处理您的特定需求。Gen AI 评估服务可帮助您定义自己的评估标准,确保您清楚了解生成式 AI 模型和应用与您的独特应用场景的契合度。
评估在生成式 AI 开发流程的每一步(包括模型选择、提示工程和模型自定义)都非常重要。生成式 AI 评估功能已集成到 Vertex AI 中,可帮助您根据需要启动和重复使用评估。
Gen AI Evaluation Service 功能
Gen AI Evaluation Service 可帮助您完成以下任务:
模型选择:根据基准结果及其在特定数据方面的性能,为您的任务选择最佳的预训练模型。
生成设置:调整模型参数(例如温度),以根据您的需求优化输出。
提示工程:设计有效的提示和提示模板,引导模型实现您偏好的行为和回答。
通过微调实现改进和保护措施:微调模型以提高针对应用场景的性能,同时避免偏差或不良行为。
RAG 优化:选择最有效的检索增强生成 (RAG) 架构来提升应用的性能。
迁移:在新模型针对您的特定应用场景有明显优势时,迁移到新模型,以便持续评估和改进 AI 解决方案的性能。
翻译(预览版):评估模型的翻译质量。
评估流程
借助 Gen AI Evaluation Service,您可以按照以下步骤根据评估标准来评估任何生成式 AI 模型或应用:
-
了解如何根据业务标准定制基于模型的指标。
评估单个模型(逐点评估),或在比较 2 个模型时确定胜出者(成对评估)。
添加基于计算的指标,以获得更多数据分析。
-
- 提供反映您的特定应用场景的数据集。
运行评估。
从头开始、使用模板或调整现有示例。
定义候选模型并创建
EvalTask
,以通过 Vertex AI 重复使用评估逻辑。
适用于评估应用场景的笔记本
下表列出了适用于各种生成式 AI 评估应用场景的 Vertex AI SDK for Python 笔记本:
使用场景 | 说明 | 指向笔记本的链接 |
---|---|---|
评估模型 | 快速入门:Gen AI Evaluation Service SDK 简介。 | Gen AI Evaluation Service SDK 使用入门 |
为您的任务评估并选择第一方 (1P) 基础模型。 | 为您的任务评估并选择第一方 (1P) 基础模型 | |
评估和选择 Gen AI 模型设置: 针对摘要任务调整 Gemini 模型的温度、输出令牌限制、安全设置和其他模型生成配置,并根据多个指标比较来自不同模型设置的评估结果。 |
比较 Gemini 的不同模型参数设置 | |
在 Vertex AI Model Garden 中评估第三方 (3P) 模型。 此笔记本提供了有关使用 Gen AI Evaluation Service SDK 评估 Google 的 Gemini 模型和第三方语言模型的全面指南。了解如何使用各种评估指标和方法评估和比较来自不同来源的模型,包括开放式和封闭式模型、模型端点和第三方客户端库。获得在开展对照实验和分析各种任务的模型性能方面的实践经验。 |
使用 Gen AI Evaluation Service SDK 在 Vertex AI Studio、Model Garden 和 Model Registry 中评估模型 | |
使用 Gen AI Evaluation Service SDK 从 PaLM 迁移到 Gemini 模型。 此笔记本将引导您使用多个评估指标评估 PaLM 和 Gemini 基础模型,以便为从一个模型迁移到另一个模型的有关决策提供支持。我们会直观呈现这些指标,以便深入了解每个模型的优势和劣势,帮助您做出明智的决策,确定哪种模型最符合您的应用场景的特定要求。 |
比较 PaLM 和 Gemini 模型并从 PaLM 迁移到 Gemini 模型 | |
评估翻译模型。 此笔记本介绍了如何使用适用于 Gen AI Evaluation Service 的 Vertex AI SDK,使用 BLEU、MetricX 和 COMET 衡量大语言模型 (LLM) 回答的翻译质量。 |
评估翻译模型 | |
评估提示模板 | 使用 Gen AI Evaluation Service SDK 实现提示工程和提示评估。 | 评估并优化提示模板设计以获得更好的结果 |
评估生成式 AI 应用 | 评估 Gemini 模型工具使用情况和函数调用功能。 | 评估 Gemini 模型工具使用情况 |
使用 Gen AI Evaluation Service SDK 评估检索增强生成 (RAG) 所生成的回答以用于问答任务。 | 评估检索增强生成 (RAG) 所生成的回答 | |
使用 Vertex AI Gen AI 评估服务评估 LangChain 聊天机器人。 此笔记本演示了如何使用 Vertex AI Gen AI Evaluation Service SDK 评估 LangChain 对话式聊天机器人。其中涵盖数据准备、LangChain 链设置、创建自定义评估指标以及分析结果。本教程以食谱建议聊天机器人为例,介绍了如何通过迭代提示设计来提升其性能。 |
评估 LangChain | |
指标自定义 | 使用以下功能自定义基于模型的指标,并根据您的特定标准评估生成式 AI 模型:
|
自定义基于模型的指标以评估生成式 AI 模型 |
使用本地定义的自定义指标评估生成式 AI 模型,并自带判断模型来执行基于模型的指标评估。 | 使用自定义指标实现自带自动评估器 | |
定义您自己的基于计算的自定义指标函数,并通过 Gen AI Evaluation Service SDK 使用它们进行评估。 | 自带基于计算的自定义指标 | |
其他主题 | Gen AI Evaluation Service SDK 预览版到正式版迁移指南。 本教程将引导您完成从适用于 Gen AI Evaluation Service 的 Vertex AI SDK for Python 预览版迁移到最新正式版的过程。本指南还展示了如何使用正式版 SDK 评估检索增强生成 (RAG),以及使用成对评估来比较两个模型。 |
Gen AI Evaluation Service SDK 预览版到正式版迁移指南 |
支持的模型和语言
Vertex AI Gen AI 评估服务支持 Google 的基础模型、第三方模型和开放模型。您可以直接提供预先生成的预测,也可以通过以下方式自动生成候选模型回答:
为 Google 的基础模型(例如 Gemini 1.5 Pro)和 Vertex AI Model Registry 中部署的任何模型自动生成回答。
与来自其他第三方和开放模型的 SDK 文本生成 API 集成。
使用 Vertex AI SDK 封装来自其他提供方的模型端点。
对于 Gemini 基于模型的指标,Gen AI Evaluation Service 支持 Gemini 1.5 Pro 支持的所有输入语言。不过,非英语输入的评估质量可能不如英语输入的评估质量。
Gen AI Evaluation Service 支持以下语言的基于模型的翻译指标:
MetricX
MetricX 支持的语言:阿非利堪语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、汉语、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯特语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、绍纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里西语、科萨语、意第绪语、约鲁巴语、祖鲁语。
COMET
COMET 支持的语言:阿非利堪斯语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、罗马尼亚语孟加拉语、波斯尼亚语、布列顿语、保加利亚语、缅甸语、缅甸语、加泰罗尼亚语、简体中文、繁体中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、豪萨语、希伯来语、印地语、罗马尼亚语印地语、匈牙利语、冰岛语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语(库尔德曼语)、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马拉地语、蒙古语、尼泊尔语、挪威语、奥里亚语、奥罗莫语、普什图语、波斯尼亚语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、梵语、苏格兰盖尔语、塞尔维亚语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、巽他语、斯瓦希里语、瑞典语、泰米尔语、罗马尼亚语泰米尔语、泰卢固语、罗马尼亚语泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、罗马尼亚语乌尔都语、维吾尔语、乌兹别克语、越南语、威尔士语、西弗里西语、科萨语、意第绪语。