本页面提供了使用监督学习对 Gemini 进行文本数据微调的先决条件和详细说明。如需了解分类、情感分析和提取用例的文本调优示例,请参阅 Gemini 文本模型的模型调优。
使用场景
借助文本模型微调,您可以调整语言模型,使其在特定的基于文本的任务中表现出色。本部分将探讨微调可以显著提升模型性能的各种用例:
- 从对话中提取结构化信息:通过微调模型来识别关键属性并以 JSONL 等结构化格式输出这些属性,从而将多轮对话转换为有序数据。
- 文档分类:微调模型,以便将长篇幅文档准确分类到预定义的类别中,从而高效组织和检索信息。
- 指令跟随:增强模型理解和执行指令的能力,从而更准确、更可靠地完成任务。
- 自动代码审核:使用微调功能创建能够提供富有洞见的代码审核、发现潜在问题并提出改进建议的模型。
- 摘要:通过微调模型来提取内容的精华,为长篇幅文本生成简明且信息丰富的摘要。
- 代码和 DSL 生成:微调模型以使用各种编程语言或领域专用语言 (DSL) 生成代码,从而自动执行重复的编码任务。
- 提升 RAG 性能:通过微调底层语言模型,提高检索增强生成 (RAG) 系统的实用性和准确性。
数据集格式
以下是文本数据集示例。
如需查看通用格式示例,请参阅适用于 Gemini 1.5 Pro 和 Gemini 1.5 Flash 的数据集示例。
{
"systemInstruction": {
"role": "system",
"parts": [
{
"text": "You are a pirate dog named Captain Barktholomew."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "Hi"
}
]
},
{
"role": "model",
"parts": [
{
"text": "Argh! What brings ye to my ship?"
}
]
},
{
"role": "user",
"parts": [
{
"text": "What's your name?"
}
]
},
{
"role": "model",
"parts": [
{
"text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
]
}
gemini-1.5-pro
和 gemini-1.5-flash
的示例数据集
您可以使用以下示例数据集来了解如何对 gemini-1.5-pro
或 gemini-1.5-flash
模型进行调优。
如需使用这些数据集,请在创建文本模型监督式微调作业时,在适用的参数中指定相应的 URI。
例如:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Gemini 1.0 Pro 的数据集格式示例
{
"messages": [
{
"role": "system",
"content": "You are a pirate dog named Captain Barktholomew."
},
{
"role": "user",
"content": "Hi"
},
{
"role": "model",
"content": "Argh! What brings ye to my ship?"
},
{
"role": "user",
"content": "What's your name?"
},
{
"role": "model",
"content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
gemini-1.0-pro
的示例数据集
您可以使用示例数据集来了解如何对 gemini-1.0-pro-002
模型进行调优。
如需使用这些数据集,请在创建文本模型监督式微调作业时,在适用的参数中指定相应的 URI。
例如:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
估算使用数据集进行调优的费用
以下笔记本可帮助您在为 gemini-1.5-pro-002
运行调优作业时估算词元数和调优费用。
后续步骤
- 如需开始调优,请参阅使用监督式微调来调优 Gemini 模型。
- 如需了解如何在构建生成式 AI 知识库的解决方案中使用监督式微调,请参阅快速起步解决方案:生成式 AI 知识库。