文字微调

本页面提供了使用监督学习对 Gemini 进行文本数据微调的先决条件和详细说明。如需查看分类、情感分析和提取用例的文本调优示例，请参阅 Gemini 文本模型的模型调优。

使用场景

借助微调，您可以调整基础 Gemini 模型，使其适合专门任务。以下是一些文本用例：

从聊天中提取结构化信息：通过微调模型来识别关键属性，并以结构化格式（如 JSONL）输出这些属性，将多轮对话转换为组织有序的数据。
文档分类：微调模型，将冗长的文档准确划分到预定义的类别，从而实现高效有序和信息检索。
指令遵循：增强模型理解和执行指令的能力，从而更准确、更可靠地完成任务。
自动代码审核：使用微调功能创建一个模型，该模型能够提供富有见解的代码审核、发现潜在问题并提出改进建议。
摘要生成：通过微调模型来捕捉内容的精髓，为长篇文字生成简洁且信息量充足的摘要。
代码和 DSL 生成：微调模型，以各种编程语言或特定领域语言 (DSL) 生成代码，从而自动执行重复的编码任务。
提高 RAG 性能：通过微调底层语言模型，让检索增强生成 (RAG) 系统更有用、更准确。

数据集格式

数据集的 fileUri 可以是 Cloud Storage 存储桶中文件的 URI，也可以是可公开访问的 HTTP 或 HTTPS 网址。

以下是文本数据集示例。

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

示例数据集

您可以使用以下示例数据集来了解如何对 Gemini 模型进行调优。如需使用这些数据集，请在创建文本模型监督式微调作业时，在适用的参数中指定相应的 URI。

如需使用示例调优数据集，请按如下方式指定其位置：

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

如需使用示例验证数据集，请按如下方式指定其位置：

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

后续步骤

如需开始调优，请参阅使用监督式微调来调优 Gemini 模型。
如需了解如何在构建生成式 AI 知识库的解决方案中使用监督式微调，请参阅快速起步解决方案：生成式 AI 知识库。

文字微调 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用场景

数据集格式

示例数据集

后续步骤

文字微调