文字調整

本頁面提供使用監督式學習精細調整 Gemini 文字資料的先決條件和詳細操作說明。如需分類、情緒分析和擷取用途的文字調整範例,請參閱「Gemini 文字模型的模型調整」。

用途

您可以微調基礎 Gemini 模型,以便執行專門工作。以下是一些文字用途:

  • 從即時通訊中擷取結構化資訊:透過微調模型來識別主要屬性,並以 JSONL 等結構化格式輸出,將多回合對話轉換為有條理的資料。
  • 文件分類:精細調整模型,將冗長文件正確分類至預先定義的類別,以便有效率地整理及擷取資訊。
  • 執行指示:提升模型理解及執行指示的能力,進而更準確且可靠地完成任務。
  • 自動化程式碼審查:使用精細調整功能建立模型,以便提供有見解的程式碼審查、找出潛在問題,並提出改善建議。
  • 摘要:精細調整模型,擷取內容精華,產生精簡且有用的長篇文字摘要。
  • 程式碼和 DSL 生成:微調模型,以便使用各種程式設計語言或網域特定語言 (DSL) 生成程式碼,自動執行重複的程式設計工作。
  • 提升 RAG 效能:微調基礎語言模型,提升檢索增強生成 (RAG) 系統的實用性和準確度。

資料集格式

資料集的 fileUri 可以是 Cloud Storage 值區中檔案的 URI,也可以是公開的 HTTP 或 HTTPS 網址。

以下是文字資料集的範例。

如要查看通用格式範例,請參閱 Gemini 的資料集範例

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

範例資料集

您可以使用下列樣本資料集,瞭解如何調整 Gemini 模型。如要使用這些資料集,請在建立文字模型監督微調工作時,在適用的參數中指定 URI。

如要使用範例調整用資料集,請按照下列方式指定位置:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

如要使用驗證資料集範例,請按照下列方式指定位置:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

後續步驟