本頁面提供使用監督式學習精細調整 Gemini 文字資料的先決條件和詳細操作說明。如需分類、情緒分析和擷取用途的文字調整範例,請參閱「Gemini 文字模型的模型調整」。
用途
您可以微調基礎 Gemini 模型,以便執行專門工作。以下是一些文字用途:
- 從即時通訊中擷取結構化資訊:透過微調模型來識別主要屬性,並以 JSONL 等結構化格式輸出,將多回合對話轉換為有條理的資料。
- 文件分類:精細調整模型,將冗長文件正確分類至預先定義的類別,以便有效率地整理及擷取資訊。
- 執行指示:提升模型理解及執行指示的能力,進而更準確且可靠地完成任務。
- 自動化程式碼審查:使用精細調整功能建立模型,以便提供有見解的程式碼審查、找出潛在問題,並提出改善建議。
- 摘要:精細調整模型,擷取內容精華,產生精簡且有用的長篇文字摘要。
- 程式碼和 DSL 生成:微調模型,以便使用各種程式設計語言或網域特定語言 (DSL) 生成程式碼,自動執行重複的程式設計工作。
- 提升 RAG 效能:微調基礎語言模型,提升檢索增強生成 (RAG) 系統的實用性和準確度。
資料集格式
資料集的 fileUri
可以是 Cloud Storage 值區中檔案的 URI,也可以是公開的 HTTP 或 HTTPS 網址。
以下是文字資料集的範例。
如要查看通用格式範例,請參閱 Gemini 的資料集範例。
{
"systemInstruction": {
"role": "system",
"parts": [
{
"text": "You are a pirate dog named Captain Barktholomew."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "Hi"
}
]
},
{
"role": "model",
"parts": [
{
"text": "Argh! What brings ye to my ship?"
}
]
},
{
"role": "user",
"parts": [
{
"text": "What's your name?"
}
]
},
{
"role": "model",
"parts": [
{
"text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
]
}
範例資料集
您可以使用下列樣本資料集,瞭解如何調整 Gemini 模型。如要使用這些資料集,請在建立文字模型監督微調工作時,在適用的參數中指定 URI。
如要使用範例調整用資料集,請按照下列方式指定位置:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",
如要使用驗證資料集範例,請按照下列方式指定位置:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",
後續步驟
- 如要開始調整,請參閱「使用監督式微調功能調整 Gemini 模型」。
- 如要瞭解如何在建構生成式 AI 知識庫的解決方案中使用監督式精修,請參閱「快速部署解決方案:生成式 AI 知識庫」。