本頁面提供先決條件和詳細操作說明,協助您使用監督式學習,根據音訊資料微調 Gemini。
用途
調整音訊模型可根據特定需求量身打造,進而提升模型效能。這可能包括提升不同口音的語音辨識能力、微調音樂類型分類、改善聲響事件偵測功能、自訂音訊生成、適應吵雜環境、提升音訊品質,以及提供個人化音訊體驗。以下是一些常見的音訊調整用途:
加強型語音助理:
- 語音訂餐:開發聲控系統,讓使用者輕鬆訂餐和外送。
音訊內容分析:
- 自動轉錄:即使在吵雜的環境中,也能產生準確度極高的轉錄稿。
- 音訊摘要:歸納 Podcast 或有聲書的重點。
- 音樂分類:根據類型、情境或其他特徵分類音樂。
無障礙功能和輔助技術:
- 即時字幕:為活動或視訊通話提供即時字幕。
- 語音控制應用程式:開發完全由語音控制的應用程式。
- 語言學習:建立可針對發音提供個人化意見回饋的工具。
限制
Gemini 2.5 模型
規格 | 值 |
---|---|
每個範例的音訊長度上限 | 60 分鐘 |
每個範例的音訊檔案數量上限 | 1 |
音訊檔案大小上限 | 100MB |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
規格 | 值 |
---|---|
每個範例的音訊長度上限 | 60 分鐘 |
每個範例的音訊檔案數量上限 | 1 |
音訊檔案大小上限 | 100MB |
如要進一步瞭解音訊樣本規定,請參閱「瞭解音訊 (僅限語音)」頁面。
資料集格式
資料集的 fileUri
可以是 Cloud Storage 值區中檔案的 URI,也可以是公開的 HTTP 或 HTTPS 網址。
如要查看一般格式範例,請參閱「Gemini 的資料集範例」。
以下是音訊資料集的範例。
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
後續步驟
- 如要進一步瞭解 Gemini 音訊理解模型,請參閱「音訊理解 (僅限語音)」。
- 如要開始調整,請參閱「使用監督式微調功能調整 Gemini 模型」。
- 如要瞭解如何將監督式微調用於建構生成式 AI 知識庫的解決方案,請參閱「快速部署解決方案:生成式 AI 知識庫」。