您可以透過模型調整功能,提高 Speech-to-Text 轉錄結果的準確度。模型調整功能可讓您指定字詞和/或詞組,讓 Speech-to-Text 在音訊資料中辨識這些字詞和/或詞組的頻率,高於其他可能建議的替代方案。模型調整功能特別適合用於下列用途,可提高語音轉錄準確率:
- 音訊中經常出現某些字詞/詞組。
- 音訊可能含有罕見字詞 (例如專有名詞) 或一般用法中不存在的字詞。
- 音訊含有雜音或內容不太清楚。
如要進一步瞭解如何使用這項功能,請參閱「透過模型調整機制來改善語音轉錄結果」。如要瞭解每個模型調整要求適用的片語和字元限制,請參閱「配額與限制」。並非所有模型都支援語音調整功能。請參閱語言支援,瞭解哪些模型支援調整功能。
程式碼範例
語音調整是 Speech-to-Text 的選用設定,可根據需求自訂轉錄結果。如要進一步瞭解如何設定辨識要求主體,請參閱 RecognitionConfig
說明文件。
下列程式碼範例說明如何使用 SpeechAdaptation 資源提升轉錄準確度:
PhraseSet
、
CustomClass
和模型調整提升。如要在日後的要求中使用 PhraseSet
或 CustomClass
,請記下資源 name
,建立資源時,系統會在回應中傳回該資源。
如需您所用語言的預先建構類別清單,請參閱支援的類別權杖。
Python
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Python API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。