選取語音轉錄模型

本頁面說明如何使用特定的機器學習模型,向 Speech-to-Text 提出音訊轉錄要求。

轉錄模型

Speech-to-Text 可以將輸入內容與機器學習「模型」進行比較,藉此偵測音訊剪輯內的字詞。每個模型都經過訓練,分析過數百萬名說話者的錄音內容。

語音轉文字的特殊模型是使用特定來源的音訊進行訓練。當您將這些模型套用至與訓練資料類似的音訊資料時,就能獲得更好的結果。

舉例來說,語音轉文字的轉錄模型經過訓練,可以辨識從通話中錄製的語音。當 Speech-to-Text 使用 telephony_shorttelephony 模型轉錄電話音訊時,轉錄結果會比使用 shortlong 模型轉錄電話音訊時更準確。

下表說明可與語音轉文字搭配使用的轉錄模型。

模型名稱 說明
long 您可以將這個模型用於任何類型的長篇內容,例如媒體或即興演說和對話。建議您使用這個模型,而非 `video` 或 `default` 模型,特別是在目標語言中沒有這些模型時。
short 請將這個模型用於長度為幾秒的簡短語音。這類指令可用於嘗試擷取指令或其他單一短語音指令用途。建議您改用這個模型,而非指令和搜尋模型。
telephony 適用於源自音訊通話的音訊,通常錄音取樣率為 8 kHz。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。
telephony_short 專門針對短語甚至單字的發音版本的 `telephony` 模型,適用於電話語音 (錄音取樣率通常為 8 kHz)。適用於客戶服務、電話會議和自動化資訊站應用程式中,只有幾秒鐘的語音聲明。
medical_dictation 使用這個模型,即可轉錄醫護專業人員口述的筆記,例如醫師口述患者的血液檢驗結果。
medical_conversation 請在醫療服務提供者 (例如醫師或護理師) 與病患之間的對話中使用此模型。當醫師和病患同時發言時,請使用 `medical_conversation` 模型。系統會自動偵測每位講者所說的話,並自動加上標籤。
chirp_2 使用新一代的通用大型語音模型 (USM),這項模型採用大型語言模型技術,可處理串流和批次作業,以及各種語言內容的轉錄和翻譯,並支援多語言功能。
chirp_telephony 通用大型語音模型 (USM) 經過微調,適用於源自通話的音訊 (錄音取樣率通常為 8 kHz)。
chirp 使用通用大型語音模型 (USM),針對各種語言內容提供最先進的非串流轉錄功能。

選取用於音訊轉錄的模型

模型是由用於辨識要求的辨識器指定。呼叫 speech/projects.locations.recognizers/create 建立辨識器,並使用 model 欄位指定模型。您可以在「支援的語言」表格中,查看各語言的有效模型。