您可以使用 API 建立及訓練自訂 Speech-to-Text 模型,無需編寫任何程式碼,即可改善現有 Speech-to-Text 模型的辨識準確度。這項全代管服務會自動佈建運算資源、執行訓練應用程式程式碼,並確保在訓練工作結束後刪除運算資源。您將獲得經過完整微調的語音轉錄模型,可用於任何後端應用程式。
與機器學習模型類似,訓練自訂 Speech-to-Text 模型通常會反覆進行,包括選取基礎模型做為起點、使用文字和音訊資料集微調模型,然後測試模型的辨識品質。如果結果不如預期,您可以使用不同組合的資料重新訓練新模型,然後再次測試,或直接在您的網域中使用該模型進行轉錄。
事前準備
請確認您已註冊 Google Cloud 帳戶、建立 Google Cloud 專案,並啟用 Speech-to-Text API:前往 Google Cloud 控制台的「Speech」,然後前往 Speech-to-Text API。在左側導覽列的「自訂模型」部分中操作。
建立自訂模型
首先,請建立自訂語音轉文字模型,並定義其參數,例如基礎模型和轉錄語言:
- 按一下「建立」,建立自訂模型。
- 輸入模型名稱,系統會將這項資訊用於顯示,並在 API 要求和 Google Cloud Speech 控制台中參照。
- 輸入模型的說明。
- 選取最適合用途的「Base model」。
- 選取模型的語音轉錄語言。
- 選取訓練作業應執行的區域。
- 按一下「繼續」。

如要完成自訂語音轉文字模型工作定義並開始訓練,您必須定義訓練和驗證資料集。
- 提供有效的 Cloud Storage 目錄 URI,選取訓練資料集。請確認檔案中只有音訊和文字檔案,且音訊的總時間長度符合訓練資料集規定。
- 提供有效的 Cloud Storage 目錄 URI,選取驗證資料集。請確認檔案中只有音訊和文字檔案,且音訊的總長度符合驗證資料集規定。
- 按一下「建立」即可開始訓練程序。
如果音訊的總時數不足或檔案不符合規範,訓練工作就會失敗。

訓練工作會在系統中排入其他工作的後面,而訓練模型的時間可能從幾小時到幾天不等,視資料集大小而定。模型訓練完成後,其狀態會標示為「已啟用」。
刪除自訂模型
開始前,請確認沒有任何流量透過任何端點傳送至自訂 Speech-to-Text 模型,因為刪除模型會導致模型停止提供任何要求。
- 前往「自訂模型」部分的「模型」分頁標籤。
- 按一下展開選項,然後點選「刪除」。系統會在幾分鐘內刪除自訂 Speech-to-Text 模型及其所有端點,並停止提供任何流量。
列出自訂模型
您也可以選取「自訂模型」部分中的「模型」,列出所有自訂語音轉文字模型,包括正在訓練、處於活動狀態和已刪除的模型。

後續步驟
請參閱下列資源,瞭解如何在應用程式中使用自訂語音模型: