訓練及管理模型

您可以使用 API 建立及訓練自訂 Speech-to-Text 模型,無需編寫任何程式碼,即可改善現有 Speech-to-Text 模型的辨識準確度。這項全代管服務會自動佈建運算資源、執行訓練應用程式程式碼,並確保在訓練工作結束後刪除運算資源。您將獲得經過完整微調的語音轉錄模型,可用於任何後端應用程式。

與機器學習模型類似,訓練自訂 Speech-to-Text 模型通常會反覆進行,包括選取基礎模型做為起點、使用文字和音訊資料集微調模型,然後測試模型的辨識品質。如果結果不如預期,您可以使用不同組合的資料重新訓練新模型,然後再次測試,或直接在您的網域中使用該模型進行轉錄。

事前準備

請確認您已註冊 Google Cloud 帳戶、建立 Google Cloud 專案,並啟用 Speech-to-Text API:前往 Google Cloud 控制台的「Speech」,然後前往 Speech-to-Text API。在左側導覽列的「自訂模型」部分中操作。

建立自訂模型

首先,請建立自訂語音轉文字模型,並定義其參數,例如基礎模型和轉錄語言:

  1. 按一下「建立」,建立自訂模型。
  2. 輸入模型名稱,系統會將這項資訊用於顯示,並在 API 要求和 Google Cloud Speech 控制台中參照。
  3. 輸入模型的說明
  4. 選取最適合用途的「Base model」
  5. 選取模型的語音轉錄語言
  6. 選取訓練作業應執行的區域
  7. 按一下「繼續」
自訂 Speech-to-Text 模型建立工作流程的螢幕截圖,顯示自訂模型所需的欄位

如要完成自訂語音轉文字模型工作定義並開始訓練,您必須定義訓練和驗證資料集。

  1. 提供有效的 Cloud Storage 目錄 URI,選取訓練資料集。請確認檔案中只有音訊和文字檔案,且音訊的總時間長度符合訓練資料集規定
  2. 提供有效的 Cloud Storage 目錄 URI,選取驗證資料集。請確認檔案中只有音訊和文字檔案,且音訊的總長度符合驗證資料集規定
  3. 按一下「建立」即可開始訓練程序。

如果音訊的總時數不足或檔案不符合規範,訓練工作就會失敗。

自訂語音轉文字模型建立工作流程的螢幕截圖,顯示自訂模型的訓練資料集和驗證資料集所需的欄位

訓練工作會在系統中排入其他工作的後面,而訓練模型的時間可能從幾小時到幾天不等,視資料集大小而定。模型訓練完成後,其狀態會標示為「已啟用」

刪除自訂模型

開始前,請確認沒有任何流量透過任何端點傳送至自訂 Speech-to-Text 模型,因為刪除模型會導致模型停止提供任何要求。

  1. 前往「自訂模型」部分的「模型」分頁標籤。
  2. 按一下展開選項,然後點選「刪除」。系統會在幾分鐘內刪除自訂 Speech-to-Text 模型及其所有端點,並停止提供任何流量。

列出自訂模型

您也可以選取「自訂模型」部分中的「模型」,列出所有自訂語音轉文字模型,包括正在訓練、處於活動狀態和已刪除的模型。

自訂語音轉文字模型清單工作流程的螢幕截圖,其中顯示已建立的所有自訂模型表格

後續步驟

請參閱下列資源,瞭解如何在應用程式中使用自訂語音模型: