自訂語音模型總覽

自訂 Speech-to-Text 模型可協助您微調語音辨識模型,滿足特定需求。這項服務會使用特定領域的音訊和文字資料,提升語音辨識服務在各種環境和用途中的準確度和相關性。

您可以在 Google Cloud 控制台和 API 中存取自訂 Speech-to-Text 模型,在無程式碼整合式環境中訓練、評估及部署專屬語音模型。訓練時,您只需提供能代表音訊狀況的音訊資料,不必提供參照轉錄稿做為訓練集。不過,您必須在評估集中提供音訊資料和參考轉錄稿。

建立及使用自訂 Speech-to-Text 模型需要完成下列步驟:

  1. 準備訓練資料並上傳至 Cloud Storage 值區。
  2. 訓練新的自訂模型。
  3. 使用端點部署及管理自訂模型。
  4. 在應用程式中使用及評估自訂模型。

運作方式

您可以運用自訂 Speech-to-Text 模型擴增基本轉錄模型,提升轉錄辨識準確度。部分音訊狀況 (包括警報聲、音樂和過多的背景噪音) 可能會造成聲學挑戰。特定口音或不尋常的詞彙,例如產品名稱。

每個自訂語音轉文字模型都會使用預先訓練的 Conformer 架構,做為以常用語言專屬資料訓練的基礎模型。在訓練過程中,我們會調整基礎模型的大部分原始權重,藉此微調模型,以提升對特定領域詞彙的辨識能力,並配合應用程式的特定音訊條件。

如要有效訓練自訂語音轉文字模型,請提供:

  • 至少 100 小時的訓練資料,可以是只有音訊,也可以是音訊和對應的文字轉錄稿 (做為基準真相)。這項資料對於初始訓練階段至關重要,可讓模型全面瞭解語音模式和詞彙的細微差異。詳情請參閱「建立基本事實資料集」。
  • 至少 10 小時的驗證資料,以及對應的文字轉錄稿 (基準真相)。如要進一步瞭解預期格式和應遵循的實際情況慣例,請參閱資料準備說明

訓練完成後,您只要按一下滑鼠,就能在端點中部署 Custom Speech-to-Text 模型,並透過 Cloud Speech-to-Text V2 API 直接使用模型進行推論和基準化。

支援的機型、語言和地區

自訂語音轉文字模型支援下列模型、語言和語言代碼組合,可用於訓練:

語言 BCP-47 基礎模型

德文 (德國)

de-DE

latest_long

英文 (澳洲)

en-AU

latest_long

英文 (英國)

en-GB

latest_long

英文 (印度)

en-IN

latest_long

英文 (美國)

en-US

latest_long

西班牙文 (美國)

es-US

latest_long

西班牙文 (西班牙)

es-ES

latest_long

法文 (加拿大)

fr-CA

latest_long

法文 (法國)

fr-FR

latest_long

北印度文 (印度)

hi-IN

latest_long

義大利文 (義大利)

it-IT

latest_long

日文 (日本)

ja-JP

latest_long

韓文 (南韓)

ko-KR

latest_long

荷蘭文 (荷蘭)

nl-NL

latest_long

葡萄牙文 (巴西)

pt-BR

latest_long

葡萄牙語 (葡萄牙)

pt-PT

latest_long

此外,為符合資料落地規定,我們在不同區域提供訓練和部署硬體。下列機型和地區組合支援專屬硬體:

基礎模型 Google Cloud 區域 支援的作業

latest_long

us-east1

訓練部署

latest_long

europe-west4

訓練部署

配額

如要訓練 Custom Speech-to-Text 模型,每個 Google Cloud 專案都應有足夠的預設配額,可同時執行多項訓練工作,且應能滿足大多數專案的需求,不必額外調整。不過,如果您需要同時執行更多訓練工作,或需要更廣泛的標籤或運算資源,請申請額外配額。

如果自訂語音轉文字模型服務的端點部署作業,每個端點的理論上限為每秒 20 次查詢 (QPS)。如需更高的輸送量,請申請更多服務配額。

定價

建立及使用自訂語音轉文字模型會產生特定費用,主要取決於模型訓練和後續部署期間所用的資源。具體來說,在一般模型生命週期中,自訂語音轉文字模型會產生下列費用:

  • 訓練:系統會根據模型訓練時數計費。這段時間與訓練資料集中的音訊時數成正比。一般來說,訓練時間是資料集中音訊時數的十分之一。
  • 部署:模型部署至端點後,系統會按小時收費。
  • 推論:系統會根據轉錄的音訊串流秒數向您收費,與一般的語音轉文字服務計費方式一致。

瞭解這些費用是有效編列預算和分配資源的關鍵。詳情請參閱「自訂語音轉文字模型」一節中的「Cloud Speech-to-Text 定價」。

後續步驟

請參閱下列資源,瞭解如何在應用程式中運用自訂語音模型: