自訂 Speech-to-Text 模型可協助您微調語音辨識模型,滿足特定需求。這項服務會使用特定領域的音訊和文字資料,提升語音辨識服務在各種環境和用途中的準確度和相關性。
您可以在 Google Cloud 控制台和 API 中存取自訂 Speech-to-Text 模型,在無程式碼整合式環境中訓練、評估及部署專屬語音模型。訓練時,您只需提供能代表音訊狀況的音訊資料,不必提供參照轉錄稿做為訓練集。不過,您必須在評估集中提供音訊資料和參考轉錄稿。
建立及使用自訂 Speech-to-Text 模型需要完成下列步驟:
- 準備訓練資料並上傳至 Cloud Storage 值區。
- 訓練新的自訂模型。
- 使用端點部署及管理自訂模型。
- 在應用程式中使用及評估自訂模型。
運作方式
您可以運用自訂 Speech-to-Text 模型擴增基本轉錄模型,提升轉錄辨識準確度。部分音訊狀況 (包括警報聲、音樂和過多的背景噪音) 可能會造成聲學挑戰。特定口音或不尋常的詞彙,例如產品名稱。
每個自訂語音轉文字模型都會使用預先訓練的 Conformer 架構,做為以常用語言專屬資料訓練的基礎模型。在訓練過程中,我們會調整基礎模型的大部分原始權重,藉此微調模型,以提升對特定領域詞彙的辨識能力,並配合應用程式的特定音訊條件。
如要有效訓練自訂語音轉文字模型,請提供:
- 至少 100 小時的訓練資料,可以是只有音訊,也可以是音訊和對應的文字轉錄稿 (做為基準真相)。這項資料對於初始訓練階段至關重要,可讓模型全面瞭解語音模式和詞彙的細微差異。詳情請參閱「建立基本事實資料集」。
- 至少 10 小時的驗證資料,以及對應的文字轉錄稿 (基準真相)。如要進一步瞭解預期格式和應遵循的實際情況慣例,請參閱資料準備說明。
訓練完成後,您只要按一下滑鼠,就能在端點中部署 Custom Speech-to-Text 模型,並透過 Cloud Speech-to-Text V2 API 直接使用模型進行推論和基準化。
支援的機型、語言和地區
自訂語音轉文字模型支援下列模型、語言和語言代碼組合,可用於訓練:
語言 | BCP-47 | 基礎模型 |
---|---|---|
德文 (德國) |
de-DE |
|
英文 (澳洲) |
en-AU |
|
英文 (英國) |
en-GB |
|
英文 (印度) |
en-IN |
|
英文 (美國) |
en-US |
|
西班牙文 (美國) |
es-US |
|
西班牙文 (西班牙) |
es-ES |
|
法文 (加拿大) |
fr-CA |
|
法文 (法國) |
fr-FR |
|
北印度文 (印度) |
hi-IN |
|
義大利文 (義大利) |
it-IT |
|
日文 (日本) |
ja-JP |
|
韓文 (南韓) |
ko-KR |
|
荷蘭文 (荷蘭) |
nl-NL |
|
葡萄牙文 (巴西) |
pt-BR |
|
葡萄牙語 (葡萄牙) |
pt-PT |
|
此外,為符合資料落地規定,我們在不同區域提供訓練和部署硬體。下列機型和地區組合支援專屬硬體:
基礎模型 | Google Cloud 區域 | 支援的作業 |
---|---|---|
|
|
訓練和部署 |
|
|
訓練和部署 |
配額
如要訓練 Custom Speech-to-Text 模型,每個 Google Cloud 專案都應有足夠的預設配額,可同時執行多項訓練工作,且應能滿足大多數專案的需求,不必額外調整。不過,如果您需要同時執行更多訓練工作,或需要更廣泛的標籤或運算資源,請申請額外配額。
如果自訂語音轉文字模型服務的端點部署作業,每個端點的理論上限為每秒 20 次查詢 (QPS)。如需更高的輸送量,請申請更多服務配額。
定價
建立及使用自訂語音轉文字模型會產生特定費用,主要取決於模型訓練和後續部署期間所用的資源。具體來說,在一般模型生命週期中,自訂語音轉文字模型會產生下列費用:
- 訓練:系統會根據模型訓練時數計費。這段時間與訓練資料集中的音訊時數成正比。一般來說,訓練時間是資料集中音訊時數的十分之一。
- 部署:模型部署至端點後,系統會按小時收費。
- 推論:系統會根據轉錄的音訊串流秒數向您收費,與一般的語音轉文字服務計費方式一致。
瞭解這些費用是有效編列預算和分配資源的關鍵。詳情請參閱「自訂語音轉文字模型」一節中的「Cloud Speech-to-Text 定價」。
後續步驟
請參閱下列資源,瞭解如何在應用程式中運用自訂語音模型: