您可以使用自訂 Speech-to-Text 模型,根據特定需求微調語音辨識模型。這項服務旨在使用您的特定領域音訊和文字資料,提升語音辨識服務在各種環境和用途中的準確度和相關性。
自訂語音轉文字模型可在 Google Cloud 控制台和 API 中使用,可在無程式碼整合環境中訓練、評估及部署專屬語音模型。訓練時,您只能提供代表音訊條件的音訊資料,而不需要提供參考轉錄內容做為訓練集。不過,您必須提供音訊資料和參考轉錄內容,做為評估集的一部分。
建立及使用自訂 Speech-to-Text 模型的步驟如下:
- 在 Cloud Storage 值區中準備及上傳訓練資料。
- 訓練新的自訂模型。
- 使用端點部署及管理自訂模型。
- 在應用程式中使用及評估自訂模型。
運作方式
您可以使用自訂 Speech-to-Text 模型來擴充基本轉錄模型,藉此改善轉錄辨識功能。某些音訊條件 (包括警報器、音樂和過多的背景噪音) 可能會造成音訊問題。某些口音或不尋常的詞彙,以及這類產品名稱也可能會遭到拒絕。
每個自訂 Speech-to-Text 模型都會使用預先訓練的 Conformer 架構,做為以常用語言的專屬資料訓練的基礎模型。在訓練過程中,系統會調整原始權重的重要百分比,藉此微調基礎模型,改善對特定領域專有名詞和應用程式專屬音訊條件的辨識能力。
如要有效訓練自訂 Speech-to-Text 模型,您必須提供下列項目:
- 至少 100 小時的音訊訓練資料,可以是純音訊,也可以是音訊搭配對應的文字轉錄稿做為真值。這類資料對於初始訓練階段至關重要,可讓模型全面學習語音模式和字彙的細微差異。詳情請參閱「建立真實值資料集」。
- 至少 10 小時的音訊驗證資料,以及對應的文字轉錄稿做為基準真相的獨立資料集。如要進一步瞭解預期格式和應遵循的真實值慣例,請參閱資料準備操作說明。
訓練完成後,您可以一鍵在端點中部署自訂語音轉文字模型,並直接透過 Cloud Speech-to-Text V2 API 使用該模型進行推論和基準測試。
支援的裝置、語言和地區
自訂語音轉文字模型支援下列模型、語言和語言代碼組合,用於訓練:
語言 | BCP-47 | 基礎模型 |
---|---|---|
德文 (德國) |
de-DE |
|
英文 (澳洲) |
en-AU |
|
英文 (英國) |
en-GB |
|
英文 (印度) |
en-IN |
|
英文 (美國) |
en-US |
|
西班牙文 (美國) |
es-US |
|
西班牙文 (西班牙) |
es-ES |
|
法文 (加拿大) |
fr-CA |
|
法文 (法國) |
fr-FR |
|
北印度文 (印度) |
hi-IN |
|
義大利文 (義大利) |
it-IT |
|
日文 (日本) |
ja-JP |
|
韓文 (南韓) |
ko-KR |
|
荷蘭文 (荷蘭) |
nl-NL |
|
葡萄牙文 (巴西) |
pt-BR |
|
葡萄牙語 (葡萄牙) |
pt-PT |
|
此外,為了符合您的資料落地規定,我們會在不同區域提供訓練和部署硬體。下列型號和地區組合支援專用硬體:
基礎模型 | Google Cloud 區域 | 支援的工作 |
---|---|---|
|
|
訓練和部署 |
|
|
訓練和部署 |
配額
針對自訂語音轉文字模型訓練,每個 Google Cloud 專案應具備足夠的預設配額,可同時執行多個訓練工作,且可滿足大多數專案的需求,無須額外調整。不過,如果您需要執行更多並行訓練工作,或需要更多標註或運算資源,請申請額外配額。
如果自訂語音轉文字模型提供端點部署,每個端點的理論上限為 每秒 20 次查詢 (QPS)。如果需要更高的輸送量,請要求額外的放送配額。
定價
建立及使用自訂 Speech-to-Text 模型會產生特定費用,主要取決於訓練模型和後續部署模型時所使用的資源。具體來說,自訂 Speech-to-Text 模型在典型模型生命週期中會產生下列費用:
- 訓練:系統會根據模型訓練時數收取費用。這段時間與訓練資料集中的音訊小時數成正比。一般來說,訓練作業需要的時間是資料集中音訊小時數的十分之一。
- 部署作業:模型在端點上部署的每小時費用。
- 推論:系統會根據語音轉錄功能的一般計費方式,依音訊串流秒數向您收費。
瞭解這些成本對於有效編列預算和分配資源至關重要。如需更多資訊,請參閱「自訂語音轉文字模型」一節中的 Cloud Speech-to-Text 定價。
後續步驟
請參閱下列資源,瞭解如何在應用程式中使用自訂語音模型: