自訂語音模型總覽

您可以使用自訂 Speech-to-Text 模型,根據特定需求微調語音辨識模型。這項服務旨在使用您的特定領域音訊和文字資料,提升語音辨識服務在各種環境和用途中的準確度和相關性。

自訂語音轉文字模型可在 Google Cloud 控制台和 API 中使用,可在無程式碼整合環境中訓練、評估及部署專屬語音模型。訓練時,您只能提供代表音訊條件的音訊資料,而不需要提供參考轉錄內容做為訓練集。不過,您必須提供音訊資料和參考轉錄內容,做為評估集的一部分。

建立及使用自訂 Speech-to-Text 模型的步驟如下:

  1. 在 Cloud Storage 值區中準備及上傳訓練資料。
  2. 訓練新的自訂模型。
  3. 使用端點部署及管理自訂模型。
  4. 在應用程式中使用及評估自訂模型。

運作方式

您可以使用自訂 Speech-to-Text 模型來擴充基本轉錄模型,藉此改善轉錄辨識功能。某些音訊條件 (包括警報器、音樂和過多的背景噪音) 可能會造成音訊問題。某些口音或不尋常的詞彙,以及這類產品名稱也可能會遭到拒絕。

每個自訂 Speech-to-Text 模型都會使用預先訓練的 Conformer 架構,做為以常用語言的專屬資料訓練的基礎模型。在訓練過程中,系統會調整原始權重的重要百分比,藉此微調基礎模型,改善對特定領域專有名詞和應用程式專屬音訊條件的辨識能力。

如要有效訓練自訂 Speech-to-Text 模型,您必須提供下列項目:

  • 至少 100 小時的音訊訓練資料,可以是純音訊,也可以是音訊搭配對應的文字轉錄稿做為真值。這類資料對於初始訓練階段至關重要,可讓模型全面學習語音模式和字彙的細微差異。詳情請參閱「建立真實值資料集」。
  • 至少 10 小時的音訊驗證資料,以及對應的文字轉錄稿做為基準真相的獨立資料集。如要進一步瞭解預期格式和應遵循的真實值慣例,請參閱資料準備操作說明

訓練完成後,您可以一鍵在端點中部署自訂語音轉文字模型,並直接透過 Cloud Speech-to-Text V2 API 使用該模型進行推論和基準測試。

支援的裝置、語言和地區

自訂語音轉文字模型支援下列模型、語言和語言代碼組合,用於訓練:

語言 BCP-47 基礎模型

德文 (德國)

de-DE

latest_long

英文 (澳洲)

en-AU

latest_long

英文 (英國)

en-GB

latest_long

英文 (印度)

en-IN

latest_long

英文 (美國)

en-US

latest_long

西班牙文 (美國)

es-US

latest_long

西班牙文 (西班牙)

es-ES

latest_long

法文 (加拿大)

fr-CA

latest_long

法文 (法國)

fr-FR

latest_long

北印度文 (印度)

hi-IN

latest_long

義大利文 (義大利)

it-IT

latest_long

日文 (日本)

ja-JP

latest_long

韓文 (南韓)

ko-KR

latest_long

荷蘭文 (荷蘭)

nl-NL

latest_long

葡萄牙文 (巴西)

pt-BR

latest_long

葡萄牙語 (葡萄牙)

pt-PT

latest_long

此外,為了符合您的資料落地規定,我們會在不同區域提供訓練和部署硬體。下列型號和地區組合支援專用硬體:

基礎模型 Google Cloud 區域 支援的工作

latest_long

us-east1

訓練部署

latest_long

europe-west4

訓練部署

配額

針對自訂語音轉文字模型訓練,每個 Google Cloud 專案應具備足夠的預設配額,可同時執行多個訓練工作,且可滿足大多數專案的需求,無須額外調整。不過,如果您需要執行更多並行訓練工作,或需要更多標註或運算資源,請申請額外配額。

如果自訂語音轉文字模型提供端點部署,每個端點的理論上限為 每秒 20 次查詢 (QPS)。如果需要更高的輸送量,請要求額外的放送配額。

定價

建立及使用自訂 Speech-to-Text 模型會產生特定費用,主要取決於訓練模型和後續部署模型時所使用的資源。具體來說,自訂 Speech-to-Text 模型在典型模型生命週期中會產生下列費用:

  • 訓練:系統會根據模型訓練時數收取費用。這段時間與訓練資料集中的音訊小時數成正比。一般來說,訓練作業需要的時間是資料集中音訊小時數的十分之一。
  • 部署作業:模型在端點上部署的每小時費用。
  • 推論:系統會根據語音轉錄功能的一般計費方式,依音訊串流秒數向您收費。

瞭解這些成本對於有效編列預算和分配資源至關重要。如需更多資訊,請參閱「自訂語音轉文字模型」一節中的 Cloud Speech-to-Text 定價

後續步驟

請參閱下列資源,瞭解如何在應用程式中使用自訂語音模型: