總覽
自動語音辨識 (ASR) (又稱為機器轉錄或語音轉文字 (STT)) 會運用機器學習技術,將含有語音的音訊轉換為文字。ASR 的應用範圍廣泛,從字幕、虛擬助理、互動式語音回應 (IVR) 到聽寫等都有。不過,機器學習系統很少有 100% 準確率,ASR 也不例外。如果您打算在關鍵系統中使用 ASR,請務必評估其準確度或整體品質,瞭解系統整合 ASR 後的運作情形。
測量準確度後,您可以調整系統,讓系統在特定情況下提供更準確的結果。在 Google 的 Cloud Speech-to-Text API 中,您可以選擇最合適的辨識模型,並使用 Speech Adaptation API 進行準確度調整。我們提供多種模型,可針對不同用途進行調整,例如長篇音訊、醫療或電話對話。
定義語音準確度
語音準確度可透過多種方式評估。視需求使用多個指標可能會更有幫助。不過,業界標準的比較方法是字詞錯誤率 (WER),通常簡稱為 WER。WER 會評估整個語音轉錄資料集中錯誤的字詞百分比。WER 越低,表示系統越準確。
您也可能會在 ASR 準確度相關內容中看到「真實值」一詞。基準真相是指 100% 準確的轉錄內容,通常由人提供,用於比較和評估準確度。
字詞錯誤率 (WER)
WER 是三種可能發生的轉錄錯誤組合:
- 插入錯誤 (I):假設轉錄稿中出現的字詞,但實際上並未出現在基準真相檔案中。
- 替換錯誤 (S):假設值和基準真相檔案中都有出現的字詞,但轉錄結果不正確。
- 刪除錯誤 (D):假設內容中缺少的字詞,但基準真相中出現。
\[WER = {S+R+Q \over N}\]
如要計算 WER,請將每種錯誤的總數相加,然後除以基準真相轉錄稿的字詞總數 (N)。在準確度極低的情況下,WER 可能會超過 100%,例如插入大量新文字時。注意:取代作業基本上是刪除後再插入,有些取代作業的嚴重程度較低。舉例來說,替換單一字母與替換單字的效果可能不同。
WER 與可信度分數的關係
WER 指標與信心分數無關,兩者通常不相關。可信度分數是根據可能性計算,而 WER 則是根據字詞是否正確辨識而計算。如果系統無法正確辨識字詞,即使是輕微的文法錯誤也可能導致 WER 偏高。如果系統正確辨識字詞,WER 值會偏低,但如果該字詞出現頻率不高,或是音訊雜訊過多,系統仍可能會判定機率偏低,進而降低可信度。
同樣地,常用字詞很可能會正確轉錄,因此可信度分數會偏高。舉例來說,如果系統在「I」和「eye」之間發現差異,可能會出現高信賴度,因為「I」是更常見的字,但 WER 指標會因此降低。
總而言之,信心度和 WER 指標是獨立的,不應預期兩者之間存在關聯。
正規化
計算 WER 指標時,系統會將機器轉錄內容與人工提供的基準真相轉錄內容進行比較。系統會先將兩份轉錄稿的文字進行標準化,再進行比較。比較機器轉錄結果與人工提供的真值轉錄結果時,系統會移除標點符號,並忽略大小寫。
真值慣例
請注意,目前沒有任何人類認可的語音轉錄格式。這項決定需要考量許多因素。例如,音訊可能含有其他非語音的聲音,例如「嗯」、「嗯哼」、「嗯哼」等。部分 Cloud STT 模型 (例如「medical_conversation」) 會納入這些發音,其他模型則不會。因此,實際資料慣例必須與所評估模型的慣例相符。下列大致的規範可用於為特定音訊準備真實的文字轉錄。
- 除了標準字母,您也可以使用 0 到 9 的數字。
- 請勿使用「@」、「#」、「$」、「.」等符號,改用「at」、「hash」、「dollar」、「dot」等字詞。
- 請使用「%」,但前面必須加上數字;否則,請使用「百分比」一詞。
只有在後面接數字時,才使用「\$」,例如「牛奶是 \$3.99」。
請使用字詞表示小於 10 的數字,
- 例如:「我有四隻貓和 12 頂帽子」。
請使用數字表示度量單位、貨幣和百萬、十億或兆等大數字。舉例來說,請使用「750 萬」而非「七百五十萬」。
請勿在下列情況下使用縮寫:
建議做法: 禁止事項 Warriors 對 Lakers Warriors vs Lakers 我住在桂林路 123 號 我住在凱達格蘭大道 1 號
評估語音準確度
請按照下列步驟,開始使用音訊判定準確度:
收集測試音訊檔案
收集具代表性的音訊檔案樣本,以評估檔案品質。此樣本應隨機產生,並盡可能接近目標環境。舉例來說,如果您想將客服中心的對話內容轉錄為文字,以利品質控管,請隨機選取幾通實際通話,並使用製作音訊所用的設備錄製。如果音訊是使用手機或電腦麥克風錄製,且不代表您的用途,請勿使用錄製的音訊。
錄製至少 30 分鐘的音訊,才能取得統計顯著的準確度指標。建議使用 30 分鐘至 3 小時的音訊。本實驗室會提供音訊。
取得真值轉錄稿
取得準確的音訊轉錄內容。這通常需要人工轉錄目標音訊一次或兩次。你的目標是取得 100% 準確的轉錄稿,以便評估自動轉錄結果。
取得基準真相轉錄內容時,請務必盡可能符合目標語音辨識系統的轉錄慣例。例如,請確保標點符號、數字和大小寫都一致。
取得機器轉錄稿,並修正你發現的任何文字問題。
取得機器轉錄稿
將音訊傳送至 Google Speech-to-Text API,然後使用 Speech-to-Text UI 取得假設轉錄內容。
將真值與音訊配對
在 UI 工具中,按一下「Attach Ground Truth」(附加真值),將特定音訊檔案與所提供的真值關聯。完成附件後,您可以查看 WER 指標和所有差異的視覺化資料。