評估並改善準確度

在本快速入門導覽課程中,您將瞭解如何評估及提升音訊資料的 Google Cloud 語音轉文字準確率。此外,您也可以瞭解 API 提供的各種模型和選項,進一步提升轉錄準確度。瞭解如何使用 Google Cloud 控制台中的 Speech-to-Text 使用者介面和真值檔案,評估準確率並深入瞭解 Speech-to-Text 系統。

機器學習 (ML) 系統本質上容易出錯,自動語音辨識 (ASR) 系統 (又稱語音轉文字系統) 也不例外。準確度評估結果與特定用途和評估系統密切相關,因為錄音品質和聲學條件的差異可能會大幅影響準確度。因此,為所有客戶和用途提供單一準確度分數並不實際。為確保 ASR 系統在關鍵的正式環境系統中穩定運作,此外,瞭解語音轉文字在系統整體環境中的效能也很重要。

在本快速入門指南中,請使用業界標準的比較方法「字詞錯誤率 (WER)」(通常簡稱為 WER)。如要進一步瞭解 WER 的計算和解讀方式,請參閱「評估及提升語音準確度」。開始吧

開始使用 Speech-to-Text 控制台

請確認你已註冊 Google Cloud 帳戶並建立專案。1. 前往控制台的「Speech」(語音) Google Cloud ,然後前往「Speech-to-Text UI」(語音轉文字 UI)。 2. 使用音訊檔案 (在聲學上代表您的用途,以及您打算如何使用 ASR 系統),按照快速入門指示,使用 Speech-to-Text 進行第一次轉錄。

計算轉錄準確率

  1. 成功轉錄音訊檔案後,請使用 Transcription Accuracy 區段。系統計算轉錄稿的準確度前,這個部分會維持空白。
  2. 使用本節頂端的「上傳基本事實」按鈕,即可開始計算準確度。
    Speech-to-Text 轉錄詳細資料頁面的螢幕截圖,顯示轉錄準確率部分和「上傳基準真相」按鈕

指定基準真相

  1. 如要計算轉錄內容的準確率,請提供真值檔案。這是 .txt.csv 檔案,通常是人為生成的轉錄稿檔案,內含正確或預期的轉錄稿,可供比較。
  2. gs://cloud-samples-data/speech/brooklyn_bridge.wav 為例。真值檔案包含:How old is the Brooklyn Bridge。如果沒有真值檔案,建議下載文字格式的轉錄稿。視需要編輯轉錄稿檔案。上傳轉錄稿檔案做為真值檔案。
  3. 使用「上傳」或現有的 Cloud Storage 檔案,指定真值檔案,然後按一下「儲存」
    語音轉文字轉錄稿建立頁面的螢幕截圖,顯示選取或上傳真值檔案。

確認真值

  1. 按一下「儲存」後,系統會顯示提示,請確認指定的基準真相檔案是否正確。確認基準真相檔案準確呈現正確的轉錄內容,因為這會直接影響準確率指標。
  2. 按一下「確認」即可繼續操作。
    Speech-to-Text 轉錄頁面的螢幕截圖,顯示上傳的真值檔案內容。

查看評估結果

  1. 視輸入資料的大小而定,評估程序可能需要一些時間,完成後系統會顯示結果。
  2. 評估完成後,系統會顯示下列部分:
    • 「轉錄準確率」表格、準確率指標,以及程序中使用的基準真相檔案連結。
    • Transcription,並提供切換按鈕,可與基準真相檔案進行比較,以及顯示準確率指標和重點。
  3. 請查看並解讀準確率結果,瞭解用來找出待改進領域的 Speech-to-Text 辨識器成效,因為結果會因輸入內容和轉錄內容而異。在下列範例中,您可以看到準確度結果的指標案例,這些案例可提供寶貴的洞察資料,協助您最佳化 Google Cloud 語音轉文字系統。
    • WER 為 0% 的範例:
      螢幕截圖:顯示 Speech-to-Text 轉錄準確度頁面,其中顯示指定轉錄內容的計算評估結果,字詞錯誤率為 0%。
    • 字詞錯誤率 40% 的範例:
      文字轉語音轉錄準確度頁面的螢幕截圖,顯示指定轉錄內容的計算評估結果,字詞錯誤率為 40%。

選用:更新真值

如要根據現有轉錄稿測試其他基準真相,請重新附加其他檔案,然後使用更新後的基準真相檔案重複步驟三和四。

歡迎試用

如果您未曾使用過 Google Cloud,歡迎建立帳戶,親自體驗實際使用 Speech-to-Text 的成效。新客戶可以獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。

免費試用 Speech-to-Text