本頁面說明如何使用特定的機器學習模型,向 Speech-to-Text 提出音訊轉錄要求。
轉錄模型
語音轉文字可以將輸入內容與機器學習「模型」進行比較,藉此偵測音訊剪輯內的字詞。每個模型都經過訓練,分析過數百萬名說話者的錄音內容。
Speech-to-Text 的特殊模型是使用特定來源的音訊 (例如通話或影片) 進行訓練。當您將經過這類訓練程序的特殊模型運用至類似的音訊資料時,就能獲得更好的結果。
舉例來說,Speech-to-Text 的轉錄模型經過訓練,可以辨識透過電話錄製的語音。Speech-to-Text 使用 telephony
或 telephony_short
模型轉錄電話音訊時,會比使用 latest_short
或 latest_long
模型轉錄電話音訊時,產生更準確的轉錄結果。
下表說明可與 Speech-to-Text 搭配使用的轉錄模型。
模型名稱 | 說明 |
---|---|
latest_long |
這個模型適用於任何長篇內容,例如媒體或即時語音和對話。建議使用這個模型取代影片模型,特別是當影片模型不支援目標語言時。您也可以使用這個模型取代預設模型。 |
latest_short |
這個模型適用於幾秒鐘的短語音。這項功能適用於嘗試擷取指令或其他單次拍攝的導向語音應用情境。建議使用這個模型,取代指令和搜尋模型。 |
telephony |
「phone_call」模型的改良版本,最適合源自電話語音的音訊,錄音取樣率通常為 8 kHz。 |
telephony_short |
專為電話語音設計的現代「電話」模型,適用於簡短或單字語音,錄音取樣率通常為 8 kHz。 |
medical_dictation |
使用這個模型轉錄醫療專業人員口述的筆記。 提醒您,這是進階模型,費用比一般費率更高。詳情請參閱定價頁面。 |
medical_conversation |
使用這個模型轉錄醫療專業人員與病患之間的對話。 提醒您,這是進階模型,費用比一般費率更高。詳情請參閱定價頁面。 |
下列模型大多以傳統的非一致性架構為基礎,主要保留用於舊版和回溯相容性。 | |
command_and_search |
最適用於短時間或單一字詞的音訊內容,例如語音指令或語音搜尋。 |
default |
最適用於不適合其他音訊模型的音訊檔,像是時間較長的音訊或語音輸入。預設模型會為任何類型的音訊產生轉錄結果,包括有專屬模型的音訊,例如影片片段。不過,使用預設模型辨識短片音訊時,辨識結果的品質可能不如使用影片模型。理想情況下為高傳真音訊,且錄音取樣率為 16kHz 以上。 |
phone_call |
適用於電話語音 (錄音取樣率通常為 8kHz)。 |
video |
適用於影片片段或其他來源 (例如 Podcast) 的音訊,或是有多人說話的音訊。如果音訊是使用高品質麥克風錄製,或是含有大量背景噪音,這個模型通常也是最佳選擇。為取得最佳結果,請提供以 16,000 Hz 以上取樣率錄製的音訊。 |
選擇用於音訊轉錄的模型
如要指定用於音訊轉錄的特定模型,請在要求的 RecognitionConfig
參數中,將 model
欄位設為允許的值,例如 latest_long
、latest_short
、telephony
或 telephony_short
。Speech-to-Text 支援所有語音辨識方法的模型選取:speech:recognize
、speech:longrunningrecognize
和串流。
轉錄本機音訊檔案
通訊協定
如要瞭解完整的詳細資訊,請參閱 speech:recognize
API 端點。
如要執行同步語音辨識,請提出 POST
要求並提供適當的要求內容。以下為使用 curl
的 POST
要求示例。這個範例使用 Google Cloud CLI 產生存取權杖。如需安裝 gcloud CLI 的操作說明,請參閱快速入門導覽課程。
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
如需設定要求內容的更多資訊,請參閱 RecognitionConfig
參考說明文件。
如果要求成功,伺服器會傳回 200 OK
HTTP 狀態碼與 JSON 格式的回應:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Go API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Java
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Java API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Node.js API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Python API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Speech-to-Text 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Speech-to-Text 參考文件。
Ruby: 請按照用戶端程式庫頁面的Ruby 設定說明操作, 然後前往 Ruby 適用的 Speech-to-Text 參考說明文件。
轉錄 Cloud Storage 音訊檔案
Go
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Go API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Java
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Java API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Node.js API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Speech-to-Text 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Speech-to-Text 參考文件。
Ruby: 請按照用戶端程式庫頁面的Ruby 設定說明操作, 然後前往 Ruby 適用的 Speech-to-Text 參考說明文件。