這個頁面說明如何使用同步語音辨識功能,將短音訊檔案轉錄為文字內容。
同步語音辨識會針對短音訊 (少於 60 秒) 傳回辨識出的文字。如要處理長度超過 60 秒的音訊語音辨識要求,請使用非同步語音辨識。
您可以從本機檔案將音訊內容直接傳送至 Speech-to-Text,也可以讓 Speech-to-Text 處理儲存在 Google Cloud Storage 值區中的音訊內容。如要瞭解同步語音辨識要求的限制,請參閱配額與限制頁面。
對本機檔案執行同步語音辨識
以下是對本機音訊檔案執行同步語音辨識的範例:
REST
如要瞭解完整的詳細資訊,請參閱 speech:recognize
API 端點。如要進一步瞭解如何設定要求內容,請參閱 RecognitionConfig 參考說明文件。
要求主體中提供的音訊內容必須採用 Base64 編碼。
如要進一步瞭解如何使用 Base64 編碼音訊,請參閱「Base64 編碼音訊內容」。如要進一步瞭解 content
欄位,請參閱 RecognitionAudio。
使用任何要求資料之前,請先替換以下項目:
- LANGUAGE_CODE:音訊片段中使用的語言 BCP-47 代碼。
- ENCODING:要轉錄的音訊編碼。
- SAMPLE_RATE_HERTZ:要轉錄音訊的取樣率 (單位為赫茲)。
- ENABLE_WORD_TIME_OFFSETS:如要傳回字詞的開始和結束時間偏移 (時間戳記),請啟用這個欄位。
- INPUT_AUDIO:要轉錄的音訊資料,採用 Base64 編碼的字串。
- PROJECT_ID:專案的英數字元 ID。 Google Cloud
HTTP 方法和網址:
POST https://speech.googleapis.com/v1/speech:recognize
JSON 要求主體:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
如要瞭解完整的詳細資訊,請參閱 recognize
指令。
如要對本機檔案執行語音辨識,請使用 Google Cloud CLI,並傳遞要執行語音辨識的檔案本機檔案路徑。
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
如果要求成功,伺服器會傳回 JSON 格式的回應:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Go API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Java
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Java API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Node.js API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Python API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Speech-to-Text 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Speech-to-Text 參考文件。
Ruby: 請按照用戶端程式庫頁面的Ruby 設定說明操作, 然後前往 Ruby 適用的 Speech-to-Text 參考說明文件。
對遠端檔案執行同步語音辨識
為方便起見,Speech-to-Text API 可以對位於 Google Cloud Storage 中的音訊檔案直接執行同步語音辨識,您無需在要求內容中傳送音訊檔案的內容。
以下是對位於 Cloud Storage 中的檔案執行同步語音辨識的範例:
REST
如要瞭解完整的詳細資訊,請參閱 speech:recognize
API 端點。如要進一步瞭解如何設定要求內容,請參閱 RecognitionConfig 參考說明文件。
要求主體中提供的音訊內容必須採用 Base64 編碼。
如要進一步瞭解如何使用 Base64 編碼音訊,請參閱「Base64 編碼音訊內容」。如要進一步瞭解 content
欄位,請參閱 RecognitionAudio。
使用任何要求資料之前,請先替換以下項目:
- LANGUAGE_CODE:音訊片段中使用的語言 BCP-47 代碼。
- ENCODING:要轉錄的音訊編碼。
- SAMPLE_RATE_HERTZ:要轉錄音訊的取樣率 (赫茲)。
- ENABLE_WORD_TIME_OFFSETS:如要傳回字詞的開始和結束時間偏移 (時間戳記),請啟用這個欄位。
- STORAGE_BUCKET:Cloud Storage bucket。
- INPUT_AUDIO:要轉錄的音訊資料檔案。
- PROJECT_ID:專案的英數字元 ID。 Google Cloud
HTTP 方法和網址:
POST https://speech.googleapis.com/v1/speech:recognize
JSON 要求主體:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
如要瞭解完整的詳細資訊,請參閱 recognize
指令。
如要對本機檔案執行語音辨識,請使用 Google Cloud CLI,並傳遞要執行語音辨識的檔案本機檔案路徑。
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
如果要求成功,伺服器會傳回 JSON 格式的回應:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Go API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Java
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Java API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Node.js API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
如要瞭解如何安裝及使用 Speech-to-Text 的用戶端程式庫,請參閱這篇文章。 詳情請參閱 Speech-to-Text Python API 參考說明文件。
如要向語音轉文字服務進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Speech-to-Text 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Speech-to-Text 參考文件。
Ruby: 請按照用戶端程式庫頁面的Ruby 設定說明操作, 然後前往 Ruby 適用的 Speech-to-Text 參考說明文件。