Trascrivere il parlato in testo utilizzando l'API
Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Speech-to-Text utilizzando l'interfaccia REST e il comando curl
.
Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Speech-to-Text, che restituisce una trascrizione del testo del file audio. Per ulteriori informazioni sul servizio, consulta Nozioni di base su Speech-to-Text.
Prima di iniziare
Prima di poter inviare una richiesta all'API Speech-to-Text, devi aver completato le seguenti azioni. Per informazioni dettagliate, consulta la pagina Prima di iniziare.
- Attivare Speech-to-Text in un progetto Google Cloud.
- Assicurati che la fatturazione sia attivata per Speech-to-Text.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i dati audio.
Esecuzione di una richiesta di trascrizione audio
Ora puoi utilizzare Speech-to-Text per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta REST recognize
all'API Speech-to-Text.
-
Crea un file di richiesta JSON con il testo seguente e salvalo come
sync-request.json
file di testo normale:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio è archiviato su Google Cloud Storage all'URI specificato. Il file audio è accessibile al pubblico, quindi non hai bisogno di credenziali di autenticazione per accedervi.
-
Utilizza
curl
per inviare una richiestaspeech:recognize
, passando il nome del file della richiesta JSON configurata nel passaggio 1:Il comando
curl
di esempio utilizza il comandogcloud auth print-access-token
per ottenere un token di autenticazione.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Tieni presente che per passare un nome file a
curl
devi utilizzare l'opzione-d
(per "data") e precedere il nome file con il segno@
. Questo file deve trovarsi nella stessa directory in cui esegui il comandocurl
.Dovresti visualizzare una risposta simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Complimenti! Hai inviato la tua prima richiesta a Speech-to-Text.
Se ricevi un errore o una risposta vuota da Speech-to-Text, consulta i passaggi per la risoluzione dei problemi e la mitigazione degli errori.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Utilizza la console Google Cloud per eliminare il progetto se non ti serve.
Passaggi successivi
- Fai pratica di trascrizione di file audio brevi.
- Scopri come eseguire il batch di file audio lunghi per il riconoscimento vocale.
- Scopri come trascrivere l'audio in streaming, ad esempio da un microfono.
- Inizia a utilizzare Speech-to-Text nella lingua che preferisci utilizzando una libreria client Speech-to-Text.
- Esamina le applicazioni di esempio.
- Per ottenere il massimo rendimento e la massima precisione e altri suggerimenti, consulta la documentazione relativa alle best practice.