Puoi specificare che Speech-to-Text indichi un valore di accuratezza, o livello di confidenza, per singole parole in una trascrizione.
Sicurezza a livello di parola
Quando la funzionalità di Speech-to-Text trascrive un clip audio, misura anche il grado di accuratezza della risposta. La risposta inviata da Speech-to-Text indica il livello di confidenza per l'intera richiesta di trascrizione come numero compreso tra 0,0 e 1,0. Il seguente esempio di codice mostra un esempio del valore del livello di confidenza restituito da Speech-to-Text.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96748614 } ] } ] }
Oltre al livello di confidenza dell'intera trascrizione,
Speech-to-Text può anche fornire il livello di confidenza
di singole parole all'interno della trascrizione. La risposta include quindi i dettagli di WordInfo
nella trascrizione, che indica il livello di affidabilità per le singole parole, come mostrato nell'esempio seguente.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startOffset": "0s", "endOffset": "0.300s", "word": "how", "confidence": SOME NUMBER }, ... ] } ] } ] }
Attivare la sicurezza a livello di parola in una richiesta
Il seguente snippet di codice mostra come attivare l'affidabilità a livello di parola in una richiesta di trascrizione a Speech-to-Text utilizzando file locali e remoti.
Utilizzare un file locale
Protocollo
Per informazioni dettagliate, consulta l'endpoint API speech:recognize
.
Per eseguire il riconoscimento vocale sincrono, effettua una richiesta POST
e fornisci il corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza Google Cloud CLI per generare un token di accesso. Per istruzioni sull'installazione di gcloud CLI,
consulta la guida rapida.
L'esempio seguente mostra come inviare una richiesta POST
mediante curl
, in cui il corpo della richiesta consente di ottenere l'affidabilità a livello di parola.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/global/recognizers/{recognizers}:recognize \ --data '{ "config": { "features": { "enableWordTimeOffsets": true, "enableWordConfidence": true } }, "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" }' > word-level-confidence.txt
Se la richiesta riesce, il server restituisce un codice di stato HTTP 200 OK
e la risposta in formato JSON, salvata in un file denominato word-level-confidence.txt
.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395, "words": [ { "startTime": "0s", "endTime": "0.300s", "word": "how", "confidence": 0.98762906 }, { "startTime": "0.300s", "endTime": "0.600s", "word": "old", "confidence": 0.96929157 }, { "startTime": "0.600s", "endTime": "0.800s", "word": "is", "confidence": 0.98271006 }, { "startTime": "0.800s", "endTime": "0.900s", "word": "the", "confidence": 0.98271006 }, { "startTime": "0.900s", "endTime": "1.100s", "word": "Brooklyn", "confidence": 0.98762906 }, { "startTime": "1.100s", "endTime": "1.500s", "word": "Bridge", "confidence": 0.98762906 } ] } ], "languageCode": "en-us" } ] }
Python
Per scoprire come installare e utilizzare la libreria client per Speech-to-Text, consulta la sezione Librerie client di Speech-to-Text. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Speech-to-Text per Python.
Per autenticarti in Speech-to-Text, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.