In questa guida rapida, scopri come misurare e migliorare l'accuratezza della funzionalità Google Cloud Speech-to-Text per i tuoi dati audio. Esplora anche i vari modelli e opzioni disponibili dall'API per migliorare l'accuratezza della trascrizione. Scopri come utilizzare l'interfaccia utente di Speech-to-Text nella console Google Cloud e un file di dati empirici reali per misurare l'accuratezza e ottenere informazioni sul sistema Speech-to-Text.
I sistemi di machine learning (ML) sono intrinsecamente soggetti a imprecisioni e i sistemi di riconoscimento vocale automatico (ASR), noti anche come sistemi di Speech-to-Text, non fanno eccezione. La misurazione accurata dell'accuratezza è strettamente correlata a casi d'uso specifici e ai sistemi in fase di valutazione, poiché le differenze nella qualità della registrazione audio e nelle condizioni acustiche possono influire in modo significativo sull'accuratezza. Di conseguenza, un unico punteggio di accuratezza per tutti i clienti e i casi d'uso non è pratico. Per garantire prestazioni affidabili dei sistemi ASR nei sistemi di produzione critici. È inoltre essenziale comprendere le prestazioni di Speech-to-Text nel contesto più ampio del sistema.
Ai fini di questa guida rapida,utilizza il metodo standard del settore per il confronto, il tasso di errore di parola (WER), spesso abbreviato in WER. Per ulteriori informazioni su come viene calcolato e interpretato il WER, consulta Misurare e migliorare l'accuratezza del riconoscimento vocale. Iniziamo.
Inizia a utilizzare la console Speech-to-Text
Assicurati di aver creato un account Google Cloud e un progetto. 1. Vai a Speech nella console Google Cloud e poi a Interfaccia utente di Speech-to-Text. 2. Utilizzando un file audio acusticamente rappresentativo del tuo caso d'uso e di come prevedi di utilizzare il sistema ASR, segui le istruzioni di avvio rapido per eseguire la prima trascrizione utilizzando Speech-to-Text.
Calcolo dell'accuratezza della trascrizione
- Dopo aver trascritto correttamente il file audio, utilizza la sezione
Transcription Accuracy
. Questa sezione rimane vuota finché non viene calcolata l'accuratezza della trascrizione. - Utilizzando il pulsante Carica verità di riferimento nella parte superiore della sezione, puoi iniziare a calcolare l'accuratezza.
Specificare i dati empirici reali
- Per calcolare l'accuratezza della trascrizione, fornisci un file di dati empirici reali. Si tratta di un file
.txt
o.csv
, in genere un file di trascrizione generato da persone che contiene le trascrizioni corrette o previste per il confronto. - Utilizzando
gs://cloud-samples-data/speech/brooklyn_bridge.wav
come esempio. Il file dei dati di riferimento contiene:How old is the Brooklyn Bridge
. Se non hai a disposizione un file di dati empirici reali, ti consigliamo di scaricare la trascrizione in formato di testo. Modifica il file di trascrizione in base alle esigenze. Carica il file di trascrizione come file di dati empirici reali. - Utilizzando Carica o un file Cloud Storage esistente, specifica il file basato su dati empirici reali e fai clic su Salva.
Conferma dei dati empirici reali
- Dopo aver fatto clic su Salva, viene visualizzato un messaggio che ti chiede di confermare che il file dei dati di fatto specificato è corretto. Verifica che il file dei dati di fatto rappresenti in modo accurato le trascrizioni corrette, in quanto influisce direttamente sulle metriche di accuratezza.
- Fai clic su Conferma per procedere.
Esaminare i risultati della valutazione
- A seconda delle dimensioni dei dati di input, il processo di valutazione potrebbe richiedere del tempo e i risultati vengono visualizzati al termine.
- Una volta completata la valutazione, vengono visualizzate le seguenti sezioni:
- La tabella Accuratezza della trascrizione, le metriche di accuratezza e un link al file dei dati di fatto utilizzato nella procedura.
- Il
Transcription
con un pulsante di attivazione/disattivazione per il confronto con il file dei dati di fatto, oltre a una suddivisione delle metriche di accuratezza e dei punti salienti.
- Esamina e interpreta i risultati di accuratezza per comprendere il rendimento del sistema di riconoscimento Speech-to-Text utilizzato per identificare le aree di miglioramento, poiché i risultati variano a seconda degli input e della trascrizione utilizzati. Negli esempi seguenti puoi vedere casi indicativi dei risultati di accuratezza, che forniscono informazioni preziose per l'ottimizzazione del sistema Google Cloud Speech-to-Text.
- Un esempio di WER pari a 0%:
- Un esempio di WER del 40%:
- Un esempio di WER pari a 0%:
(Facoltativo) Aggiornamento dei dati empirici reali
Puoi testare un altro file dei dati di fatto rispetto alla trascrizione esistente ricollegando un file diverso e ripetendo i passaggi 3 e 4 con un file dei dati di fatto aggiornato.
Provalo
Se non conosci Google Cloud, crea un account per valutare le prestazioni di Speech-to-Text in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti senza addebiti per l'esecuzione, il test e il deployment dei workload.
Prova Speech-to-Text gratuitamente