Misura e migliora la precisione

In questa guida introduttiva, scopri come misurare e migliorare l'accuratezza di Speech-to-Text di Google Cloud per i tuoi dati audio. Esplora anche i vari modelli e le opzioni disponibili nell'API per migliorare l'accuratezza della trascrizione. Scopri come utilizzare l'interfaccia utente di Speech-to-Text nella console Google Cloud e un file di dati empirici reali per misurare l'accuratezza e ottenere informazioni sul sistema Speech-to-Text.

I sistemi di machine learning (ML) sono intrinsecamente soggetti a inesattezze e i sistemi di riconoscimento vocale automatico (ASR), noti anche come sistemi di conversione di Speech-to-Text, non fanno eccezione. La misurazione accurata dell'accuratezza è strettamente correlata a casi d'uso specifici e ai sistemi in fase di valutazione, poiché le differenze nella qualità della registrazione audio e nelle condizioni acustiche possono influire notevolmente sull'accuratezza. Di conseguenza, un unico punteggio di accuratezza per tutti i clienti e i casi d'uso non è pratico. Per garantire prestazioni affidabili dei sistemi ASR nelle prestazioni dei sistemi di produzione critici. È inoltre essenziale capire il rendimento di Speech-to-Text nel contesto più ampio del sistema.

Ai fini di questa guida introduttiva,utilizza il metodo standard di settore per il confronto, il tasso di errore ortografico (WER), spesso abbreviato in WER. Per ulteriori informazioni su come viene calcolato e interpretato l'errore relativo di identificazione, consulta Misurare e migliorare l'accuratezza della voce. Iniziamo.

Inizia a utilizzare la console Speech-to-Text

Assicurati di aver creato un account Google Cloud e un progetto. 1. Vai a Speech nella console Google Cloud e vai a Interfaccia utente di Speech-to-Text. 2. Utilizzando un file audio acusticamente rappresentativo del tuo caso d'uso e del modo in cui prevedi di utilizzare il sistema ASR, segui le istruzioni di avvio rapido per creare la tua prima trascrizione utilizzando Speech-to-Text.

Calcolo dell'accuratezza della trascrizione

  1. Dopo aver trascritto correttamente il file audio, utilizza la sezione Transcription Accuracy. Questa sezione rimane vuota finché non viene calcolata l'accuratezza della trascrizione.
  2. Utilizzando il pulsante Carica dati di riferimento nella parte superiore della sezione, puoi iniziare a calcolare l'accuratezza.
    Screenshot della pagina dei dettagli della trascrizione Speech-to-Text, che mostra la sezione sull'accuratezza della trascrizione e il pulsante per il caricamento dei dati di fatto

Specifica dei dati di fatto

  1. Per calcolare l'accuratezza della trascrizione, fornisci un file dei dati di fatto. Si tratta di un file .txt o .csv, in genere un file di trascrizione creato da persone che contiene le trascrizioni corrette o previste per il confronto.
  2. Utilizzando gs://cloud-samples-data/speech/brooklyn_bridge.wav come esempio. Il file dei dati di fatto contiene: How old is the Brooklyn Bridge. Se non hai a disposizione un file di dati empirici reali, ti consigliamo di scaricare la trascrizione in un formato di testo. Modifica il file della trascrizione in base alle esigenze. Carica il file di trascrizione come file di dati empirici reali.
  3. Utilizzando Carica o un file Cloud Storage esistente, specifica il file basato su dati empirici reali e fai clic su Salva.
    Screenshot della pagina di creazione della trascrizione Speech-to-Text, che mostra la selezione o il caricamento di un file basato su dati empirici reali.

Conferma dei dati empirici reali

  1. Dopo aver fatto clic su Salva, viene visualizzato un messaggio per confermare che il file dei dati di fatto specificato sia corretto. Verifica che il file dei dati di fatto rappresenti con precisione le trascrizioni corrette, in quanto influisce direttamente sulle metriche di accuratezza.
  2. Fai clic su Conferma per procedere.
    Screenshot della pagina di trascrizione di Speech-to-Text che mostra i contenuti del file dei dati di fatto caricato.

Esamina i risultati della valutazione

  1. A seconda delle dimensioni dei dati di input, la procedura di valutazione potrebbe richiedere del tempo e i risultati vengono visualizzati al termine.
  2. Una volta completata la valutazione, vengono visualizzate le seguenti sezioni:
    • La tabella Accuratezza della trascrizione, le metriche di accuratezza e un link al file dei dati di fatto utilizzati durante la procedura.
    • Il pulsante Transcription con un pulsante di attivazione/disattivazione per il confronto con il file dei dati di fatto, oltre a una suddivisione delle metriche di accuratezza e degli elementi salienti.
  3. Esamina e interpreta i risultati di accuratezza per comprendere il rendimento del riconoscitore Speech-to-Text utilizzati per identificare le aree di miglioramento, poiché i risultati variano in base agli input e alla trascrizione utilizzati. Negli esempi seguenti puoi vedere casi indicativi dei risultati di accuratezza, che forniscono informazioni preziose per l'ottimizzazione del sistema Speech-to-Text di Google Cloud.
    • Un esempio di WER del 0%:
      Screenshot della pagina relativa all'accuratezza della trascrizione Speech-to-Text, che mostra i risultati della valutazione calcolati per la trascrizione specificata con una percentuale di errore a livello di parola pari allo 0%.
    • Un esempio di WER del 40%:
      Screenshot della pagina relativa all'accuratezza della trascrizione di Speech-to-Text, che mostra i risultati della valutazione calcolati per la trascrizione specificata con un tasso di errore di parole del 40%.

(Facoltativo) Aggiornamento dei dati empirici reali

Puoi testare un altro dato di fatto rispetto alla trascrizione esistente ricollegando un altro file e ripetendo i passaggi tre e quattro con un file dei dati di fatto aggiornato.

Provalo

Se non conosci Google Cloud, crea un account per valutare le prestazioni di Speech-to-Text in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Speech-to-Text gratuitamente