Valutare i modelli

Utilizza la funzionalità di benchmarking della console Cloud Speech-to-Text per misurare l'accuratezza di uno qualsiasi dei modelli di trascrizione utilizzati nell'API Speech-to-Text V2.

La console Cloud Speech-to-Text fornisce un benchmarking visivo per i modelli preaddestrati e personalizzati di Speech-to-Text. Puoi esaminare la qualità del riconoscimento confrontando le metriche di valutazione del tasso di errore di parola (WER) in più modelli di trascrizione per decidere quale modello si adatta meglio alla tua applicazione.

Prima di iniziare

Assicurati di aver registrato un account Google Cloud , creato un progetto, addestrato un modello vocale personalizzato ed eseguito il deployment utilizzando un endpoint.

Crea un set di dati di riferimento

Per creare un set di dati di benchmarking personalizzato, raccogli campioni audio che riflettano con precisione il tipo di traffico che il modello di trascrizione incontrerà in un ambiente di produzione. La durata complessiva di questi file audio deve essere idealmente di almeno 30 minuti e non superare le 10 ore. Per assemblare il set di dati, devi:

  1. Crea una directory in un bucket Cloud Storage a tua scelta per archiviare i file audio e di testo per il set di dati.
  2. Per ogni file audio nel set di dati, crea trascrizioni ragionevolmente accurate. Per ogni file audio (ad esempio example_audio_1.wav), deve essere creato un file di testo dei dati di riferimento corrispondente (example_audio_1.txt). Questo servizio utilizza questi accoppiamenti audio-testo in un bucket Cloud Storage per assemblare il set di dati.

Esegui il benchmark del modello

Per valutare l'accuratezza del modello utilizzando il modello personalizzato Speech-to-Text e il set di dati di benchmarking, segui la guida Misurare e migliorare l'accuratezza.