Información general
El reconocimiento automático de voz (ASR), también conocido como transcripción automática o conversión de voz a texto (STT), usa el aprendizaje automático para convertir en texto el audio que contiene voz. El reconocimiento automático de voz tiene muchas aplicaciones, desde subtítulos hasta asistentes virtuales, pasando por respuestas de voz interactivas (IVR) y dictado, entre otras. Sin embargo, los sistemas de aprendizaje automático rara vez son 100% precisos, y el reconocimiento automático del habla no es una excepción. Si tienes previsto usar ASR en sistemas críticos, es muy importante que midas su precisión o calidad general para saber cómo funciona en el sistema más amplio en el que se integra.
Una vez que hayas medido la precisión, podrás ajustar los sistemas para que sean aún más precisos en tu caso concreto. En la API Cloud Speech-to-Text de Google, la precisión se puede ajustar eligiendo el modelo de reconocimiento más adecuado y usando nuestra API Speech Adaptation. Ofrecemos una amplia variedad de modelos adaptados a diferentes casos de uso, como audio de formato largo, conversaciones médicas o telefónicas.
Definir la precisión de la voz
La precisión del habla se puede medir de varias formas. Puede que te resulte útil usar varias métricas, en función de tus necesidades. Sin embargo, el método estándar del sector para hacer comparaciones es la tasa de error de palabra (WER), a menudo abreviada como WER. WER mide el porcentaje de transcripciones de palabras incorrectas en todo el conjunto. Cuanto menor sea el WER, más preciso será el sistema.
También puede ver el término verdad fundamental en el contexto de la precisión de ASR. La verdad fundamental es la transcripción 100% precisa, normalmente proporcionada por personas, que se usa para comparar y medir la precisión.
Tasa de error de palabra (WER)
WER es la combinación de tres tipos de errores de transcripción que pueden producirse:
- Error de inserción (I): palabras presentes en la transcripción de la hipótesis que no están en la verdad fundamental.
- Errores de sustitución (S): palabras que están presentes tanto en la hipótesis como en la verdad fundamental, pero que no se han transcrito correctamente.
- Errores de eliminación (E): palabras que faltan en la hipótesis, pero que están presentes en la verdad fundamental.
\[WER = {S+R+Q \over N}\]
Para calcular el WER, suma el número total de cada uno de estos errores y divídelo entre el número total de palabras (N) de la transcripción correcta. El WER puede ser superior al 100% en situaciones con una precisión muy baja, por ejemplo, cuando se inserta una gran cantidad de texto nuevo. Nota: La sustitución es esencialmente una eliminación seguida de una inserción, y algunas sustituciones son menos graves que otras. Por ejemplo, puede haber una diferencia entre sustituir una sola letra y una palabra.
Relación entre WER y una puntuación de confianza
La métrica WER es independiente de la puntuación de confianza y, por lo general, no se correlacionan entre sí. La puntuación de confianza se basa en la probabilidad, mientras que la WER se basa en si la palabra se identifica correctamente o no. Si la palabra no se identifica correctamente, significa que incluso los errores gramaticales leves pueden provocar un WER alto. Si se identifica correctamente una palabra, el WER será bajo, pero la probabilidad puede seguir siendo baja, lo que reduce la confianza si la palabra no es muy frecuente o el audio es muy ruidoso.
Del mismo modo, una palabra que se usa con frecuencia tiene una alta probabilidad de que el ASR la transcriba correctamente, lo que aumenta la puntuación de confianza. Por ejemplo, cuando se identifica una diferencia entre "I" y "eye", puede haber un nivel de confianza alto, ya que "I" es una palabra más popular, pero la métrica WER se reduce.
En resumen, las métricas de confianza y WER son independientes y no deberían estar correlacionadas.
Normalización
Al calcular la métrica WER, la transcripción automática se compara con una transcripción validada en el terreno proporcionada por un humano. El texto de ambas transcripciones se normaliza antes de compararse. Se elimina la puntuación y no se distingue entre mayúsculas y minúsculas al comparar la transcripción automática con la transcripción validada en el terreno proporcionada por un humano.
Convenciones de validación
Es importante tener en cuenta que no hay un único formato de transcripción acordado por los humanos para un audio determinado. Hay muchos aspectos que tener en cuenta. Por ejemplo, el audio puede incluir otras vocalizaciones que no sean palabras, como "eh", "sí" o "mm". Algunos modelos de STT de Cloud, como "medical_conversation", sí incluyen estas vocalizaciones, mientras que otros no. Por lo tanto, es importante que las convenciones de las verdades fundamentales coincidan con las del modelo que se está evaluando. Las siguientes directrices generales se utilizan para preparar una transcripción de texto de referencia de un audio determinado.
- Además de las letras estándar, puedes usar los números del 0 al 9.
- No utilices símbolos como "@", "#", "$" o ".". Utiliza palabras como "arroba", "almohadilla", "dólar" o "punto".
- Usa "%" solo cuando vaya precedido de un número. En los demás casos, usa la palabra "porcentaje".
Usa "\$" solo cuando vaya seguido de un número, como "Milk is \$3.99".
Usa palabras para los números inferiores a 10.
- Por ejemplo, "Tengo cuatro gatos y 12 sombreros".
Usa números para medidas, monedas y factores grandes, como millones, miles de millones o billones. Por ejemplo, "7,5 millones" en lugar de "siete millones y medio".
No uses abreviaturas en los siguientes casos:
Lo que sí debes hacer Qué no debes hacer Warriors contra Lakers Warriors - Lakers Vivo en la calle Principal, 123 Vivo en la calle Mayor, 123
Medir la precisión del habla
Sigue estos pasos para determinar la precisión con el audio:
Recoger archivos de audio de prueba
Recoge una muestra representativa de archivos de audio para medir su calidad. Esta muestra debe ser aleatoria y lo más parecida posible al entorno de destino. Por ejemplo, si quieres transcribir conversaciones de un centro de llamadas para mejorar la calidad, debes seleccionar aleatoriamente algunas llamadas reales grabadas con el mismo equipo que se usa para el audio de producción. Si el audio se ha grabado con el micrófono de tu teléfono móvil o de tu ordenador y no representa tu caso práctico, no lo utilices.
Graba al menos 30 minutos de audio para obtener una métrica de precisión estadísticamente significativa. Te recomendamos que uses entre 30 minutos y 3 horas de audio. En este laboratorio, el audio ya está disponible.
Obtener transcripciones de referencia
Obtener transcripciones precisas del audio. Normalmente, se trata de una transcripción humana del audio de destino en una o dos pasadas. Tu objetivo es conseguir una transcripción 100% precisa para comparar los resultados automatizados.
Cuando obtengas transcripciones de referencia, es importante que se ajusten lo máximo posible a las convenciones de transcripción de tu sistema de reconocimiento automático del habla de destino. Por ejemplo, asegúrese de que la puntuación, los números y el uso de mayúsculas sean coherentes.
Obtén una transcripción automática y corrige los errores que detectes en el texto.
Obtener la transcripción automática
Envía el audio a la API Speech-to-Text de Google y obtén la transcripción de tu hipótesis mediante la interfaz de usuario de Speech-to-Text.
Emparejar la verdad fundamental con el audio
En la herramienta de interfaz de usuario, haz clic en "Attach Ground Truth" (Adjuntar datos verificados) para asociar un archivo de audio con los datos verificados proporcionados. Una vez que hayas terminado de adjuntar el archivo, podrás ver la métrica WER y la visualización de todas las diferencias.