En esta guía de inicio rápido, se explica cómo medir y mejorar la precisión de Google Cloud Speech-to-Text para tus datos de audio. También puedes consultar los distintos modelos y opciones disponibles en la API para mejorar la precisión de la transcripción. Descubre cómo usar la interfaz de usuario de Speech-to-Text en la Google Cloud consola y un archivo de referencia para medir la precisión y obtener información valiosa sobre el sistema Speech-to-Text.
Los sistemas de aprendizaje automático están sujetos a imprecisiones por naturaleza, y los sistemas de reconocimiento de voz automático (ASR), también conocidos como sistemas de transcripción de voz a texto, no son una excepción. La medición precisa de la exactitud está estrechamente relacionada con los casos prácticos específicos y los sistemas que se evalúan, ya que las diferencias en la calidad de la grabación de audio y las condiciones acústicas pueden influir significativamente en la exactitud. Por lo tanto, no es práctico asignar una única puntuación de precisión a todos los clientes y casos prácticos. Para asegurar el rendimiento fiable de los sistemas de ASR en sistemas críticos orientados a la producción. También es fundamental entender cómo funciona Speech-to-Text en el contexto más amplio de tu sistema.
A efectos de esta guía de inicio rápido,utiliza el método estándar del sector para hacer comparaciones, tasa de error de palabras (WER), a menudo abreviado como WER. Para obtener más información sobre cómo se calcula e interpreta WER, consulta Medir y mejorar la precisión del habla. Empecemos.
Empezar a usar la consola de Speech-to-Text
Asegúrate de que te has registrado para obtener una cuenta de Google Cloud y has creado un proyecto. 1. Ve a la consola de Speech Google Cloud y desplázate hasta Interfaz de usuario de Speech-to-Text. 2. Usa un archivo de audio que represente acústicamente tu caso práctico y cómo tienes previsto usar el sistema de transcripción automática del habla. Sigue las instrucciones de la guía de inicio rápido para hacer tu primera transcripción con Speech-to-Text.
Calcular la precisión de la transcripción
- Una vez que hayas transcrito correctamente el archivo de audio, utiliza la sección
Transcription Accuracy
. Esta sección permanecerá vacía hasta que se calcule la precisión de la transcripción. - Con el botón Subir datos verificados situado en la parte superior de la sección, puedes empezar a calcular la precisión.
Especificar la verdad fundamental
- Para calcular la precisión de la transcripción, proporciona un archivo de referencia. Se trata de un archivo
.txt
o.csv
, normalmente un archivo de transcripción generado por humanos que contiene las transcripciones correctas o esperadas para compararlas. - Por ejemplo,
gs://cloud-samples-data/speech/brooklyn_bridge.wav
. El archivo de verdad fundamental contiene:How old is the Brooklyn Bridge
. Si no tienes ningún archivo de referencia, te recomendamos que descargues la transcripción en formato de texto. Edita el archivo de transcripción según sea necesario. Sube el archivo de transcripción como archivo de referencia. - Con la opción Subir o un archivo de Cloud Storage, especifica el archivo de verdad fundamental y haz clic en Guardar.
Confirmar la verdad fundamental
- Después de hacer clic en Guardar, se muestra un mensaje para confirmar que el archivo de valor de referencia especificado es correcto. Comprueba que el archivo de referencia represente con precisión las transcripciones correctas, ya que afecta directamente a las métricas de precisión.
- Haz clic en Confirmar para continuar.
Consultar los resultados de la evaluación
- En función del tamaño de los datos de entrada, el proceso de evaluación puede tardar un poco y los resultados se muestran cuando se completa.
- Una vez completada la evaluación, se mostrarán las siguientes secciones:
- La tabla Precisión de la transcripción, las métricas de precisión y un enlace al archivo de referencia que se ha usado en el proceso.
- El
Transcription
con un interruptor para comparar con el archivo de validación en el terreno, junto con un desglose de las métricas de precisión y los aspectos destacados.
- Revisa e interpreta los resultados de precisión para comprender el rendimiento del reconocedor de Speech-to-Text que se usa para identificar las áreas de mejora, ya que los resultados varían en función de las entradas y la transcripción utilizadas. En los siguientes ejemplos, puedes ver casos indicativos de los resultados de precisión, que proporcionan información valiosa para optimizar el sistema de Google Cloud transcripción de voz a texto.
- Ejemplo de WER del 0 %:
- Ejemplo de WER del 40 %:
- Ejemplo de WER del 0 %:
Opcional: actualizar la verdad fundamental
Puedes probar otra validación en el terreno con la transcripción actual. Para ello, vuelve a adjuntar otro archivo y repite los pasos tres y cuatro con el archivo de validación en el terreno actualizado.
Pruébalo
Si es la primera vez que utilizas Google Cloud, crea una cuenta para evaluar el rendimiento de Speech-to-Text en situaciones reales. Los nuevos clientes también reciben 300 USD en crédito gratuito para ejecutar, probar y desplegar cargas de trabajo.
Probar Speech-to-Text gratis