Puedes mejorar la precisión de los resultados de las transcripciones que obtienes de Speech-to-Text mediante la adaptación de modelos. La función de adaptación de modelos te permite especificar palabras o frases que Speech-to-Text debe reconocer con más frecuencia en tus datos de audio que otras alternativas que, de otro modo, se habrían sugerido. La adaptación de modelos es especialmente útil para mejorar la precisión de la transcripción en los siguientes casos prácticos:
- Tu audio contiene palabras o frases que es probable que aparezcan con frecuencia.
- Es probable que tu audio contenga palabras poco frecuentes (como nombres propios) o palabras que no se usen de forma general.
- El audio contiene ruido o no es muy claro.
Para obtener más información sobre cómo usar esta función, consulta Mejorar los resultados de las transcripciones con la adaptación de modelos. Para obtener información sobre los límites de frases y caracteres por solicitud de adaptación de modelo, consulta Cuotas y límites. No todos los modelos admiten la adaptación del habla. Consulta la página Idiomas disponibles para ver qué modelos admiten la adaptación.
Código de ejemplo
Adaptación de voz es una configuración opcional de Speech-to-Text que puedes usar para personalizar los resultados de la transcripción según tus necesidades. Consulta la documentación de RecognitionConfig
para obtener más información sobre cómo configurar el cuerpo de la solicitud de reconocimiento.
En el siguiente ejemplo de código se muestra cómo mejorar la precisión de la transcripción mediante un recurso SpeechAdaptation:
PhraseSet
,
CustomClass
y aumento de la adaptación del modelo.
Para usar un PhraseSet
o un CustomClass
en futuras solicitudes, anota su recurso name
, que se devuelve en la respuesta cuando creas el recurso.
Para ver una lista de las clases predefinidas disponibles en tu idioma, consulta Tokens de clase admitidos.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Speech-to-Text, consulta el artículo Bibliotecas de cliente de Speech-to-Text. Para obtener más información, consulta la documentación de referencia de la API Python Speech-to-Text.
Para autenticarte en Speech-to-Text, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.