En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Speech-to-Text.
Modelos de transcripción
Speech-to-Text detecta palabras en un clip de audio mediante la comparación de los datos de entrada en uno de muchos modelos de aprendizaje automático. Cada modelo se ha entrenado mediante el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.
Speech-to-Text tiene modelos especializados que se entrenan a partir de audio para fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a los datos en los que se entrenaron.
En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con la API de Speech-to-Text V2.
Nombre del modelo | Descripción |
---|---|
chirp_3 |
Usa la última generación de modelos generativos multilingües específicos para el reconocimiento de voz automático (RAA) de Google, diseñados para satisfacer las necesidades de los usuarios en función de sus comentarios y experiencias. Chirp 3 ofrece mayor precisión y velocidad que los modelos anteriores de Chirp, y proporciona diarización y detección automática de idiomas. |
chirp_2 |
Usa la nueva generación de nuestro modelo de voz universal (USM) grande con la tecnología de nuestro modelo de lenguaje grande (LLM) para transmisiones y procesamiento por lotes, y transcripciones y traducciones en varios contenidos lingüísticos y capacidades multilingües. |
telephony |
Usa este modelo para audio que se originó a partir de una llamada telefónica de audio, que generalmente se graba con una tasa de muestreo de 8 kHz. Es ideal para atención al cliente, teleconferencias y aplicaciones de kiosco automatizadas. |
Los siguientes modelos se basan en arquitecturas anteriores, no se mantienen de forma activa y se conservan principalmente por motivos de compatibilidad con versiones anteriores y heredados.
chirp |
Usa nuestro gran modelo Universal Speech Model (USM) para transcripciones de vanguardia que no son de transmisiones en contenido lingüístico diverso y con capacidades multilingües. |
chirp_telephony |
El Universal Speech Model (USM) se ajusta para el audio que se origina desde una llamada telefónica (en general, grabada con una tasa de muestreo de 8 kHz). |
long |
Usa este modelo para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas. Considera usar este modelo en lugar del modelo video o default , en especial si no están disponibles en tu idioma objetivo. |
short |
Usa este modelo para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas y breves de voz dirigida. Considera usar este modelo en lugar del modelo de comando y búsqueda. |
telephony_short |
Es una versión dedicada del modelo telephony para enunciados cortos o incluso de una sola palabra para audio que se originó a partir de una llamada telefónica, que generalmente se graba con una tasa de muestreo de 8 kHz. Es útil para las expresiones de solo unos segundos de duración en la atención al cliente, las teleconferencias y las aplicaciones de kiosco automatizadas. |
medical_conversation |
Usa este modelo para las conversaciones entre un proveedor de atención médica (por ejemplo, personal médico o de enfermería) y un paciente. Usa el modelo medical_conversation cuando hablen un proveedor y un paciente. Las palabras que dice cada interlocutor se detectan y etiquetan de forma automática. |
medical_dictation |
Usa este modelo para transcribir notas dictadas por un profesional de la salud, por ejemplo, un médico que dicta notas sobre los resultados de los exámenes de sangre de un paciente. |
Selecciona un modelo para la transcripción de audio
El Reconocedor especifica el modelo que se usa para la solicitud de reconocimiento. Llama a speech/projects.locations.recognizers/create
para crear un reconocedor y usa el campo model
para especificar el modelo. Puedes encontrar modelos válidos para cada idioma en la tabla Idiomas compatibles.