Esta página se ha traducido con Cloud Translation API.

Transcripción de voz

Transcripción de voz transcribe el audio hablado de un vídeo o de un segmento de vídeo en texto y devuelve bloques de texto por cada parte del audio transcrito.

Modelos admitidos

Video Intelligence solo admite el inglés (EE. UU.). Para otros idiomas, usa la API Speech-to-Text, que admite todos los idiomas disponibles. Para ver la lista de idiomas disponibles, consulta Idiomas admitidos en la documentación de Speech-to-Text.

Para transcribir el audio de un vídeo, llama al método annotate y especifica SPEECH_TRANSCRIPTION en el campo features.

Puedes usar las siguientes funciones al transcribir el habla:

Palabras alternativas: usa la opción maxAlternatives para especificar el número máximo de opciones de traducciones de texto reconocido que se incluirán en la respuesta. Este valor puede ser un número entero del 1 al 30. El valor predeterminado es 1. La API devuelve varias transcripciones en orden descendente según el valor de confianza de la transcripción. Las transcripciones alternativas no incluyen entradas a nivel de palabra.
Filtrado de palabras malsonantes: usa la opción filterProfanity para filtrar las palabras malsonantes conocidas en las transcripciones. Las palabras coincidentes se sustituyen por el primer carácter de la palabra seguido de asteriscos. El valor predeterminado es "false".
Sugerencias de transcripción: usa la opción speechContexts para proporcionar frases habituales o poco comunes en el audio. Después, esas frases se usan para ayudar al servicio de transcripción a crear transcripciones más precisas. Proporcionas una sugerencia de transcripción como objeto SpeechContext.
Selección de pista de audio: usa la opción audioTracks para especificar qué pista quieres transcribir de un vídeo multipista. Los usuarios pueden especificar hasta dos pistas. El valor predeterminado es 0. Una vez que el código de idioma se ha definido como "en-US", la solicitud se dirige al modo mejorado, que se ha entrenado con audio en inglés de EE. UU. No conoce realmente el inglés de EE. UU. ni ningún otro idioma. Si introducimos un audio en español en el modelo mejorado, se realizará la transcripción, pero es posible que los resultados tengan puntuaciones de confianza bajas o que no haya ningún resultado, que es lo que se espera de un buen modelo.
Puntuación automática: usa la opción enableAutomaticPunctuation para incluir signos de puntuación en el texto transcrito. El valor predeterminado es "false".
Varios interlocutores: usa la opción enableSpeakerDiarization para identificar a los diferentes interlocutores de un vídeo. En la respuesta, cada palabra reconocida incluye un campo speakerTag que identifica a qué interlocutor se atribuye la palabra reconocida.

Para obtener los mejores resultados, proporciona audio grabado a una velocidad de muestreo de 16.000 Hz o superior.

Consulta el visualizador de la API Video Intelligence para ver esta función en acción.

Para ver ejemplos de cómo solicitar la transcripción de voz, consulta Transcripción de voz.