Transcrição de voz

A transcrição de voz transcreve o áudio falado num vídeo ou num segmento de vídeo em texto e devolve blocos de texto para cada parte do áudio transcrito.

Modelos suportados

O Video Intelligence só suporta inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que suporta todos os idiomas disponíveis. Para ver a lista de idiomas disponíveis, consulte o Suporte de idiomas na documentação de conversão de voz em texto.

Para transcrever a voz de um vídeo, chame o método annotate e especifique SPEECH_TRANSCRIPTION no campo features.

Pode usar as seguintes funcionalidades ao transcrever a voz:

  • Palavras alternativas: use a opção maxAlternatives para especificar o número máximo de opções de traduções de texto reconhecidas a incluir na resposta. Este valor pode ser um número inteiro de 1 a 30. A predefinição é 1. A API devolve várias transcrições por ordem descendente com base no valor de confiança da transcrição. As transcrições alternativas não incluem entradas ao nível da palavra.

  • Filtragem de obscenidades: use a opção filterProfanity para filtrar obscenidades conhecidas nas transcrições. As palavras correspondentes são substituídas pelo primeiro caráter da palavra seguido de asteriscos. A predefinição é False.

  • Sugestões de transcrição: use a opção speechContexts para fornecer expressões comuns ou invulgares no seu áudio. Essas expressões são usadas para ajudar o serviço de transcrição a criar transcrições mais precisas. Fornece uma sugestão de transcrição como um objeto SpeechContext.

  • Seleção de faixas de áudio: use a opção audioTracks para especificar a faixa a transcrever de um vídeo com várias faixas. Os utilizadores podem especificar até duas faixas. A predefinição é 0. Quando o código de idioma está definido como en-US, o pedido é encaminhado para o modo melhorado, que é preparado com áudio em en-US. Na realidade, não conhece o en-US nem quaisquer outros idiomas. Se introduzirmos áudio em espanhol no modelo melhorado, a transcrição vai decorrer normalmente, mas podem existir resultados com pontuações de confiança baixas ou nenhum resultado, o que é esperado de um bom modelo.

  • Pontuação automática: use a opção enableAutomaticPunctuation para incluir pontuação no texto transcrito. A predefinição é False.

  • Vários oradores: use a opção enableSpeakerDiarization para identificar diferentes oradores num vídeo. Na resposta, cada palavra reconhecida inclui um campo speakerTag que identifica a que interlocutor a palavra reconhecida é atribuída.

Para obter os melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16 000 Hz ou superior.

Consulte o visualizador da API Video Intelligence para ver esta funcionalidade em ação.

Para ver exemplos de pedidos de transcrição de voz, consulte Transcrição de voz.