A transcrição de voz transcreve o áudio falado num vídeo ou num segmento de vídeo em texto e devolve blocos de texto para cada parte do áudio transcrito.
Modelos suportados
O Video Intelligence só suporta inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que suporta todos os idiomas disponíveis. Para ver a lista de idiomas disponíveis, consulte o Suporte de idiomas na documentação de conversão de voz em texto.
Para transcrever a voz de um vídeo, chame o método
annotate
e especifique
SPEECH_TRANSCRIPTION
no campo features
.
Pode usar as seguintes funcionalidades ao transcrever a voz:
Palavras alternativas: use a opção
maxAlternatives
para especificar o número máximo de opções de traduções de texto reconhecidas a incluir na resposta. Este valor pode ser um número inteiro de 1 a 30. A predefinição é 1. A API devolve várias transcrições por ordem descendente com base no valor de confiança da transcrição. As transcrições alternativas não incluem entradas ao nível da palavra.Filtragem de obscenidades: use a opção
filterProfanity
para filtrar obscenidades conhecidas nas transcrições. As palavras correspondentes são substituídas pelo primeiro caráter da palavra seguido de asteriscos. A predefinição é False.Sugestões de transcrição: use a opção
speechContexts
para fornecer expressões comuns ou invulgares no seu áudio. Essas expressões são usadas para ajudar o serviço de transcrição a criar transcrições mais precisas. Fornece uma sugestão de transcrição como um objeto SpeechContext.Seleção de faixas de áudio: use a opção
audioTracks
para especificar a faixa a transcrever de um vídeo com várias faixas. Os utilizadores podem especificar até duas faixas. A predefinição é 0. Quando o código de idioma está definido como en-US, o pedido é encaminhado para o modo melhorado, que é preparado com áudio em en-US. Na realidade, não conhece o en-US nem quaisquer outros idiomas. Se introduzirmos áudio em espanhol no modelo melhorado, a transcrição vai decorrer normalmente, mas podem existir resultados com pontuações de confiança baixas ou nenhum resultado, o que é esperado de um bom modelo.Pontuação automática: use a opção
enableAutomaticPunctuation
para incluir pontuação no texto transcrito. A predefinição é False.Vários oradores: use a opção
enableSpeakerDiarization
para identificar diferentes oradores num vídeo. Na resposta, cada palavra reconhecida inclui um campospeakerTag
que identifica a que interlocutor a palavra reconhecida é atribuída.
Para obter os melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16 000 Hz ou superior.
Consulte o visualizador da API Video Intelligence para ver esta funcionalidade em ação.
Para ver exemplos de pedidos de transcrição de voz, consulte Transcrição de voz.