Esta página foi traduzida pela API Cloud Translation.

Transcrição de fala

Com a transcrição de fala, você transcreve o áudio falado em um vídeo ou trecho dele. Cada parte do áudio transcrito é convertida em um bloco de texto.

Modelos compatíveis

A Video Intelligence está disponível apenas com inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que é compatível com todos os idiomas disponíveis. Para conferir a lista de idiomas disponíveis, consulte Suporte a idiomas na documentação de conversão da Speech-to-Text.

Para transcrever a fala de um vídeo, chame o método annotate e especifique SPEECH_TRANSCRIPTION no features.

É possível usar os recursos a seguir ao transcrever a fala:

Palavras alternativas: use maxAlternatives para especificar o número máximo de opções para traduções de texto reconhecidas a serem incluídas na resposta. Esse valor é um número inteiro de 1 a 30. O padrão é 1. A API retorna várias transcrições em ordem decrescente com base no nível de confiança da transcrição. As transcrições alternativas não incluem entradas no nível de palavra.
Filtragem de linguagem obscena: use filterProfanity para filtrar linguagem obscena conhecida nas transcrições. As palavras correspondentes são substituídas pelo caractere inicial da palavra seguido por asteriscos. O valor padrão é falso.
Dicas de transcrição: use a opção speechContexts para fornecer frases comuns ou incomuns no áudio. Com essas frases, o serviço cria transcrições mais precisas. Você fornece uma dica de transcrição como um objeto SpeechContext.
Seleção de faixa de áudio: use a opção audioTracks para especificar qual faixa transcrever em vídeos com várias faixas. Os usuários podem especificar até duas faixas. O padrão é 0. Quando o código de idioma for definido como en-US, a solicitação será encaminhada para o modo avançado, que é treinado para áudio em en-US. Ele não reconhece en-US ou outros idiomas de forma automática. Se colocarmos um áudio em espanhol no modelo aprimorado, a transcrição será executada, mas pode haver saídas com baixo índice de confiança ou nenhuma saída, o que é esperado de um bom modelo.
Pontuação automática: use a opção enableAutomaticPunctuation para incluir pontuação no texto transcrito. O valor padrão é falso.
Vários falantes: use a opção enableSpeakerDiarization para identificar diferentes alto-falantes em um vídeo. Na resposta, cada palavra reconhecida inclui um campo speakerTag, que identifica a que falante essa palavra é atribuída.

Para conseguir melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais.

Confira o visualizador da API Video Intelligence para ver esse recurso em ação.

Para exemplos de solicitação de transcrição de fala, consulte Transcrição de fala.

Transcrição de fala Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos compatíveis

Transcrição de fala