Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Com a transcrição de fala, você transcreve o áudio falado em um vídeo ou trecho dele.
Cada parte do áudio transcrito é convertida em um bloco de texto.
Modelos compatíveis
A Video Intelligence está disponível apenas com inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que é compatível com todos os idiomas disponíveis. Para conferir a lista de
idiomas disponíveis, consulte Suporte a
idiomas na
documentação de conversão da Speech-to-Text.
É possível usar os recursos a seguir ao transcrever a fala:
Palavras alternativas: use maxAlternatives para especificar o número máximo de opções para traduções de texto reconhecidas a serem incluídas na resposta. Esse valor é um número inteiro de 1 a 30. O padrão é 1.
A API retorna várias transcrições em ordem decrescente com base no nível de confiança da transcrição. As transcrições alternativas não incluem entradas no nível de palavra.
Filtragem de linguagem obscena: use filterProfanity para filtrar linguagem obscena conhecida nas transcrições. As palavras correspondentes são substituídas pelo caractere inicial da palavra seguido por asteriscos. O valor padrão é falso.
Dicas de transcrição: use a opção speechContexts para fornecer frases comuns ou incomuns no áudio. Com essas frases, o serviço cria transcrições mais precisas. Você fornece uma dica de transcrição como um objeto SpeechContext.
Seleção de faixa de áudio: use a opção audioTracks para especificar qual faixa transcrever em vídeos com várias faixas. Os usuários podem especificar até duas faixas.
O padrão é 0.
Quando o código de idioma for definido como en-US, a solicitação será encaminhada para o modo avançado, que é treinado para áudio em en-US. Ele não reconhece en-US ou outros idiomas de forma automática. Se colocarmos um áudio em espanhol no modelo aprimorado, a transcrição será executada, mas pode haver saídas com baixo índice de confiança ou nenhuma saída, o que é esperado de um bom modelo.
Pontuação automática: use a opção enableAutomaticPunctuation para incluir pontuação no texto transcrito. O valor padrão é falso.
Vários falantes: use a opção enableSpeakerDiarization para identificar diferentes alto-falantes em um vídeo. Na resposta, cada palavra reconhecida inclui um campo speakerTag, que identifica a que falante essa palavra é atribuída.
Para conseguir melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-17 UTC."],[],[],null,["# Speech transcription\n\n*Speech Transcription* transcribes spoken audio in a video or video segment\ninto text and returns blocks of text for each portion of the transcribed audio.\n\nSupported models\n----------------\n\nThe Video Intelligence only supports English (US). For other languages, use\nthe Speech-to-Text API, which supports all available languages. For the list of\navailable languages, see [Language\nsupport](/speech-to-text/docs/speech-to-text-supported-languages) in the\nSpeech-to-Text documentation.\n\nTo transcribe speech from a video, call the\n[`annotate`](/video-intelligence/docs/reference/rest/v1/videos/annotate)\nmethod and specify\n[`SPEECH_TRANSCRIPTION`](/video-intelligence/docs/reference/rest/v1/videos#Feature)\nin the `features` field.\n\nYou can use the following features when transcribing speech:\n\n- **Alternative words** : Use the `maxAlternatives` option to specify\n the maximum number of options for recognized text translations to include in the\n response. This value can be an integer from 1 to 30. The default is 1.\n The API returns multiple transcriptions in descending order based on\n the confidence value for the transcription. Alternative transcriptions\n do not include word-level entries.\n\n- **Profanity filtering** : Use the `filterProfanity` option to filter out known\n profanities in transcriptions. Matched words are replaced with the leading\n character of the word followed by asterisks. The default is false.\n\n- **Transcription hints** : Use the `speechContexts` option to provide common or\n unusual phrases in your audio. Those phrases are then used to assist the\n transcription service to create more accurate transcriptions. You provide\n a transcription hint as a\n [SpeechContext](/video-intelligence/docs/reference/rest/v1/videos#SpeechContext)\n object.\n\n- **Audio track selection** : Use the `audioTracks` option to specify which track\n to transcribe from multi-track video. Users can specify up to two tracks.\n Default is 0.\n Once the language code is set to en-US, the request is routed to the enhanced\n mode, which is trained on en-US audio; it does not really *know* en-US or\n any other languages per se. If we feed a Spanish audio into the enhanced model,\n transcription will run its course but there may be outputs with low confidence\n scores, or no output at all -- which is what is expected of a good model.\n\n- **Automatic punctuation** : Use the `enableAutomaticPunctuation` option\n to include punctuation in the transcribed text. The default is false.\n\n- **Multiple speakers** : Use the `enableSpeakerDiarization` option to identify\n different speakers in a video. In the response, each recognized word includes\n a `speakerTag` field that identifies which speaker the recognized word is\n attributed to.\n\nFor best results, provide audio recorded at 16,000Hz or greater sampling rate.\n\nCheck out the [Video Intelligence API visualizer](https://zackakil.github.io/video-intelligence-api-visualiser/#Speech%20Transcription) to see this feature in action.\n\nFor examples of requesting speech transcription,\nsee [Speech Transcription](/video-intelligence/docs/transcription)."]]