Cette page a été traduite par l'API Cloud Translation.

Transcription vocale

La fonctionnalité de transcription vocale transcrit le son d'une vidéo ou d'un segment vidéo en texte, puis renvoie des blocs de texte pour chaque partie de l'audio transcrit.

Modèles compatibles

L'API Video Intelligence ne prend en charge que l'anglais (US). Pour les autres langues, utilisez l'API Speech-to-Text, qui prend en charge toutes les langues disponibles. Pour obtenir la liste des langues disponibles, consultez la page Langues acceptées dans la documentation Speech-to-Text.

Pour transcrire la voix d'une vidéo, appelez la méthode annotate et spécifiez SPEECH_TRANSCRIPTION dans le champ features.

Vous pouvez utiliser les fonctionnalités suivantes lors de la transcription de texte parlé :

Mots alternatifs: utilisez l'option maxAlternatives pour spécifier le nombre maximal d'options de traduction de texte reconnue à inclure dans la réponse. Cette valeur peut être un entier compris entre 1 et 30. La valeur par défaut est 1. L'API renvoie plusieurs transcriptions par ordre décroissant selon la valeur de confiance de la transcription. Les transcriptions alternatives n'incluent pas les entrées au niveau des mots.
Filtrage du contenu grossier : utilisez l'option filterProfanity pour filtrer les grossièretés connues dans les transcriptions. Les mots filtrés sont remplacés par leur caractère initial suivi d'une série d'astérisques. La valeur par défaut est "false" (inactif).
Conseils de transcription : utilisez l'option speechContexts pour fournir des expressions courantes ou inhabituelles dans votre contenu audio. Ces expressions sont ensuite utilisées pour aider le service à générer des transcriptions plus précises. Vous devez fournir les conseils de transcription sous la forme d'objets SpeechContext.
Sélection de pistes audio : utilisez l'option audioTracks pour spécifier la piste à transcrire à partir de la vidéo multipiste. Les utilisateurs peuvent définir deux pistes au maximum. La valeur par défaut est de 0. Une fois le code de langue défini sur en-US, la requête est acheminée vers le mode amélioré, entraîné sur l'audio en-US. Celui-ci ne connaît ni en-US ni aucune autre langue en soi. Si nous intégrons un son espagnol dans le modèle amélioré, la transcription s'exécute, mais les résultats peuvent présenter de faibles scores de confiance, voire être nuls, ce qui est attendu d'un bon modèle.
Ponctuation automatique : utilisez l'option enableAutomaticPunctuation pour inclure des signes de ponctuation dans le texte transcrit. La valeur par défaut est "false" (inactif).
Plusieurs locuteurs : utilisez l'option enableSpeakerDiarization pour identifier différents locuteurs dans une vidéo. Dans la réponse, chaque mot reconnu inclut un champ speakerTag qui identifie le locuteur auquel le mot reconnu est attribué.

Pour optimiser les résultats, fournissez un contenu audio enregistré à un taux d'échantillonnage de 16 000 Hz ou plus.

Utilisez le visualiseur de l'API Video Intelligence pour voir cette fonctionnalité en action.

Pour obtenir des exemples de requête de transcription vocale, consultez la section concernant la transcription vocale.