Sélectionner un modèle de transcription

Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.

Modèles de transcription

Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).

Speech-to-Text possède des modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles fournissent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires aux données sur lesquelles ils ont été entraînés.

Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec l'API Speech-to-Text V2.

Nom du modèle Description
chirp_3 Utilisez la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google, conçus pour répondre aux besoins de vos utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une précision et une vitesse améliorées par rapport aux modèles Chirp précédents, ainsi que la diarisation et la détection automatique de la langue.
chirp_2 Utilisez la nouvelle génération de notre modèle de reconnaissance vocale universel (USM, Universal Large Speech Model) fourni par notre technologie de grand modèle de langage (LLM) pour effectuer des transcriptions et des traductions en streaming et par lot dans des contenus linguistiques variés et des fonctionnalités multilingues.
telephony Ce modèle permet de transcrire le contenu audio d'un appel téléphonique, généralement enregistré à un taux d'échantillonnage de 8 kHz. Idéal pour le service client, les applications de téléconférence et les applications de kiosque automatisées.

Les modèles suivants sont basés sur des architectures antérieures. Ils ne sont pas activement mis à jour et sont principalement conservés comme versions anciennes pour rétrocompatibilité.

chirp Utilisez notre modèle de reconnaissance vocale universel (USM, Universal Large Speech Model) pour bénéficier de transcriptions de pointe sans flux dans des contenus linguistiques variés et des fonctionnalités multilingues.
chirp_telephony Modèle de reconnaissance vocale universel (USM) pour les États-Unis, adapté à l'audio provenant d'un appel téléphonique (généralement enregistré à un taux d'échantillonnage de 8 kHz).
long Utilisez ce modèle pour tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. Privilégiez ce modèle au modèle video ou default, en particulier s'ils ne sont pas disponibles dans votre langue cible.
short Utilisez ce modèle pour des énoncés courts, de l'ordre de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Privilégiez ce modèle au modèle de commande et de recherche.
telephony_short Version du modèle telephony dédiée aux énoncés courts ou d'un seul mot pour les données audio provenant d'appels téléphoniques, généralement enregistrées à un taux d'échantillonnage de 8 kHz. Utile pour les énoncés de quelques secondes seulement dans les applications de service client, de téléconférence et de kiosque automatisé.
medical_conversation Ce modèle est idéal pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez le modèle medical_conversation lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés.
medical_dictation Ce modèle permet de transcrire des notes dictées par un professionnel de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient.

Sélectionner un modèle pour la transcription audio

Le modèle est spécifié par l'outil de reconnaissance utilisé pour la requête de reconnaissance. Appelez speech/projects.locations.recognizers/create pour créer un outil de reconnaissance et utilisez le champ model pour spécifier le modèle. Les modèles valides pour chaque langue sont disponibles dans le tableau Langues disponibles.