Présentation des modèles de reconnaissance vocale personnalisés

Les modèles Speech-to-Text personnalisés vous aident à affiner les modèles de reconnaissance vocale selon vos besoins. Ce service est conçu pour améliorer la précision et la pertinence du service de reconnaissance vocale dans divers environnements et cas d'utilisation, au moyen des données audio et textuelles spécifiques à votre domaine.

Accessibles à la fois dans la console Google Cloud et dans l'API, les modèles Speech-to-Text personnalisés permettent d'entraîner, d'évaluer et de déployer un modèle de reconnaissance vocale dédié dans un environnement intégré sans code. Pour l'entraînement, vous ne pouvez fournir que des données audio représentatives de vos conditions audio, sans transcriptions de référence sous la forme d'un ensemble d'entraînement. Cependant, vous devez fournir des données audio et leurs transcriptions de référence dans votre ensemble d'évaluation.

Pour créer et utiliser un modèle Speech-to-Text personnalisé, procédez comme suit :

  1. Préparez et importez des données d'entraînement dans un bucket Cloud Storage.
  2. Entraînez un nouveau modèle personnalisé.
  3. Déployez et gérez votre modèle personnalisé à l'aide de points de terminaison.
  4. Utilisez et évaluez votre modèle personnalisé dans votre application.

Fonctionnement

Vous pouvez utiliser des modèles Speech-to-Text personnalisés pour améliorer la reconnaissance de la transcription en augmentant un modèle de transcription de base. Certaines conditions audio comme les sirènes, la musique et un bruit de fond excessif peuvent entraîner des difficultés acoustiques. Certains accents ou un vocabulaire inhabituel, comme les noms de produits, le peuvent également.

Chaque modèle Speech-to-Text personnalisé utilise une architecture basée sur Conformer pré-entraînée comme modèle de base entraîné avec des données propriétaires de la langue couramment parlée. Au cours du processus d'entraînement, le modèle de base est affiné en adaptant un pourcentage important des pondérations d'origine afin d'améliorer la reconnaissance du vocabulaire propre au domaine et des conditions audio spécifiques à votre application.

Pour l'entraînement efficace d'un modèle Speech-to-Text personnalisé, vous devez fournir les éléments suivants :

  • Au moins 100 heures de données audio d'entraînement, audio uniquement ou audio avec la transcription textuelle correspondante en tant que vérité terrain. Ces données sont essentielles pour la phase d'entraînement initiale, afin que le modèle apprenne de manière exhaustive les nuances des schémas de parole et du vocabulaire. Pour en savoir plus, consultez la section Créer un ensemble de données de vérité terrain.
  • Un ensemble de données distinct d'au moins 10 heures audio de données de validation, avec la transcription textuelle correspondante comme vérité terrain. Pour en savoir plus sur le format attendu et les conventions de vérité terrain à suivre, consultez nos instructions de préparation des données.

Après un entraînement réussi, vous pouvez déployer un modèle Speech-to-Text personnalisé dans un point de terminaison en un clic et l'utiliser directement via l'API Cloud Speech-to-Text V2 pour l'inférence et l'analyse comparative.

Modèles, langues et régions compatibles

Les modèles Speech-to-Text personnalisés sont compatibles avec les combinaisons de modèles, de langues et de paramètres régionaux suivants pour l'entraînement :

Langage BCP-47 Modèle de base

Allemand (Allemagne)

de-DE

latest_long

Anglais (Australie)

en-AU

latest_long

Anglais (Royaume-Uni)

en-GB

latest_long

Anglais (Inde)

en-IN

latest_long

Français (France)

en-US

latest_long

Espagnol (États-Unis)

es-US

latest_long

Espagnol (Espagne)

es-ES

latest_long

Français (Canada)

fr-CA

latest_long

Français (France)

fr-FR

latest_long

Hindi (Inde)

hi-IN

latest_long

Italien (Italie)

it-IT

latest_long

Japonais (Japon)

ja-JP

latest_long

Coréen (Corée du Sud)

ko-KR

latest_long

Néerlandais (Pays-Bas)

nl-NL

latest_long

Portugais (Brésil)

pt-BR

latest_long

Portugais (Portugal)

pt-PT

latest_long

De plus, pour nous conformer à vos exigences de résidence des données, nous proposons du matériel de formation et de déploiement dans différentes régions. Le matériel dédié est compatible avec les combinaisons de modèles et de régions suivantes :

Modèle de base Google Cloud Région Tâches disponibles

latest_long

us-east1

Entraînement et déploiement

latest_long

europe-west4

Entraînement et déploiement

Quota

Pour l'entraînement de modèle Speech-to-Text personnalisé, chaque Google Cloud projet doit disposer d'un quota par défaut suffisant pour exécuter plusieurs tâches d'entraînement simultanément et doit répondre aux besoins de la plupart des projets sans ajustements supplémentaires. Toutefois, si vous devez exécuter un plus grand nombre de tâches d'entraînement simultanées ou si vous avez besoin de ressources de calcul ou d'étiquetage plus importantes, demandez un quota supplémentaire.

Pour un modèle Speech-to-Text personnalisé diffusant un déploiement de point de terminaison, chaque point de terminaison a une limite théorique de 20 requêtes par seconde (RPS). Si vous avez besoin d'un débit plus élevé, demandez un quota de diffusion supplémentaire.

Tarification

La création et l'utilisation d'un modèle Speech-to-Text personnalisé impliquent certains coûts, qui dépendent principalement des ressources utilisées lors de l'entraînement et du déploiement ultérieur du modèle. Plus précisément, le modèle Speech-to-Text personnalisé entraîne les coûts suivants dans le cycle de vie d'un modèle type :

  • Entraînement : le nombre d'heures d'entraînement de modèle vous est facturé. Cette durée est proportionnelle au nombre d'heures audio dans l'ensemble de données d'entraînement. En règle générale, l'entraînement prend un dixième du nombre d'heures audio dans l'ensemble de données.
  • Déploiement : vous êtes facturé pour chaque heure de déploiement d'un modèle sur un point de terminaison.
  • Inférence : le nombre de secondes de contenu audio diffusé en streaming vous est facturé pour la transcription, conformément aux tarifs généraux de Speech-to-Text.

Comprendre ces coûts est essentiel pour élaborer un budget et allouer des ressources de manière efficace. Pour en savoir plus, consultez la section "Modèles de synthèse vocale personnalisés" dans Tarifs de Cloud Speech-to-Text.

Étapes suivantes

Suivez les ressources pour tirer parti des modèles de reconnaissance vocale personnalisés dans votre application :