Text-to-Speech génère des contenus audio de qualité naturelle et humaine, qui donnent l'impression que la voix est celle d'une personne réelle. Pour commencer, spécifiez une voix lorsque vous envoyez une requête de synthèse.
Text-to-Speech propose différentes voix en fonction de la langue, du genre et de l'accent. Certaines langues proposent plusieurs options. Pour obtenir la liste complète, consultez la page Voix disponibles. Pour sélectionner une voix, utilisez le champ VoiceSelectionParams
dans votre requête API. Pour savoir comment envoyer une requête synthesize
, consultez les guides de démarrage rapide.
Présentation
Type de voix | Destiné à | Étape de lancement | Contrôle | Streaming | |
---|---|---|---|---|---|
Parcours |
Agents conversationnels
|
Aperçu | - | Oui | |
Studio | Groupe d' enceintes |
Médias : discussions et interviews
|
Expérimental | - | - |
Un orateur personne |
Média : voix off
|
DG | SSML | - | |
Neural2 |
À usage général
|
DG | SSML | - | |
Standard |
Économique
|
DG | SSML | - |
Voix Journey
Les voix Journey fournies par le moteur AudioLM vous permettent de créer un discours plus engageant et empathique pour les applications de conversation. Grâce au streaming de texte, les voix Journey permettent une communication en temps réel à faible latence et sont compatibles avec les langues listées dans le tableau des voix disponibles.
Expériences de chat
Voix: en-US-Journey-F
Autres exemples
Assistants virtuels
en-US-Journey-D
Chatbots de service client
en-US-Journey-F
Applications pédagogiques interactives
en-US-Journey-O
Ventes et argumentaires
en-US-Journey-D
Racontez une histoire
en-US-Journey-F
Voix Studio pour plusieurs haut-parleurs
Créez des discussions et des interviews avec les nouvelles voix studio multilocuteurs, basées sur la même technologie que les voix Journey.
Voix Studio
Les voix Studio sont conçues pour la lecture d'actualités et la diffusion de contenus.
Exemple 1. Lecture de Gatsby le Magnifique par la voix en-US-Studio-O
.
Voix Neural2
L'API Text-to-Speech fournit un niveau de voix appelé Neural2. Les voix Neural2 sont basées sur la même technologie que celle utilisée pour créer une voix personnalisée. Neural2 permet à n'importe quel utilisateur d'utiliser la technologie de voix personnalisée sans avoir à entraîner sa propre voix personnalisée. Elles sont disponibles dans des points de terminaison mondiaux et de région unique.
Exemple 1. Voix Neural2
Voix standards
Les voix proposées par Text-to-Speech peuvent différer selon la façon dont elles sont produites, c'est-à-dire selon la technologie de synthèse vocale utilisée pour créer le modèle de machine de la voix. La synthèse vocale paramétrique est une technologie vocale courante qui génère habituellement des données audio en transmettant des sorties à des algorithmes de traitement du signal, appelés vocodeurs. La plupart des voix standards disponibles dans Text-to-Speech utilisent une variante de cette technologie.