Types de voix

Text-to-Speech génère des contenus audio de qualité naturelle et humaine, qui donnent l'impression que la voix est celle d'une personne réelle. Pour commencer, spécifiez une voix lorsque vous envoyez une requête de synthèse.

Text-to-Speech propose différentes voix en fonction de la langue, du genre et de l'accent. Certaines langues proposent plusieurs options. Pour obtenir la liste complète, consultez la page Voix disponibles. Pour sélectionner une voix, utilisez le champ VoiceSelectionParams dans votre requête API. Pour savoir comment envoyer une requête synthesize, consultez les guides de démarrage rapide.

Présentation

Type de voix Destiné à Étape de lancement Contrôle Streaming
Parcours Agents conversationnels
Aperçu - Oui
Studio Groupe d' enceintes Médias : discussions et interviews

Expérimental - -
Un orateur personne Média : voix off
DG SSML -
Neural2 À usage général
DG SSML -
Standard Économique
DG SSML -

Détail des tarifs

Voix Journey

Les voix Journey fournies par le moteur AudioLM vous permettent de créer un discours plus engageant et empathique pour les applications de conversation. Grâce au streaming de texte, les voix Journey permettent une communication en temps réel à faible latence et sont compatibles avec les langues listées dans le tableau des voix disponibles.

Expériences de chat


Voix: en-US-Journey-F

Autres exemples

Assistants virtuels


Voix: en-US-Journey-D

Chatbots de service client


Voix: en-US-Journey-F

Applications pédagogiques interactives


Voix: en-US-Journey-O

Ventes et argumentaires


Voix: en-US-Journey-D

Racontez une histoire


Voix: en-US-Journey-F

Voix Studio pour plusieurs haut-parleurs

Créez des discussions et des interviews avec les nouvelles voix studio multilocuteurs, basées sur la même technologie que les voix Journey.


Voix Studio

Les voix Studio sont conçues pour la lecture d'actualités et la diffusion de contenus.


Exemple 1. Lecture de Gatsby le Magnifique par la voix en-US-Studio-O.

Voix Neural2

L'API Text-to-Speech fournit un niveau de voix appelé Neural2. Les voix Neural2 sont basées sur la même technologie que celle utilisée pour créer une voix personnalisée. Neural2 permet à n'importe quel utilisateur d'utiliser la technologie de voix personnalisée sans avoir à entraîner sa propre voix personnalisée. Elles sont disponibles dans des points de terminaison mondiaux et de région unique.


Exemple 1. Voix Neural2

Voix standards

Les voix proposées par Text-to-Speech peuvent différer selon la façon dont elles sont produites, c'est-à-dire selon la technologie de synthèse vocale utilisée pour créer le modèle de machine de la voix. La synthèse vocale paramétrique est une technologie vocale courante qui génère habituellement des données audio en transmettant des sorties à des algorithmes de traitement du signal, appelés vocodeurs. La plupart des voix standards disponibles dans Text-to-Speech utilisent une variante de cette technologie.