Mit Text-to-Speech werden Audiodaten mit natürlicher, menschlicher Qualität generiert, die wie die Sprache einer echten Person klingen. Geben Sie beim Senden einer Syntheseanfrage zuerst eine Stimme an.
Text-to-Speech bietet eine Vielzahl von Stimmen, die sich nach Sprache, Geschlecht und Akzent unterscheiden. Bei einigen Sprachen stehen mehrere Optionen zur Verfügung. Eine vollständige Liste finden Sie auf der Seite Unterstützte Stimmen. Verwenden Sie das Feld VoiceSelectionParams
in Ihrer API-Anfrage, um eine Stimme auszuwählen. Eine Anleitung zum Senden einer synthesize
-Anfrage finden Sie in den Kurzanleitungen.
Übersicht
Stimmtyp | Geeignet für | Startphase | Steuerbarkeit | Streaming | |
---|---|---|---|---|---|
Kaufprozess |
Conversational Agents
|
Vorschau | - | Ja | |
Studio | Zwei Lautsprecher Gruppe |
Medien – Diskussionen und Interviews
|
Experimentell | - | - |
Ein Sprecher Person |
Medien – Erzählung
|
GA | SSML | - | |
Neural2 |
Allgemeine Zwecke
|
GA | SSML | - | |
Standard |
Kostengünstig
|
GA | SSML | - |
Journey-stimmen
Mit Journey-Stimmen, die auf der AudioLM-Engine basieren, können Sie für Konversationsanwendungen ansprechendere und empathischere Sprache erstellen. Durch Textstreaming ermöglicht Journey Voices eine Echtzeitkommunikation mit geringer Latenz und unterstützt die in der Tabelle der unterstützten Stimmen aufgeführten Sprachen.
Chatfunktionen
Sprache: en-US-Journey-F
Weitere Beispiele
Virtuelle Assistenten
en-US-Journey-D
Kundenservice-Chatbots
en-US-Journey-F
Interaktive Bildungsanwendungen
en-US-Journey-O
Verkäufe und Präsentationen
en-US-Journey-D
STORY TIME
en-US-Journey-F
Studiostimmen mit mehreren Sprechern
Mit den neuen Studiostimmen für mehrere Sprecher, die auf derselben Technologie wie Journey-Stimmen basieren, lassen sich Diskussionen und Interviews erstellen.
Stimmen in Studioqualität
Stimmen in Studioqualität sind Sprechstimmen, die für das Lesen von Nachrichten und Übertragungen bestimmt sind.
1. Beispiel: Die Stimme en-US-Studio-O
, die „Großer Gatsby“ liest.
Neural2-Stimmen
Die Text-to-Speech API bietet eine Sprachebene namens Neural2. Neural2-Stimmen basieren auf derselben Technologie, die auch zum Erstellen einer benutzerdefinierten Stimme verwendet wird. Mit Neural2 kann jeder die Custom Voice-Technologie verwenden, ohne eine eigene benutzerdefinierte Stimme zu trainieren. Sie sind für globale und regionale Endpunkte verfügbar.
1. Beispiel: Neural2 Voice
Standardstimmen
Die von Text-to-Speech angebotenen Stimmen werden zum Teil mit unterschiedlichen Sprachsynthesetechnologien für das Maschinenmodell der Stimme generiert. Bei der gängigen Sprachtechnologie der parametrischen Sprachausgabe werden zum Generieren von Audiodaten in der Regel Ausgaben mit Signalverarbeitungsalgorithmen – sogenannten Vocodern – übergeben. Viele der in Text-to-Speech verfügbaren Standardstimmen basieren auf einer Variante dieser Technologie.