Arten von Stimmen

Mit Text-to-Speech werden Audiodaten mit natürlicher, menschlicher Qualität generiert, die wie die Sprache einer echten Person klingen. Geben Sie beim Senden einer Syntheseanfrage zuerst eine Stimme an.

Text-to-Speech bietet eine Vielzahl von Stimmen, die sich nach Sprache, Geschlecht und Akzent unterscheiden. Bei einigen Sprachen stehen mehrere Optionen zur Verfügung. Eine vollständige Liste finden Sie auf der Seite Unterstützte Stimmen. Verwenden Sie das Feld VoiceSelectionParams in Ihrer API-Anfrage, um eine Stimme auszuwählen. Eine Anleitung zum Senden einer synthesize-Anfrage finden Sie in den Kurzanleitungen.

Übersicht

Stimmtyp Geeignet für Startphase Steuerbarkeit Streaming
Kaufprozess Conversational Agents
Vorschau - Ja
Studio Zwei Lautsprecher Gruppe Medien – Diskussionen und Interviews

Experimentell - -
Ein Sprecher Person Medien – Erzählung
GA SSML -
Neural2 Allgemeine Zwecke
GA SSML -
Standard Kostengünstig
GA SSML -

Preisangaben

Journey-stimmen

Mit Journey-Stimmen, die auf der AudioLM-Engine basieren, können Sie für Konversationsanwendungen ansprechendere und empathischere Sprache erstellen. Durch Textstreaming ermöglicht Journey Voices eine Echtzeitkommunikation mit geringer Latenz und unterstützt die in der Tabelle der unterstützten Stimmen aufgeführten Sprachen.

Chatfunktionen


Sprache: en-US-Journey-F

Weitere Beispiele

Virtuelle Assistenten


Stimme: en-US-Journey-D

Kundenservice-Chatbots


Stimme: en-US-Journey-F

Interaktive Bildungsanwendungen


Stimme: en-US-Journey-O

Verkäufe und Präsentationen


Stimme: en-US-Journey-D

STORY TIME


Stimme: en-US-Journey-F

Studiostimmen mit mehreren Sprechern

Mit den neuen Studiostimmen für mehrere Sprecher, die auf derselben Technologie wie Journey-Stimmen basieren, lassen sich Diskussionen und Interviews erstellen.


Stimmen in Studioqualität

Stimmen in Studioqualität sind Sprechstimmen, die für das Lesen von Nachrichten und Übertragungen bestimmt sind.


1. Beispiel: Die Stimme en-US-Studio-O, die „Großer Gatsby“ liest.

Neural2-Stimmen

Die Text-to-Speech API bietet eine Sprachebene namens Neural2. Neural2-Stimmen basieren auf derselben Technologie, die auch zum Erstellen einer benutzerdefinierten Stimme verwendet wird. Mit Neural2 kann jeder die Custom Voice-Technologie verwenden, ohne eine eigene benutzerdefinierte Stimme zu trainieren. Sie sind für globale und regionale Endpunkte verfügbar.


1. Beispiel: Neural2 Voice

Standardstimmen

Die von Text-to-Speech angebotenen Stimmen werden zum Teil mit unterschiedlichen Sprachsynthesetechnologien für das Maschinenmodell der Stimme generiert. Bei der gängigen Sprachtechnologie der parametrischen Sprachausgabe werden zum Generieren von Audiodaten in der Regel Ausgaben mit Signalverarbeitungsalgorithmen – sogenannten Vocodern – übergeben. Viele der in Text-to-Speech verfügbaren Standardstimmen basieren auf einer Variante dieser Technologie.