Sprache mit bidirektionalem Streaming synthetisieren
In diesem Dokument wird beschrieben, wie Sie Audioinhalte mithilfe von bidirektionalem Streaming synthetisieren.
Mit bidirektionalem Streaming können Sie gleichzeitig Texteingaben senden und Audiodaten empfangen. Das bedeutet, dass Sie mit der Sprachsynthese beginnen können, bevor der vollständige Eingabetext gesendet wurde. Dadurch wird die Latenz verringert und Interaktionen in Echtzeit werden ermöglicht. Bei Sprachassistenten und interaktiven Spielen wird bidirektionales Streaming verwendet, um dynamischere Anwendungen zu erstellen, die schneller reagieren.
Weitere Informationen zu den grundlegenden Konzepten von Text-to-Speech finden Sie unter Grundlagen von Text-to-Speech.
Vorbereitung
Bevor Sie eine Anfrage an die Text-to-Speech API senden können, müssen Sie die folgenden Aktionen ausgeführt haben. Weitere Informationen finden Sie auf der Seite Vorbereitung.
- Aktivieren Sie Text-to-Speech für ein Google Cloud -Projekt.
- Prüfen Sie, ob die Abrechnung für Text-to-Speech aktiviert ist.
-
Installieren Sie die Google Cloud CLI und melden Sie sich dann mit Ihrer föderierten Identität in der gcloud CLI an. Nach der Anmeldung initialisieren Sie die Google Cloud CLI mit folgendem Befehl:
gcloud init
Sprache mit bidirektionalem Streaming synthetisieren
Clientbibliothek installieren
Python
Bevor Sie die Bibliothek installieren, prüfen Sie, ob Sie Ihre Umgebung auf die Python-Entwicklung vorbereitet haben.
pip install --upgrade google-cloud-texttospeech
Textstream senden und Audiostream empfangen
Die API akzeptiert einen Stream von Anfragen vom Typ StreamingSynthesizeRequest
, die entweder StreamingSynthesisInput
oder StreamingSynthesizeConfig
enthalten.
Bevor Sie einen Stream StreamingSynthesizeRequest
mit StreamingSynthesisInput
senden, der Texteingabe enthält, senden Sie genau einen StreamingSynthesizeRequest
mit StreamingSynthesizeConfig
.
Das Streamen von Text-to-Speech ist nur mit Chirp 3: HD-Stimmen kompatibel.
Python
Bevor Sie das Beispiel ausführen, prüfen Sie, ob Sie Ihre Umgebung auf die Python-Entwicklung vorbereitet haben.
Bereinigen
Wenn Sie das Projekt nicht mehr benötigen, löschen Sie es mit derGoogle Cloud console , um unnötige Kosten für die Google Cloud Platform zu vermeiden.
Weitere Informationen
- Grundlagen der Cloud Text-to-Speech API
- Liste der für synthetische Sprache verfügbaren Stimmen