Modelltraining

Wir empfehlen, dafür einen Sprecher einzusetzen, der der gewünschten Stimme am besten entspricht. Sie müssen etwa 10 Sekunden Audio mit Ihrem Synchronsprecher aufnehmen, um sie als Trainingsdaten zu verwenden. Außerdem müssen Sie die Einwilligungserklärung des Synchronsprechers aufzeichnen. Das Training und Bereitstellen des geklonten Modells dauert weniger als ein paar Minuten. Für kritische Fehler in Pre-GA-Features gibt es keine SLA-Unterstützung.

Schritt 1: Trainingsdaten für das Klonen erstellen

  1. Einwilligungserklärung aufzeichnen: Um rechtliche und ethische Richtlinien für den Stimmklon zu erfüllen, müssen Sie die erforderliche Einwilligungserklärung als Mono-WAV-Datei mit LINEAR16-Codierung und einer Abtastrate von 24 kHz in der entsprechenden Sprache aufzeichnen. (Ich bin der Inhaber dieser Stimme und stimme zu, dass Google diese Stimme verwendet, um ein synthetisches Sprachmodell zu erstellen.)
  2. Erste Audioaufnahme: Verwenden Sie das Mikrofon Ihres Computers, um 10 Sekunden Audio als LINEAR16-codierte Mono-WAV-Datei mit einer Abtastrate von 24 kHz aufzunehmen. Achten Sie darauf, dass während der Aufnahme keine Hintergrundgeräusche zu hören sind.
  3. Audiodateien speichern: Sie können die aufgezeichneten Audiodateien an einem bestimmten Cloud Storage-Speicherort speichern.

Schritt 2: Geklontes Modell erstellen

Sie können ein Klonprojekt über die Text-to-Speech Console erstellen.

  1. Rufen Sie in der Text-to-Speech Console die Seite Synthetisieren auf.

  2. Geben Sie den Text ein, der in Sprache umgewandelt werden soll, und wählen Sie den Code der Zielsprache aus (nur en-US gilt).

  3. Klicken Sie das Kästchen Benutzerdefinierte Stimme an und dann auf Schlüssel generieren.

  4. Füllen Sie alle Pflichtfelder in der geöffneten Teilaufgabe aus.

  5. Im Synthetisierungsformular sollte jetzt ein Schlüssel für die Stimmklonung angezeigt werden:

    • Sie können diesen Schlüssel für die spätere Verwendung speichern, um den Vorgang „Schlüssel generieren“ in Zukunft zu überspringen.

  6. Aktivieren Sie den Bereich Erweiterte Einstellungen, geben Sie im Feld Stichprobenrate (Hertz) den Wert 24000 ein und klicken Sie dann auf Synthetisieren.

Derzeit werden geklonte Stimmen nur mit 24 kHz synthetisiert.

Sie können das Audio sofort herunterladen oder abspielen, um sich anzusehen, wie es klingt.