Diese Seite wurde von der Cloud Translation API übersetzt.

Trainingsdaten vorbereiten

Hier erfahren Sie, wie Sie Ihre Audio- und Textdaten für die Optimierung eines benutzerdefinierten Speech-to-Text-Modells in der Google Cloud Speech-Konsole vorbereiten. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Sie müssen ein vielfältiges Dataset erstellen, das repräsentative Audio- und Textkontexte enthält, die direkt relevant dafür sind, worauf das Modell während der Inferenz in der Produktion reagieren wird, einschließlich Rauschen und ungewöhnlichem Vokabular.

Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells benötigen Sie Folgendes:

Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit.

Hinweise

Sie müssen sich für ein Google Cloud Konto registriert, ein Google Cloud Projekt erstellt und die Speech-to-Text API aktiviert haben:

Rufen Sie Cloud Storage auf.
Erstellen Sie einen Bucket, falls Sie noch keinen haben.

Dataset erstellen

Zum Erstellen eines Datasets müssen Sie zwei Unterverzeichnisse im Cloud Storage-Bucket Ihrer Wahl erstellen. Halten Sie sich an einfache Namenskonventionen:

Erstellen Sie das Unterverzeichnis training_dataset, um Ihre Trainingsdateien zu speichern.
Erstellen Sie das Unterverzeichnis validation_dataset, um Ihre Trainingsdateien zu speichern.
Laden Sie Ihre Audio- und Textdateien in die Verzeichnisse hoch. Folgen Sie dabei den Richtlinien für die Annotationen zu Grundwahrheiten.

Richtlinien für Datasets

Sowohl für Training als auch für Validierung werden die Dateiformate .wav für Audiodateien mit LINEAR16-Codierung und .txt für Textdateien unterstützt, falls verfügbar. Vermeiden Sie Nicht-ASCII-Zeichen in den Dateinamen.
Audiodateien im selben Verzeichnis sollten in separaten TXT-Dateien bereitgestellt werden, die jeweils den gleichen Namen wie die entsprechende WAV-Datei haben, z. B. my_file_1.wav, my_file_1.txt. Pro Audiodatei darf nur eine Transkriptionsdatei vorhanden sein.

Trainingsdaten

Alle Dateien für das Training müssen im selben Verzeichnis ohne verschachtelte Ordner bereitgestellt werden.
Optional: Stellen Sie, falls verfügbar, Transkriptionen für die Audiodateien bereit. Es sind keine Zeitstempel erforderlich.
Die kumulative Audiolänge Ihrer Audiodateien muss mehr als 100 Stunden betragen. Andernfalls schlägt der Trainingsjob fehl.

Hier ein Beispiel dafür, wie die Verzeichnisstruktur nach dem Hochladen der Dateien als Trainingsdatensatz aussehen sollte:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Validierungsdaten

Alle Dateien für die Validierung werden im Verzeichnis validation_dataset ohne verschachtelte Ordner bereitgestellt.
Validierungsaudio sollte nicht länger als 30 Sekunden sein.
Stellen Sie Transkriptionen von Grundwahrheiten für jede Audiodatei im selben Verzeichnis in einer separaten TXT-Datei bereit.

Hier sehen Sie ein Beispiel dafür, wie die Verzeichnisstruktur aussehen sollte, nachdem die Dateien als Validierungsdatensatz hochgeladen wurden:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Richtlinien für Grundwahrheiten-Annotationen

Beachten Sie die folgenden Formatierungsanweisungen.

Zahlen

Grund- und Ordnungszahlen sollten nur in Ziffern transkribiert werden.

Audio: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
Grundwahrheiten-Text: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“

Währung und Einheiten

Transkribieren Sie sie so, wie sie üblicherweise in der Zielsprache geschrieben werden. Schreiben Sie alle Einheiten nach Zahlenwerten in der abgekürzten Form. Wenn aus dem Kontext klar ist, dass mit einer Zahl oder Zahlenfolge ein Betrag oder eine Zeitangabe gemeint ist, formatieren Sie sie entsprechend.

Datum und Uhrzeit

Verwenden Sie für Datums- und Uhrzeitangaben die übliche Schreibweise in der Zielsprache. Schreiben Sie Uhrzeiten möglichst im Format hh:mm.

Adressen

Transkribieren Sie unter Verwendung der vollständigen Namen von Orten, Straßen und Bundesländern, und nutzen Sie Abkürzungen, falls diese explizit gesprochen werden. Schreiben Sie Objekte und Standorte mit einem Komma dazwischen.

Eigennamen und Akzente

Transkribieren Sie mit der offiziellen Schreibweise und Interpunktion. Wenn bei einem Personennamen mehrere Schreibweisen möglich sind und sich keine bestimmte Schreibweise aus dem Kontext ergibt, verwenden Sie die häufigste Schreibweise.

Marken-, Produkt- und Medientitel

Transkribieren Sie sie so, wie sie offiziell formatiert und am häufigsten geschrieben werden.

Interjektionen

Lacher und andere nicht-sprachliche Vokalereignisse sollten mit bis zu drei Silben transkribiert werden. Lacher, die Teil eines Sprachausdrucks sind, sollten vollständig ignoriert werden. Beispiel:

Audio: „Ha ha ha ha ha“
Grundwahrheiten-Text: „Hahaha“

Mehrere Sprecher

Trennen Sie mehrere Sprecher nicht durch Sprecher-Tags; die Sprecherbestimmung wird im Allgemeinen nicht unterstützt.

Nächste Schritte

Folgen Sie den Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen: