Hier erfahren Sie, wie Sie Ihre Audio- und Textdaten für die Optimierung eines benutzerdefinierten Speech-to-Text-Modells in der Google Cloud Speech-Konsole vorbereiten. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Sie müssen ein vielfältiges Dataset erstellen, das repräsentativen Audio- und Textkontext enthält, der direkt relevant für die Antworten ist, die das Modell während der Inferenz in der Produktion geben wird. Das Dataset sollte auch Rauschen und ungewöhnliches Vokabular enthalten.
Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells benötigen Sie Folgendes:
- Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
- Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit.
Hinweise
Sie müssen sich für ein Google Cloud Konto registriert, ein Google Cloud Projekt erstellt und die Speech-to-Text API aktiviert haben:
- Rufen Sie Cloud Storage auf.
- Erstellen Sie einen Bucket, falls Sie noch keinen haben.
Dataset erstellen
Zum Erstellen eines Datasets müssen Sie zwei Unterverzeichnisse im Cloud Storage-Bucket Ihrer Wahl erstellen. Halten Sie sich an einfache Namenskonventionen:
- Erstellen Sie das Unterverzeichnis training_dataset, um Ihre Trainingsdateien zu speichern.
- Erstellen Sie das Unterverzeichnis validation_dataset, um Ihre Trainingsdateien zu speichern.
- Laden Sie Ihre Audio- und Textdateien in die Verzeichnisse hoch. Folgen Sie dabei den Richtlinien für die Annotationen zu Grundwahrheiten.
Richtlinien für Datasets
- Sowohl für Training als auch für Validierung werden die Dateiformate
.wav
für Audiodateien mit LINEAR16-Codierung und.txt
für Textdateien unterstützt, falls verfügbar. Vermeiden Sie Nicht-ASCII-Zeichen in den Dateinamen. - Audiodateien im selben Verzeichnis sollten in separaten TXT-Dateien bereitgestellt werden, die jeweils den gleichen Namen wie die entsprechende WAV-Datei haben, z. B. my_file_1.wav, my_file_1.txt. Pro Audiodatei darf nur eine Transkriptionsdatei vorhanden sein.
Trainingsdaten
- Alle Dateien für das Training müssen im selben Verzeichnis ohne verschachtelte Ordner bereitgestellt werden.
- Optional: Stellen Sie, falls verfügbar, Transkriptionen für die Audiodateien bereit. Es sind keine Zeitstempel erforderlich.
- Die kumulative Audiolänge Ihrer Audiodateien muss mehr als 100 Stunden betragen. Andernfalls schlägt der Trainingsjob fehl.
Hier ein Beispiel dafür, wie die Verzeichnisstruktur nach dem Hochladen der Dateien als Trainingsdatensatz aussehen sollte:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Validierungsdaten
- Alle Dateien für die Validierung werden im Verzeichnis validation_dataset ohne verschachtelte Ordner bereitgestellt.
- Validierungsaudio sollte nicht länger als 30 Sekunden sein.
- Stellen Sie Transkriptionen von Grundwahrheiten für jede Audiodatei im selben Verzeichnis in einer separaten TXT-Datei bereit.
Hier sehen Sie ein Beispiel dafür, wie die Verzeichnisstruktur nach dem Hochladen der Dateien als Validierungsdatensatz aussehen sollte:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Richtlinien für Grundwahrheiten-Annotationen
Beachten Sie die folgenden Formatierungsanweisungen.
Zahlen
Grund- und Ordnungszahlen sollten nur in Ziffern transkribiert werden.
- Audio: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
- Grundwahrheiten-Text: „Ein Stapel Karten enthält 52 Karten, dreizehn jeweils der vier Farben, Karo, Herzen und Pik.“
Währung und Einheiten
Transkribieren Sie sie so, wie sie üblicherweise in der Zielsprache geschrieben werden. Schreiben Sie alle Einheiten nach Zahlenwerten in der abgekürzten Form. Wenn aus dem Kontext klar ist, dass mit einer Zahl oder Zahlenfolge ein Betrag oder eine Zeitangabe gemeint ist, formatieren Sie sie entsprechend.
Datum und Uhrzeit
Verwenden Sie für Datums- und Uhrzeitangaben die übliche Schreibweise in der Zielsprache. Schreiben Sie Uhrzeiten möglichst im Format hh:mm
.
Adressen
Transkribieren Sie unter Verwendung der vollständigen Namen von Orten, Straßen und Bundesländern, und nutzen Sie Abkürzungen, falls diese explizit gesprochen werden. Schreiben Sie Objekte und Standorte mit einem Komma dazwischen.
Eigennamen und Akzente
Transkribieren Sie mit der offiziellen Schreibweise und Interpunktion. Wenn bei einem Personennamen mehrere Schreibweisen möglich sind und sich keine bestimmte Schreibweise aus dem Kontext ergibt, verwenden Sie die häufigste Schreibweise.
Marken-, Produkt- und Medientitel
Transkribieren Sie sie so, wie sie offiziell formatiert und am häufigsten geschrieben werden.
Interjektionen
Lacher und andere nicht-sprachliche Vokalereignisse sollten mit bis zu drei Silben transkribiert werden. Lacher, die Teil eines Sprachausdrucks sind, sollten vollständig ignoriert werden. Beispiel:
- Audio: „Ha ha ha ha ha“
- Grundwahrheiten-Text: „Hahaha“
Mehrere Sprecher
Trennen Sie mehrere Sprecher nicht durch Sprecher-Tags; die Sprecherbestimmung wird im Allgemeinen nicht unterstützt.
Nächste Schritte
Folgen Sie den Anleitungen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu verwenden:
- Benutzerdefinierte Modelle trainieren und verwalten
- Modellendpunkte bereitstellen und verwalten.
- Benutzerdefinierte Modelle verwenden
- Benutzerdefinierte Modelle bewerten