Diese Seite wurde von der Cloud Translation API übersetzt.

Übersicht: benutzerdefinierte Sprachmodelle

Mit benutzerdefinierten Speech-to-Text-Modellen können Sie Spracherkennungsmodelle an Ihre spezifischen Anforderungen anpassen. Dieser Dienst wurde entwickelt, um die Accuracy und Relevanz des Spracherkennungsdienstes in verschiedenen Umgebungen und Anwendungsfällen über Ihre fachspezifischen Audio- und Textdaten zu verbessern.

Benutzerdefinierte Speech-to-Text-Modelle sind sowohl über die Google Cloud Console als auch über unsere API zugänglich und ermöglichen das Trainieren, Evaluieren und Bereitstellen eines dedizierten Sprachmodells in einer integrierten Umgebung ohne Code. Für das Training können Sie einfach nur Audiodaten bereitstellen, die für Ihre Audiobedingungen repräsentativ sind, ohne Referenztranskriptionen als Trainings-Dataset zu benötigen. Sie müssen jedoch Audiodaten und die zugehörigen Referenztranskriptionen als Teil Ihres Testsets bereitstellen.

Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells umfasst die folgenden Schritte:

Bereiten Sie Trainingsdaten vor und laden Sie diese in einen Cloud Storage-Bucket hoch.
Trainieren Sie ein neues benutzerdefiniertes Modell.
Benutzerdefiniertes Modell über Endpunkte bereitstellen und verwalten.
Benutzerdefiniertes Modell in Ihrer Anwendung verwenden und bewerten

Funktionsweise

Sie können benutzerdefinierte Speech-to-Text-Modelle verwenden, um ein Basistranskriptionsmodell zu erweitern und die Transkriptionserkennung zu verbessern. Bestimmte Audiobedingungen, darunter Sirenen, Musik und übermäßige Hintergrundgeräusche, können akustische Herausforderungen darstellen. Dies gilt auch für bestimmte Akzente und ungewöhnliches Vokabular, darunter Produktnamen.

Benutzerdefinierte Speech-to-Text-Modell verwenden eine vortrainierte, konforme Architektur als Basismodell, das mit proprietären Daten in häufig gesprochener Sprache trainiert wurde. Während des Trainingsprozesses wird das Basismodell optimiert. Dazu wird ein erheblicher Prozentsatz der ursprünglichen Gewichtungen angepasst, um die Erkennung des domainspezifischen Vokabulars und der Audiobedingungen zu verbessern, die für Ihre Anwendung spezifisch sind.

Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells müssen Sie Folgendes bereitstellen:

Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder Audio mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars umfassend lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit. Weitere Informationen zum erwarteten Format und zu den Grundwahrheiten-Konventionen finden Sie in unserer Anleitung zur Datenvorbereitung.

Nach einem erfolgreichen Training können Sie ein benutzerdefiniertes Speech-to-Text-Modell mit einem Klick an einem Endpunkt bereitstellen und es direkt über die Cloud Speech-to-Text V2 API für Inferenz und Benchmarking verwenden.

Unterstützte Modelle, Sprachen und Regionen

Benutzerdefinierte Speech-to-Text-Modelle unterstützen die folgenden Kombinationen aus Modellen, Sprachen und Lokalen für das Training:

Sprache	(BCP-47)	Basismodell
Deutsch (Deutschland)	de-DE	`latest_long`
Englisch (Australien)	en-AU	`latest_long`
Englisch (Großbritannien)	en-GB	`latest_long`
Englisch (Indien)	en-IN	`latest_long`
Englisch (USA)	en-US	`latest_long`
Spanisch (USA)	es-US	`latest_long`
Spanisch (Spanien)	es-ES	`latest_long`
Französisch (Kanada)	fr-CA	`latest_long`
Französisch (Frankreich)	fr-FR	`latest_long`
Hindi (Indien)	hi-IN	`latest_long`
Italienisch (Italien)	it-IT	`latest_long`
Japanisch (Japan)	ja-JP	`latest_long`
Koreanisch (Südkorea)	ko-KR	`latest_long`
Niederländisch (Niederlande)	nl-NL	`latest_long`
Portugiesisch (Brasilien)	pt-BR	`latest_long`
Portugiesisch (Portugal)	pt-PT	`latest_long`

Um Ihre Anforderungen an den Datenstandort zu erfüllen, bieten wir außerdem Hardware für Training und Bereitstellung in verschiedenen Regionen an. Dedizierte Hardware wird für folgende Kombinationen von Modellen und Regionen unterstützt:

Basismodell	Google Cloud Region	Unterstützte Aufgaben
`latest_long`	`us-east1`	Training und Bereitstellung
`latest_long`	`europe-west4`	Training und Bereitstellung

Kontingent

Für das Training von benutzerdefinierten Speech-to-Text-Modellen sollte jedes Google Cloud -Projekt ein ausreichendes Standardkontingent haben, um mehrere Trainingsjobs gleichzeitig ausführen zu können. Außerdem sollte es die Anforderungen der meisten Projekte ohne zusätzliche Anpassungen erfüllen. Wenn Sie jedoch eine höhere Anzahl gleichzeitiger Trainingsjobs ausführen müssen oder umfangreichere Labeling- oder Rechenressourcen benötigen, können Sie zusätzliche Kontingente anfordern.

Bei einem benutzerdefinierten Speech-to-Text-Modell, das eine Endpunktbereitstellung bereitstellt, hat jeder Endpunkt ein theoretisches Limit von 20 Abfragen pro Sekunde (QPS, Queries Per Second). Wenn ein höherer Durchsatz erforderlich ist, fordern Sie zusätzliches Serving-Kontingent an.

Preise

Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells ist mit bestimmten Kosten verbunden, die hauptsächlich auf den Ressourcen basieren, die während des Trainings und der anschließenden Bereitstellung des Modells verwendet werden. Genauer verursacht das benutzerdefinierte Speech-to-Text-Modell in einem typischen Modelllebenszyklus folgende Kosten:

Training: Die Kosten werden anhand der Anzahl der Stunden für das Modelltraining berechnet. Diese Zeit ist proportional zur Anzahl der Audio-Stunden im Trainingsdataset. In der Regel dauert das Training ein Zehntel der Anzahl der Audio-Stunden im Dataset.
Bereitstellung: Ihnen wird jede Stunde in Rechnung gestellt, in der ein Modell auf einem Endpunkt bereitgestellt wird.
Inference: Die Abrechnung erfolgt anhand der Anzahl der gestreamten Sekunden Audio für die Transkription, entsprechend der allgemeinen Abrechnung für Speech-to-Text.

Es ist wichtig, diese Kosten zu kennen, um effektiv budgetieren und Ressourcen zuweisen zu können. Weitere Informationen finden Sie im Abschnitt „Benutzerdefinierte Speech-to-Text-Modelle“ unter Cloud Speech-to-Text – Preise.

Nächste Schritte

Folgen Sie den Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen: