Mit benutzerdefinierten Speech-to-Text-Modellen können Sie Spracherkennungsmodelle an Ihre spezifischen Anforderungen anpassen. Dieser Dienst wurde entwickelt, um die Accuracy und Relevanz des Spracherkennungsdienstes in verschiedenen Umgebungen und Anwendungsfällen über Ihre fachspezifischen Audio- und Textdaten zu verbessern.
Benutzerdefinierte Speech-to-Text-Modelle sind sowohl über die Google Cloud Console als auch über unsere API zugänglich und ermöglichen das Trainieren, Evaluieren und Bereitstellen eines dedizierten Sprachmodells in einer integrierten Umgebung ohne Code. Für das Training können Sie einfach nur Audiodaten bereitstellen, die für Ihre Audiobedingungen repräsentativ sind, ohne Referenztranskriptionen als Trainings-Dataset zu benötigen. Sie müssen jedoch Audiodaten und die zugehörigen Referenztranskriptionen als Teil Ihres Bewertungs-Datasets bereitstellen.
So erstellen und verwenden Sie ein benutzerdefiniertes Modell für die Sprachausgabe:
- Bereiten Sie Trainingsdaten vor und laden Sie diese in einen Cloud Storage-Bucket hoch.
- Trainieren Sie ein neues benutzerdefiniertes Modell.
- Benutzerdefiniertes Modell über Endpunkte bereitstellen und verwalten.
- Benutzerdefiniertes Modell in Ihrer Anwendung verwenden und bewerten
Funktionsweise
Sie können benutzerdefinierte Speech-to-Text-Modelle verwenden, um ein Basistranskriptionsmodell zu erweitern und die Transkriptionserkennung zu verbessern. Bestimmte Audiobedingungen wie Sirenen, Musik und übermäßige Hintergrundgeräusche können akustische Herausforderungen darstellen. Dies gilt auch für bestimmte Akzente und ungewöhnliches Vokabular, darunter Produktnamen.
Benutzerdefinierte Speech-to-Text-Modell verwenden eine vortrainierte, konforme Architektur als Basismodell, das mit proprietären Daten in häufig gesprochener Sprache trainiert wurde. Während des Trainingsprozesses wird das Basismodell optimiert. Dazu wird ein erheblicher Prozentsatz der ursprünglichen Gewichtungen angepasst, um die Erkennung des domainspezifischen Vokabulars und der Audiobedingungen zu verbessern, die für Ihre Anwendung spezifisch sind.
Für ein effektives Training eines benutzerdefinierten Speech-to-Text-Modells müssen Sie Folgendes bereitstellen:
- Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder Audio mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die anfängliche Trainingsphase entscheidend, damit das Modell die Feinheiten der Sprachmuster und des Wortschatzes umfassend lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
- Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit. Weitere Informationen zum erwarteten Format und zu den Grundwahrheiten-Konventionen finden Sie in unserer Anleitung zur Datenvorbereitung.
Nach einem erfolgreichen Training können Sie ein benutzerdefiniertes Speech-to-Text-Modell mit einem Klick an einem Endpunkt bereitstellen und es direkt über die Cloud Speech-to-Text V2 API für Inferenz und Benchmarking verwenden.
Unterstützte Modelle, Sprachen und Regionen
Benutzerdefinierte Speech-to-Text-Modelle unterstützen die folgenden Kombinationen aus Modellen, Sprachen und Lokalen für das Training:
Sprache | (BCP-47) | Basismodell |
---|---|---|
Deutsch (Deutschland) |
de-DE |
|
Englisch (Australien) |
en-AU |
|
Englisch (Großbritannien) |
en-GB |
|
Englisch (Indien) |
en-IN |
|
Englisch (USA) |
en-US |
|
Spanisch (USA) |
es-US |
|
Spanisch (Spanien) |
es-ES |
|
Französisch (Kanada) |
fr-CA |
|
Französisch (Frankreich) |
fr-FR |
|
Hindi (Indien) |
hi-IN |
|
Italienisch (Italien) |
it-IT |
|
Japanisch (Japan) |
ja-JP |
|
Koreanisch (Südkorea) |
ko-KR |
|
Niederländisch (Niederlande) |
nl-NL |
|
Portugiesisch (Brasilien) |
pt-BR |
|
Portugiesisch (Portugal) |
pt-PT |
|
Außerdem bieten wir Ihnen zur Einhaltung Ihrer Anforderungen an den Datenstandort Hardware für Schulungen und Bereitstellungen in verschiedenen Regionen an. Dedizierte Hardware wird für folgende Kombinationen von Modellen und Regionen unterstützt:
Basismodell | Google Cloud Region | Unterstützte Aufgaben |
---|---|---|
|
|
Training und Bereitstellung |
|
|
Training und Bereitstellung |
Kontingent
Für das Training von benutzerdefinierten Speech-to-Text-Modellen sollte jedes Google Cloud Projekt ein ausreichendes Standardkontingent haben, um mehrere Trainingsjobs gleichzeitig ausführen zu können. Außerdem sollte es die Anforderungen der meisten Projekte ohne zusätzliche Anpassungen erfüllen. Wenn Sie jedoch eine höhere Anzahl gleichzeitiger Trainingsjobs ausführen müssen oder umfangreichere Labeling- oder Rechenressourcen benötigen, können Sie zusätzliche Kontingente anfordern.
Bei einem benutzerdefinierten Speech-to-Text-Modell, das eine Endpunktbereitstellung bereitstellt, hat jeder Endpunkt ein theoretisches Limit von 20 Abfragen pro Sekunde (QPS, Queries Per Second). Wenn ein höherer Durchsatz erforderlich ist, beantragen Sie ein zusätzliches Auslieferungskontingent.
Preise
Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells ist mit bestimmten Kosten verbunden, die hauptsächlich von den Ressourcen abhängen, die beim Training und der anschließenden Bereitstellung des Modells verwendet werden. Genauer verursacht das benutzerdefinierte Speech-to-Text-Modell in einem typischen Modelllebenszyklus folgende Kosten:
- Training: Ihnen werden die Stunden für das Modelltraining in Rechnung gestellt. Diese Zeit ist proportional zur Anzahl der Audiostunden im Trainingsdatensatz. In der Regel dauert das Training ein Zehntel der Audiostunden im Dataset.
- Bereitstellung: Ihnen wird jede Stunde in Rechnung gestellt, in der ein Modell auf einem Endpunkt bereitgestellt wird.
- Inferenz: Ihnen wird die Anzahl der gestreamten Audiosekunden für die Transkription gemäß der allgemeinen Abrechnung für die Spracherkennung in Rechnung gestellt.
Diese Kosten zu kennen, ist entscheidend für eine effektive Budgetierung und Ressourcenallokation. Weitere Informationen finden Sie im Abschnitt zu benutzerdefinierten Spracherkennungsmodellen unter Cloud Speech-to-Text – Preise.
Nächste Schritte
In den folgenden Ressourcen erfahren Sie, wie Sie benutzerdefinierte Sprachmodelle in Ihrer Anwendung nutzen können:
- Trainingsdaten vorbereiten
- Benutzerdefinierte Modelle trainieren und verwalten
- Modellendpunkte bereitstellen und verwalten.
- Benutzerdefinierte Modelle verwenden
- Benutzerdefinierte Modelle bewerten