Auf dieser Seite wird beschrieben, wie Sie ein bestimmtes Modell für maschinelles Lernen für Audiotranskriptionsanfragen an Cloud Speech-to-Text verwenden.
Transkriptionsmodelle
Cloud Speech-to-Text erkennt Wörter in einem Audioclip durch den Vergleich der Eingabe mit einem von vielen Modellen für maschinelles Lernen. Jedes Modell wurde durch die Analyse von Millionen Beispielen trainiert – in diesem Fall durch sehr viele Audioaufnahmen von sprechenden Personen.
Cloud STT hat spezielle Modelle, die anhand von Audiodaten aus bestimmten Quellen wie Telefonanrufen oder Videos trainiert wurden. Aufgrund dieses Trainings liefern diese speziellen Modelle bessere Ergebnisse, wenn sie auf ähnliche Audiodaten angewendet werden.
Zum Beispiel hat Cloud STT ein Transkriptionsmodell, das dafür trainiert wurde, über ein Telefon aufgenommene Sprache zu erkennen. Wenn Sie für die Transkription von Telefonaudiodaten mit Cloud STT das Modell telephony oder telephony_short verwenden, erhalten Sie bessere Ergebnisse als mit dem Modell latest_short oder latest_long.
In der folgenden Tabelle sind die für Cloud STT verfügbaren Transkriptionsmodelle aufgeführt.
| Modellname | Beschreibung |
|---|---|
latest_long |
Verwenden Sie dieses Modell für längere Inhalte wie Medien oder spontane Sprache und Unterhaltungen. Verwenden Sie dieses Modell anstelle des Videomodells, insbesondere wenn das Videomodell nicht in Ihrer Zielsprache verfügbar ist. Sie können es auch anstelle des Standardmodells verwenden. |
latest_short |
Verwenden Sie dieses Modell für kurze Äußerungen, die nur einige Sekunden lang sind. Dieses Modell ist hilfreich, um Befehle oder andere Anwendungsfälle mit gezielten Einzeläußerungen zu erfassen. Verwenden Sie dieses Modell anstelle des Modells „command_and_search“. |
telephony |
Dies ist eine verbesserte Version des Modells „phone_call“. Optimal für Audiodaten, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. |
telephony_short |
Dies ist eine dedizierte Version des modernen Modells „telephony“ für kurze oder sogar nur aus einem Wort bestehende Äußerungen, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. |
medical_dictation |
Verwenden Sie dieses Modell zum Transkribieren von Notizen, die von medizinischen Fachkräften diktiert wurden.
Dies ist ein Premium-Modell, das teurer als der Standardpreis ist. Weitere Informationen finden Sie auf der Seite zu den Preisen. |
medical_conversation |
Verwenden Sie dieses Modell, um Unterhaltungen zwischen einer medizinischen Fachkraft und einem Patienten zu transkribieren. Dies ist ein Premium-Modell, das teurer als der Standardpreis ist. Weitere Informationen finden Sie auf der Seite zu den Preisen. |
| Die folgenden Modelle basieren zumeist auf klassischen Nicht-Conformer-Architekturen und werden in erster Linie aus Legacy-Gründen und Gründen der Abwärtskompatibilität beibehalten. | |
command_and_search |
Optimal für kurze Ausdrücke oder Einzelworte wie Sprachbefehle oder Sprachsuchen geeignet. |
default |
Optimal für Audiodaten geeignet, für die sich die anderen Audiomodelle nicht eignen, wie Audioinhalte im Langformat oder Spracheingaben. Das Standardmodell erstellt Transkriptionsergebnisse für jede Art von Audioinhalten, einschließlich z. B. aus Videoclips, für die es ein dediziertes anderes Modell gibt. Die Erkennung von Audioinhalten aus Videoclips mit dem Standardmodell führt jedoch wahrscheinlich zu schlechteren Ergebnissen als die Erkennung mit dem Videomodell. Idealerweise sollten die Audiodaten High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet wurden. |
phone_call |
Optimal für Audiodaten geeignet, die aus Telefonanrufen stammen (in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet). |
video |
Optimal für Audiodaten aus Videoclips oder anderen Quellen wie Podcasts geeignet, die mehrere Sprecher haben. Dieses Modell ist auch oft die beste Wahl für Audiodaten, die mit einem hochwertigen Mikrofon aufgenommen wurden oder viele Hintergrundgeräusche haben. Optimale Ergebnisse erzielen Sie, wenn Sie Audiodaten bereitstellen, die mit einer Abtastrate von mindestens 16.000 Hz aufgezeichnet wurden. |
Modell für die Audiotranskription wählen
Wenn Sie ein bestimmtes Modell angeben möchten, das für die Audiotranskription verwendet werden soll, müssen Sie im Parameter RecognitionConfig der Anfrage für das Feld model einen der zulässigen Werte (latest_long, latest_short, telephony oder telephony_short) festlegen.
Cloud STT unterstützt die Modellauswahl für alle Spracherkennungsmethoden: speech:recognize, speech:longrunningrecognize und Streaming.
Lokale Audiodatei transkribieren
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize.
Für eine synchrone Spracherkennung senden Sie eine POST-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST-Anfrage mit curl. In diesem Beispiel wird die Google Cloud CLI verwendet, um ein Zugriffstoken zu generieren. Informationen zur Installation der gcloud CLI finden Sie in der Kurzanleitung.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Weitere Informationen zum Konfigurieren des Anfragetexts erhalten Sie in der Referenzdokumentation zu RecognitionConfig.
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK und die Antwort im JSON-Format zurück:
{
"results": [
{
"alternatives": [
{
"transcript": "OK Google stream stranger things from
Netflix to my TV okay stranger things from
Netflix playing on TV from the people that brought you
Google home comes the next evolution of the smart home
and it's just outside your window me Google know hi
how can I help okay no what's the weather like outside
the weather outside is sunny and 76 degrees he's right
okay no turn on the hose I'm holding sure okay no I'm can
I eat this lemon tree leaf yes what about this Daisy yes
but I wouldn't recommend it but I could eat it okay
Nomad milk to my shopping list I'm sorry that sounds like
an indoor request I keep doing that sorry you do keep
doing that okay no is this compost really we're all
compost if you think about it pretty much everything is
made up of organic matter and will return",
"confidence": 0.9251011
}
]
}
]
}Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Go.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Java.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Node.js.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Python.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Einrichtungsanleitung für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Einrichtungsanleitung für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Einrichtungsanleitung für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für Ruby auf.
Cloud Storage-Audiodatei transkribieren
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Go.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Java.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud STT finden Sie unter Cloud STT-Clientbibliotheken. Weitere Informationen finden Sie in der API-Referenzdokumentation zu Cloud STT Node.js.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud STT zu authentifizieren. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Einrichtungsanleitung für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Einrichtungsanleitung für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Einrichtungsanleitung für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud STT-Referenzdokumentation für Ruby auf.