Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Mit der Sprachtranskription werden gesprochene Audiodaten in einem Video oder Videosegment in Text transkribiert und Textblöcke für jeden Teil des transkribierten Audios zurückgegeben.
Unterstützte Modelle
Video Intelligence unterstützt nur Englisch (US). Für andere Sprachen verwenden Sie die Speech-to-Text API, die alle verfügbaren Sprachen unterstützt. Eine Liste der verfügbaren Sprachen finden Sie in der Speech-to-Text-Dokumentation unter Sprachunterstützung.
Rufen Sie zum Transkribieren von Sprache aus einem Video die Methode annotate auf und geben Sie SPEECH_TRANSCRIPTION in der features an.
Sie können die folgenden Funktionen beim Transkribieren von Sprache verwenden:
Alternative Wörter: Mit der Option maxAlternatives können Sie die maximale Anzahl von Optionen für erkannte Textübersetzungen angeben, die in die Antwort aufgenommen werden sollen. Dieser Wert kann eine Ganzzahl von 1 bis 30 sein. Der Standardwert ist 1.
Die API gibt mehrere Transkriptionen in absteigender Reihenfolge basierend auf dem Konfidenzwert für die Transkription zurück. Alternative Transkriptionen enthalten keine Einträge auf Wortebene.
Filtern von vulgärer Sprache: Mit der Option filterProfanity können Sie bekannte vulgäre Ausdrücke in Transkriptionen herausfiltern. Übereinstimmende Wörter werden durch den Anfangsbuchstaben des Worts gefolgt von Sternchen ersetzt. Der Standardwert ist "false".
Transkriptionshinweise: Verwenden Sie die Option speechContexts, um allgemeine oder ungewöhnliche Wortgruppen in der Audiodatei zu nutzen. Diese Wortgruppen werden dann verwendet, um den Transkriptionsdienst dabei zu unterstützen, genauere Transkriptionen zu erstellen. Ein Transkriptionshinweis lässt sich als SpeechContext-Objekt angeben.
Auswahl von Audiotracks:: Mit der Option audioTracks geben Sie an, welche Spur aus dem mehrspurigen Video transkribiert werden soll. Nutzer können bis zu zwei Titel angeben.
Die Standardeinstellung ist 0.
Sobald der Sprachcode auf "en-US" festgelegt ist, wird die Anfrage an den erweiterten Modus weitergeleitet, der mit US-Audiodateien trainiert wird. Es kennt en-US oder andere Sprachen nicht per se. Wenn wir eine spanische Audiodatei in das erweiterte Modell einspeisen, läuft die Transkription zwar, aber es kann zu Ausgaben mit niedrigen Konfidenzwerten oder gar keiner Ausgabe kommen. Dies wird von einem guten Modell erwartet.
Automatische Satzzeichen: Mit der Option enableAutomaticPunctuation fügen Sie Satzzeichen in den transkribierten Text ein. Der Standardwert ist "false".
Mehrere Sprecher: Mit der Option enableSpeakerDiarization können Sie unterschiedliche Sprecher in einem Video identifizieren. In der Antwort enthält jedes erkannte Wort das Feld speakerTag. In diesem Feld wird angegeben, welchem Sprecher das erkannte Wort zugeordnet wird.
Optimale Ergebnisse erzielen Sie, wenn Sie Audiodaten bereitstellen, die mit einer Abtastrate von mindestens 16.000 Hz aufgezeichnet wurden.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-03 (UTC)."],[],[],null,["# Speech transcription\n\n*Speech Transcription* transcribes spoken audio in a video or video segment\ninto text and returns blocks of text for each portion of the transcribed audio.\n\nSupported models\n----------------\n\nThe Video Intelligence only supports English (US). For other languages, use\nthe Speech-to-Text API, which supports all available languages. For the list of\navailable languages, see [Language\nsupport](/speech-to-text/docs/speech-to-text-supported-languages) in the\nSpeech-to-Text documentation.\n\nTo transcribe speech from a video, call the\n[`annotate`](/video-intelligence/docs/reference/rest/v1/videos/annotate)\nmethod and specify\n[`SPEECH_TRANSCRIPTION`](/video-intelligence/docs/reference/rest/v1/videos#Feature)\nin the `features` field.\n\nYou can use the following features when transcribing speech:\n\n- **Alternative words** : Use the `maxAlternatives` option to specify\n the maximum number of options for recognized text translations to include in the\n response. This value can be an integer from 1 to 30. The default is 1.\n The API returns multiple transcriptions in descending order based on\n the confidence value for the transcription. Alternative transcriptions\n do not include word-level entries.\n\n- **Profanity filtering** : Use the `filterProfanity` option to filter out known\n profanities in transcriptions. Matched words are replaced with the leading\n character of the word followed by asterisks. The default is false.\n\n- **Transcription hints** : Use the `speechContexts` option to provide common or\n unusual phrases in your audio. Those phrases are then used to assist the\n transcription service to create more accurate transcriptions. You provide\n a transcription hint as a\n [SpeechContext](/video-intelligence/docs/reference/rest/v1/videos#SpeechContext)\n object.\n\n- **Audio track selection** : Use the `audioTracks` option to specify which track\n to transcribe from multi-track video. Users can specify up to two tracks.\n Default is 0.\n Once the language code is set to en-US, the request is routed to the enhanced\n mode, which is trained on en-US audio; it does not really *know* en-US or\n any other languages per se. If we feed a Spanish audio into the enhanced model,\n transcription will run its course but there may be outputs with low confidence\n scores, or no output at all -- which is what is expected of a good model.\n\n- **Automatic punctuation** : Use the `enableAutomaticPunctuation` option\n to include punctuation in the transcribed text. The default is false.\n\n- **Multiple speakers** : Use the `enableSpeakerDiarization` option to identify\n different speakers in a video. In the response, each recognized word includes\n a `speakerTag` field that identifies which speaker the recognized word is\n attributed to.\n\nFor best results, provide audio recorded at 16,000Hz or greater sampling rate.\n\nCheck out the [Video Intelligence API visualizer](https://zackakil.github.io/video-intelligence-api-visualiser/#Speech%20Transcription) to see this feature in action.\n\nFor examples of requesting speech transcription,\nsee [Speech Transcription](/video-intelligence/docs/transcription)."]]