Auf dieser Seite wird beschrieben, wie Labels für verschiedene Sprecher in Audiodaten ermittelt werden, die von Speech-to-Text transkribiert werden.
Manchmal enthalten Audiodaten Aufzeichnungen von mehr als einer sprechenden Person. Audiodaten von einem Telefonanruf etwa enthalten normalerweise die Stimmen von zwei oder mehr Personen. Eine Transkription des Anrufs umfasst idealerweise Informationen dazu, wer wann spricht.
Sprecherbestimmung
Speech-to-Text kann mehrere Sprecher im selben Audioclip erkennen. In Ihre Audiotranskriptionsanfrage an Speech-to-Text können Sie einen Parameter aufnehmen, der Speech-to-Text anweist, die verschiedenen Sprecher im Audiobeispiel zu identifizieren. Diese Funktion (auch als Sprecherbestimmung bezeichnet) ermittelt, wann die Sprecher wechseln, und gibt den einzelnen Stimmen, die in der Audioaufnahme erkannt werden, ein Nummernlabel.
Wenn Sie die Sprecherbestimmung in der Transkriptionsanfrage aktivieren, versucht Speech-to-Text, zwischen verschiedenen Stimmen im Audiobeispiel zu unterscheiden. Im Transkriptionsergebnis wird jedes Wort mit einer Zahl gekennzeichnet, die einem Sprecher zugewiesen ist. Vom selben Sprecher gesprochene Worte erhalten dieselbe Nummer. Ein Transkriptionsergebnis kann die Nummern von so vielen Sprechern enthalten, wie Speech-to-Text eindeutig im Audiobeispiel identifizieren kann.
Mit der Sprecherbestimmung erzeugt Speech-to-Text eine fortlaufende Zusammenfassung aller Ergebnisse in der Transkription. Jedes Ergebnis enthält auch die Worte aus dem vorhergehenden Ergebnis. Entsprechend umfasst das Array words
im Endergebnis die vollständig bestimmten Ergebnisse der Transkription.
Auf der Seite Sprachunterstützung können Sie sehen, ob dieses Feature für Ihre Sprache verfügbar ist.
Sprecherbestimmung in einer Anfrage aktivieren
Zum Aktivieren der Sprecherbestimmung müssen Sie das Feld diarization_config
in RecognitionFeatures
festlegen. Sie müssen die Werte min_speaker_count
und max_speaker_count
entsprechend der Anzahl der zu erwartenden Sprecher im Transkript festlegen.
Speech-to-Text unterstützt die Sprecherbestimmung für alle Spracherkennungsmethoden:
speech:recognize
und Streaming.
Lokale Datei verwenden
Im folgenden Code-Snippet wird gezeigt, wie die Sprecherbestimmung in einer Transkriptionsanfrage an Speech-to-Text mithilfe einer lokalen Datei aktiviert wird.
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
.
Für eine synchrone Spracherkennung senden Sie eine POST
-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird die Google Cloud CLI verwendet, um ein Zugriffstoken zu generieren. Eine Anleitung zur Installation der gcloud CLI finden Sie in der Kurzanleitung.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/{location}/recognizers/{recognizer}:recognize \ --data '{ "config": { "features": { "diarizationConfig": { "minSpeakerCount": 2, "maxSpeakerCount": 2 }, } }, "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" }' > speaker-diarization.txt
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK
und die Antwort im JSON-Format zurück. Diese Informationen sind in einer Datei namens speaker-diarization.txt
gespeichert.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast and I was wondering whether you could help me with that certainly which color would you like we have blue black and red uh let's go with the black one would you like the new Chromecast Ultra model or the regular Chrome Cast regular Chromecast is fine thank you okay sure we like to ship it regular or Express Express please terrific it's on the way thank you thank you very much bye", "confidence": 0.92142606, "words": [ { "startOffset": "0s", "endOffset": "1.100s", "word": "hi", "speakerLabel": "2" }, { "startOffset": "1.100s", "endOffset": "2s", "word": "I'd", "speakerLabel": "2" }, { "startOffset": "2s", "endOffset": "2s", "word": "like", "speakerLabel": "2" }, { "startOffset": "2s", "endOffset": "2.100s", "word": "to", "speakerLabel": "2" }, ... { "startOffset": "6.500s", "endOffset": "6.900s", "word": "certainly", "speakerLabel": "1" }, { "startOffset": "6.900s", "endOffset": "7.300s", "word": "which", "speakerLabel": "1" }, { "startOffset": "7.300s", "endOffset": "7.500s", "word": "color", "speakerLabel": "1" }, ... ] } ], "languageCode": "en-us" } ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Go API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Python API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.