Speech-to-Text bietet neben anderen Standard- und erweiterten Spracherkennungsmodellen zwei medizinische Modelle. Die medizinischen Modelle sind speziell auf die Erkennung von Begriffen zugeschnitten, die häufig im medizinischen Kontext vorkommen, z. B. Diagnose, Medikament, Symptom, Behandlung und Erkrankung. Wenn Sie Audiodaten dieses Typs erfassen, können Sie mit diesen Modellen die Transkriptionsergebnisse verbessern.
Es gibt zwei medizinische Modelle, die jeweils auf bestimmte Anwendungsfälle zugeschnitten sind:
medical_conversation
: Für Unterhaltungen zwischen einem medizinischen Anbieter, z. B. einem Arzt oder einem Krankenpfleger, und einem Patienten. Verwenden Sie dieses Modell, wenn sowohl der Anbieter als auch der Patient spricht. Alle gesprochenen Wörter werden automatisch erkannt und im erstellten Transkript mit Labels versehen.medical_dictation
: Für Diktate, die von einem einzelnen medizinischen Anbieter gesprochen werden, z. B. ein Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt.
Für medizinische Modelle stehen nur die im Folgenden aufgeführten Speech-to-Text-Features zur Verfügung. Features, die in dieser Liste fehlen, können mit keinem medizinischen Modell verwendet werden.
Das medizinische Unterhaltungsmodell unterstützt die folgenden Features:
Außerdem müssen die folgenden Funktionen aktiviert sein:
Das medizinische Diktatmodell unterstützt die folgenden Features:
- Alternative Transkriptionen
- Zeitstempel für Worte
- Befehle zur Formatierung
- Gesprochene Überschriften
Außerdem müssen die folgenden Funktionen aktiviert sein:
Transkriptionsanfrage senden
REST
Im folgenden Codebeispiel wird das Modell medical_conversation
verwendet, um eine Audiodatei in einem öffentlichen Cloud Storage-Bucket zu transkribieren.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
LANGUAGE_CODE
: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird. Medizinische Modelle sind nur für US-Englisch verfügbar.ENCODING
: Die Codierung der Audiodaten, die transkribiert werden sollen. Wenn Sie das öffentliche Audiobeispiel verwenden, lautet die CodierungLINEAR16
.PROJECT_ID
: Die alphanumerische ID Ihres Google Cloud-Projekts.
HTTP-Methode und URL:
POST https://speech.googleapis.com/v1/speech:recognize
JSON-Text anfordern:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
Gesprochene Satzzeichen
Das medizinische Diktatmodell unterstützt gesprochene Satzzeichen für medizinische Notizen. Dieses Feature ist immer aktiviert. Gesprochene Satzzeichen werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
.
Speech-to-Text unterstützt die folgenden gesprochenen Satzzeichen:
- Punkt
- Komma
- Doppelpunkt
- Großbuchstaben
- Schrägstrich
- Gedankenstrich
- Bindestrich
- Fragezeichen
- Semikolon
- Anführungszeichen
- unquote
- Schließendes Anführungszeichen
- Öffnende Klammer
- Schließende Klammer
- Endklammer
Befehle zur Formatierung
Das medizinische Diktatmodell unterstützt Sprachbefehle für die Formatierung von Notizen. Dieses Feature ist immer aktiviert. Die Sprachbefehle werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:
[next line] Patient says they are experiencing fever [next point]
.
Speech-to-Text unterstützt die folgenden Sprachbefehle:
- Nächster Punkt
- Nächste Nummer
- Nächster Absatz
- Großbuchstaben
- Großschreibung
- Neue Zeile
- Nächstes Element
- Nächstes Problem
- Nächste Problemnummer
- Nächste Zeile
- Nächster Abschnitt
- Nächste Nummer
- scratch
- scratch that
- Diktat beenden
Gesprochene Überschriften
Das medizinische Diktatmodell unterstützt gesprochene Überschriften für diktierte Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Überschriften werden in der Transkription durch Klammern markiert und großgeschrieben. Die zurückgegebene Transkription kann beispielsweise so aussehen:
[CURRENT MEDICATIONS] Patient is currently taking no medications
.
Speech-to-Text unterstützt die folgenden gesprochenen Überschriften:
- HAUPTBESCHWERDE
- AKTUELLE MEDIKAMENTE
- MEDIKAMENTE ABSETZEN
- ABESETZPLAN
- FAMILIENGESCHICHTE
- ERGEBNISSE
- ÜBERSICHT DER SYSTEME
- VERLAUF DER BESTEHENDEN KRANKHEIT
- INDIKATIONEN
- LABOR
- CHIRURGISCHER VERLAUF
- KÖRPERLICHE PRÜFUNG
- ÜBERSICHT DER SYSTEME
- RADIOLOGIE