Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Speech-to-Text bietet neben anderen Standard- und erweiterten Spracherkennungsmodellen zwei medizinische Modelle.
Die medizinischen Modelle sind speziell auf die Erkennung von Begriffen zugeschnitten, die häufig im medizinischen Kontext vorkommen, z. B. Diagnose, Medikament, Symptom, Behandlung und Erkrankung. Wenn Sie Audiodaten dieses Typs erfassen, können Sie mit diesen Modellen die Transkriptionsergebnisse verbessern.
Es gibt zwei medizinische Modelle, die jeweils auf bestimmte Anwendungsfälle zugeschnitten sind:
medical_conversation: Für Unterhaltungen zwischen einem medizinischen Anbieter, z. B. einem Arzt oder einem Krankenpfleger, und einem Patienten. Verwenden Sie dieses Modell, wenn sowohl der Anbieter als auch der Patient spricht. Alle gesprochenen Wörter werden automatisch erkannt und im erstellten Transkript mit Labels versehen.
medical_dictation: Für Diktate, die von einem einzelnen medizinischen Anbieter gesprochen werden, z. B. ein Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt.
Für medizinische Modelle stehen nur die im Folgenden aufgeführten Speech-to-Text-Features zur Verfügung. Features, die in dieser Liste fehlen, können mit keinem medizinischen Modell verwendet werden. Die automatische Zeichensetzung ist standardmäßig aktiviert.
Im folgenden Codebeispiel wird das Modell medical_conversation verwendet, um eine Audiodatei in einem öffentlichen Cloud Storage-Bucket zu transkribieren.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
LANGUAGE_CODE: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird.
Medizinische Modelle sind nur für US-Englisch verfügbar.
ENCODING: Die Codierung der Audiodaten, die transkribiert werden sollen. Wenn Sie das öffentliche Audiobeispiel verwenden, lautet die Codierung LINEAR16.
PROJECT_ID: Die alphanumerische ID Ihres Google Cloud -Projekts.
HTTP-Methode und URL:
POST https://speech.googleapis.com/v1/speech:recognize
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
"results": [
{
"alternatives": [
{
"transcript": "Um-hum . Yeah. Hello , good morning . Good
morning . So , tell me what's going on . Uh , sure , so , um , I
woke up probably three or four days ago , which , uh , wheezing and short of breath .
Okay , any cough or chest pain ? I cough infrequently , but no ,
uh , chest pain . Have you been exposed to anyone with covid ?
Uh , no , and I also took a test , which was negative . Uh , is it getting
worse , or better ? Uh , it has been getting a lot worse"
}
]
},
{
"alternatives": [
{
"transcript": "Okay . Was there something that triggered this exposure to cold , for
example ? Um , I had a gone hiking , and I got caught in the rain the day
before this all started ."
}
]
}
]
}
Gesprochene Satzzeichen
Das medizinische Diktatmodell unterstützt gesprochene Satzzeichen für medizinische Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Gesprochene Satzzeichen werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].
Speech-to-Text unterstützt die folgenden gesprochenen Satzzeichen:
Punkt
Komma
Doppelpunkt
Großbuchstaben
Schrägstrich
Gedankenstrich
Bindestrich
Fragezeichen
Semikolon
Anführungszeichen
unquote
Schließendes Anführungszeichen
Öffnende Klammer
Schließende Klammer
Endklammer
Befehle zur Formatierung
Das medizinische Diktatmodell unterstützt Sprachbefehle für die Formatierung von Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Die Sprachbefehle werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:
[next line] Patient says they are experiencing fever [next point].
Speech-to-Text unterstützt die folgenden Sprachbefehle:
Nächster Punkt
Nächste Nummer
Nächster Absatz
Großbuchstaben
Großschreibung
Neue Zeile
Nächstes Element
Nächstes Problem
Nächste Problemnummer
Nächste Zeile
Nächster Abschnitt
Nächste Nummer
scratch
scratch that
Diktat beenden
Gesprochene Überschriften
Das medizinische Diktatmodell unterstützt gesprochene Überschriften für diktierte Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Überschriften werden in der Transkription durch Klammern markiert und großgeschrieben. Die zurückgegebene Transkription kann beispielsweise so aussehen:
[CURRENT MEDICATIONS] Patient is currently taking no medications.
Speech-to-Text unterstützt die folgenden gesprochenen Überschriften:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[],[],null,["# Recognize speech by using medical models\n\nSpeech-to-Text offers two *medical* models in addition the other\n[standard and enhanced speech recognition models](https://cloud.google.com/speech-to-text/docs/transcription-model).\nThe medical models are specifically tailored for recognition of words that\nare common in medical settings, such as diagnoses, medications, symptoms,\ntreatments, and conditions. If you want to recognize this type of audio data,\nyou can improve your transcription results by using these models.\n\nThere are two medical models, each tailored to specific use cases:\n\n- `medical_conversation`: for conversations between a medical provider---for example, a doctor or nurse---and a patient. Use this model when both a provider and a patient are speaking. Words uttered by each speaker are automatically detected and labeled in the returned transcript.\n- `medical_dictation`: for dictated notes spoken by a single medical provider---for example, a doctor dictating notes about a patient's blood test results.\n\nUse medical models only with the following Speech-to-Text features. Features\nomitted from this list can't be used with either medical model. The automatic\npunctuation feature is enabled by default.\n\n- [Automatic punctuation](/speech-to-text/docs/automatic-punctuation)\n- [Alternate transcriptions](/speech-to-text/docs/speech-to-text-requests#selecting_alternatives)\n- [Word timestamps](/speech-to-text/docs/async-time-offsets)\n- [Word-level confidence](/speech-to-text/docs/word-confidence)\n\nThe medical conversation model supports the following features:\n\n- [Speaker diarization](/speech-to-text/docs/multiple-voices)\n\nThe medical dictation model supports the following features:\n\n- [Spoken Punctuation](#spoken_punctuation)\n- [Formatting Commands](#formatting_commands)\n- [Spoken Headings](#spoken_headings)\n\nSend a transcription request\n----------------------------\n\n### REST\n\nThe following code sample uses the `medical_conversation` model to transcribe\nan audio file in a public Cloud Storage bucket.\n\n\nBefore using any of the request data,\nmake the following replacements:\n\n- \u003cvar translate=\"no\"\u003eLANGUAGE_CODE\u003c/var\u003e: the BCP-47 code of the language spoken in your audio clip. Medical models are only available for *en-US*.\n- \u003cvar translate=\"no\"\u003eENCODING\u003c/var\u003e: the encoding of the audio you want to transcribe. If you are using the public audio sample, the encoding is `LINEAR16`.\n- \u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e: the alphanumeric ID of your Google Cloud project.\n\n\nHTTP method and URL:\n\n```\nPOST https://speech.googleapis.com/v1/speech:recognize\n```\n\n\nRequest JSON body:\n\n```\n{\n \"config\": {\n \"languageCode\": \"LANGUAGE_CODE\",\n \"encoding\": \"ENCODING\",\n \"model\": \"medical_conversation\"\n },\n \"audio\": {\n \"uri\": \"gs://cloud-samples-data/speech/medical_conversation_2.wav\"\n }\n}\n```\n\nTo send your request, expand one of these options:\n\n#### curl (Linux, macOS, or Cloud Shell)\n\n| **Note:** The following command assumes that you have logged in to the `gcloud` CLI with your user account by running [`gcloud init`](/sdk/gcloud/reference/init) or [`gcloud auth login`](/sdk/gcloud/reference/auth/login) , or by using [Cloud Shell](/shell/docs), which automatically logs you into the `gcloud` CLI . You can check the currently active account by running [`gcloud auth list`](/sdk/gcloud/reference/auth/list).\n\n\nSave the request body in a file named `request.json`,\nand execute the following command:\n\n```\ncurl -X POST \\\n -H \"Authorization: Bearer $(gcloud auth print-access-token)\" \\\n -H \"x-goog-user-project: PROJECT_ID\" \\\n -H \"Content-Type: application/json; charset=utf-8\" \\\n -d @request.json \\\n \"https://speech.googleapis.com/v1/speech:recognize\"\n```\n\n#### PowerShell (Windows)\n\n| **Note:** The following command assumes that you have logged in to the `gcloud` CLI with your user account by running [`gcloud init`](/sdk/gcloud/reference/init) or [`gcloud auth login`](/sdk/gcloud/reference/auth/login) . You can check the currently active account by running [`gcloud auth list`](/sdk/gcloud/reference/auth/list).\n\n\nSave the request body in a file named `request.json`,\nand execute the following command:\n\n```\n$cred = gcloud auth print-access-token\n$headers = @{ \"Authorization\" = \"Bearer $cred\"; \"x-goog-user-project\" = \"PROJECT_ID\" }\n\nInvoke-WebRequest `\n -Method POST `\n -Headers $headers `\n -ContentType: \"application/json; charset=utf-8\" `\n -InFile request.json `\n -Uri \"https://speech.googleapis.com/v1/speech:recognize\" | Select-Object -Expand Content\n```\n\nYou should receive a JSON response similar to the following:\n\n```\n \"results\": [\n {\n \"alternatives\": [\n {\n \"transcript\": \"Um-hum . Yeah. Hello , good morning . Good\n morning . So , tell me what's going on . Uh , sure , so , um , I\n woke up probably three or four days ago , which , uh , wheezing and short of breath .\n Okay , any cough or chest pain ? I cough infrequently , but no ,\n uh , chest pain . Have you been exposed to anyone with covid ?\n Uh , no , and I also took a test , which was negative . Uh , is it getting\n worse , or better ? Uh , it has been getting a lot worse\"\n }\n ]\n },\n {\n \"alternatives\": [\n {\n \"transcript\": \"Okay . Was there something that triggered this exposure to cold , for\n example ? Um , I had a gone hiking , and I got caught in the rain the day\n before this all started .\"\n }\n ]\n }\n ]\n}\n```\n\n\u003cbr /\u003e\n\nSpoken punctuation\n------------------\n\nThe medical dictation model supports spoken punctuation for medical notes. This\nfeature is enabled by default, and cannot be disabled. Spoken punctuation is\ndelineated by brackets in the speech transcription. For example, your returned\ntranscription might look similar to the following:\n\n`Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]`.\n\nSpeech-to-Text supports the following spoken punctuation:\n\n- period\n- comma\n- colon\n- caps\n- slash\n- dash\n- hyphen\n- question mark\n- semicolon\n- quote\n- unquote\n- end quote\n- open parenthesis\n- close parenthesis\n- end parenthesis\n\nFormatting commands\n-------------------\n\nThe medical dictation model supports spoken commands for formatting notes. This\nfeature is enabled by default, and cannot be disabled. The spoken commands will\nbe delineated by brackets in the speech transcription. For example, your\nreturned transcription might look similar to the following:\n\n`[next line] Patient says they are experiencing fever [next point]`.\n\nSpeech-to-Text supports the following spoken commands:\n\n- next point\n- next number\n- next paragraph\n- caps\n- capitalization\n- new line\n- next item\n- next problem\n- next problem number\n- next row\n- next section\n- number next\n- scratch\n- scratch that\n- end dictation\n\nSpoken headings\n---------------\n\nThe medical dictation model supports spoken headings for dictated notes. This\nfeature is enabled by default, and cannot be disabled. The headings will be\ndelineated by brackets in the transcription and will be capitalized. For\nexample, your returned transcription might look similar to the following:\n\n`[CURRENT MEDICATIONS] Patient is currently taking no medications`.\n\nSpeech-to-Text supports the following spoken headings:\n\n- CHIEF COMPLAINT\n- CURRENT MEDICATIONS\n- DISCHARGE MEDICATIONS\n- DISCHARGE PLAN\n- FAMILY HISTORY\n- FINDINGS\n- REVIEW OF SYSTEMS\n- HISTORY OF PRESENT ILLNESS\n- INDICATIONS\n- LABS\n- PAST SURGICAL HISTORY\n- PHYSICAL EXAM\n- REVIEW OF SYSTEMS\n- RADIOLOGY"]]