Speech-to-Text offre due modelli medici, oltre agli altri modelli di riconoscimento vocale standard e avanzati. I modelli medici sono personalizzati specificamente per il riconoscimento di parole comuni in ambito medico, come diagnosi, farmaci, sintomi, cure e patologie. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.
Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:
medical_conversation
: per conversazioni tra un fornitore di servizi di assistenza sanitaria, ad esempio un medico o un'infermiera, e un paziente. Utilizza questo modello quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente nella trascrizione restituita.medical_dictation
: per le note dettate da un singolo fornitore di servizi medici, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.
Utilizza i modelli medici solo con le seguenti funzionalità di Speech-to-Text. Le funzionalità ommesse da questo elenco non possono essere utilizzate con nessuno dei due modelli medici.
Il modello di conversazione medica supporta le seguenti funzionalità:
e richiede l'attivazione delle seguenti funzionalità:
Il modello di trascrizione medica supporta le seguenti funzionalità:
e richiede l'attivazione delle seguenti funzionalità:
Invio di una richiesta di trascrizione
REST
Il seguente esempio di codice utilizza il modello medical_conversation
per trascrivere un file audio in un bucket pubblico di Cloud Storage.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
LANGUAGE_CODE
: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per l'inglese (Stati Uniti).ENCODING
: la codifica dell'audio che vuoi trascrivere. Se utilizzi il sample audio pubblico, la codifica èLINEAR16
.PROJECT_ID
: l'ID alfanumerico del tuo progetto Google Cloud.
Metodo HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON della richiesta:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
Punteggiatura del parlato
Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questa funzionalità è sempre attiva. La punteggiatura del parlato è delimitata da parentesi nella trascrizione vocale. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
.
Speech-to-Text supporta la seguente punteggiatura vocale:
- Punto
- Virgola
- Due punti
- maiuscole
- Barra
- trattino
- Trattino
- punto interrogativo
- Punto e virgola
- virgoletta
- unquote
- virgoletta finale
- parentesi aperta
- parentesi chiusa
- parentesi chiusa
Comandi di formattazione
Il modello di dettatura medica supporta i comandi vocali per la formattazione delle note. Questa funzionalità è sempre attiva. I comandi vocali verranno delimitati da parentesi nella trascrizione vocale. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:
[next line] Patient says they are experiencing fever [next point]
.
Speech-to-Text supporta i seguenti comandi vocali:
- punto successivo
- numero successivo
- paragrafo successivo
- maiuscole
- lettere maiuscole
- nuova riga
- elemento successivo
- problema successivo
- numero del problema successivo
- riga successiva
- sezione successiva
- numero successivo
- scratch
- cancella
- fine dettatura
Intestazioni vocali
Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attiva per impostazione predefinita e non può essere disattivata. Le intestazioni saranno delineate da parentesi nella trascrizione e saranno scritte in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:
[CURRENT MEDICATIONS] Patient is currently taking no medications
.
Speech-to-Text supporta le seguenti intestazioni vocali:
- RECLAMO PRINCIPALE
- FARMACI ATTUALI
- MEDICAZIONI DI DIMESSA
- PIANO DI SCARICO
- STORIA FAMILIARE
- RISULTATI
- REVISIONE DEI SISTEMI
- ANAMNESI DELLA MALATTIA ATTUALE
- INDICAZIONI
- LABS
- CRONOLOGIA DELLE INTERVISTE CHIRURGICHE PRECEDENTI
- ESAME FISICO
- REVISIONE DEI SISTEMI
- RADIOLOGY