Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici, oltre agli altri modelli di riconoscimento vocale standard e avanzati. I modelli medici sono personalizzati specificamente per il riconoscimento di parole comuni in ambito medico, come diagnosi, farmaci, sintomi, cure e patologie. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.

Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:

  • medical_conversation: per conversazioni tra un fornitore di servizi di assistenza sanitaria, ad esempio un medico o un'infermiera, e un paziente. Utilizza questo modello quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente nella trascrizione restituita.
  • medical_dictation: per le note dettate da un singolo fornitore di servizi medici, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.

Utilizza i modelli medici solo con le seguenti funzionalità di Speech-to-Text. Le funzionalità ommesse da questo elenco non possono essere utilizzate con nessuno dei due modelli medici.

Il modello di conversazione medica supporta le seguenti funzionalità:

e richiede l'attivazione delle seguenti funzionalità:

Il modello di trascrizione medica supporta le seguenti funzionalità:

e richiede l'attivazione delle seguenti funzionalità:

Invio di una richiesta di trascrizione

REST

Il seguente esempio di codice utilizza il modello medical_conversation per trascrivere un file audio in un bucket pubblico di Cloud Storage.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per l'inglese (Stati Uniti).
  • ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzi il sample audio pubblico, la codifica è LINEAR16.
  • PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON della richiesta:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura del parlato

Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questa funzionalità è sempre attiva. La punteggiatura del parlato è delimitata da parentesi nella trascrizione vocale. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura vocale:

  • Punto
  • Virgola
  • Due punti
  • maiuscole
  • Barra
  • trattino
  • Trattino
  • punto interrogativo
  • Punto e virgola
  • virgoletta
  • unquote
  • virgoletta finale
  • parentesi aperta
  • parentesi chiusa
  • parentesi chiusa

Comandi di formattazione

Il modello di dettatura medica supporta i comandi vocali per la formattazione delle note. Questa funzionalità è sempre attiva. I comandi vocali verranno delimitati da parentesi nella trascrizione vocale. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

  • punto successivo
  • numero successivo
  • paragrafo successivo
  • maiuscole
  • lettere maiuscole
  • nuova riga
  • elemento successivo
  • problema successivo
  • numero del problema successivo
  • riga successiva
  • sezione successiva
  • numero successivo
  • scratch
  • cancella
  • fine dettatura

Intestazioni vocali

Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attiva per impostazione predefinita e non può essere disattivata. Le intestazioni saranno delineate da parentesi nella trascrizione e saranno scritte in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni vocali:

  • RECLAMO PRINCIPALE
  • FARMACI ATTUALI
  • MEDICAZIONI DI DIMESSA
  • PIANO DI SCARICO
  • STORIA FAMILIARE
  • RISULTATI
  • REVISIONE DEI SISTEMI
  • ANAMNESI DELLA MALATTIA ATTUALE
  • INDICAZIONI
  • LABS
  • CRONOLOGIA DELLE INTERVISTE CHIRURGICHE PRECEDENTI
  • ESAME FISICO
  • REVISIONE DEI SISTEMI
  • RADIOLOGY