Speech-to-Text ofrece dos modelos médicos, además de otros modelos de reconocimiento de voz estándar y mejorados. Los modelos médicos se han diseñado específicamente para reconocer palabras que son habituales en entornos médicos, como diagnósticos, medicamentos, síntomas, tratamientos y enfermedades. Si quieres reconocer este tipo de datos de audio, puedes mejorar los resultados de la transcripción usando estos modelos.
Hay dos modelos médicos, cada uno adaptado a casos prácticos específicos:
medical_conversation
: para conversaciones entre un profesional sanitario (por ejemplo, un médico o una enfermera) y un paciente. Usa este modelo cuando hablen tanto el proveedor como el paciente. Las palabras que pronuncia cada interlocutor se detectan y etiquetan automáticamente en la transcripción devuelta.medical_dictation
: para notas dictadas por un solo profesional sanitario, como un médico que dicta notas sobre los resultados de los análisis de sangre de un paciente.
Utiliza los modelos médicos solo con las siguientes funciones de Speech-to-Text. Las funciones que no aparecen en esta lista no se pueden usar con ninguno de los modelos médicos.
El modelo de conversación médica admite las siguientes funciones:
y requiere que se habiliten las siguientes funciones:
El modelo de dictado médico admite las siguientes funciones:
- Transcripciones alternativas
- Marcas de tiempo de las palabras
- Comandos de formato
- Encabezados hablados
y requiere que se habiliten las siguientes funciones:
Enviar una solicitud de transcripción
REST
En el siguiente ejemplo de código se usa el modelo medical_conversation
para transcribir un archivo de audio de un segmento público de Cloud Storage.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
LANGUAGE_CODE
: el código BCP-47 del idioma que se habla en el clip de audio. Los modelos médicos solo están disponibles en inglés de EE. UU.ENCODING
: la codificación del audio que quieras transcribir. Si usas la muestra de audio pública, la codificación esLINEAR16
.PROJECT_ID
: el ID alfanumérico de tu proyecto de Google Cloud .
Método HTTP y URL:
POST https://speech.googleapis.com/v1/speech:recognize
Cuerpo JSON de la solicitud:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
Puntuación hablada
El modelo de dictado médico admite la puntuación hablada para las notas médicas. Esta función está siempre habilitada. La puntuación hablada se delimita con corchetes en la transcripción de voz. Por ejemplo, la transcripción que obtengas podría ser similar a la siguiente:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
.
Speech-to-Text admite los siguientes signos de puntuación hablados:
- punto
- coma
- dos puntos
- gorras
- barra
- raya
- guion
- signo de interrogación de cierre
- punto y coma
- comillas
- descomillas
- acabar cita
- paréntesis de apertura
- paréntesis de cierre
- paréntesis de cierre
Comandos de formato
El modelo de dictado médico admite comandos de voz para dar formato a las notas. Esta función está siempre habilitada. Los comandos de voz se delimitarán con corchetes en la transcripción de voz. Por ejemplo, la transcripción que recibas podría ser similar a la siguiente:
[next line] Patient says they are experiencing fever [next point]
.
Speech-to-Text admite los siguientes comandos de voz:
- siguiente punto
- siguiente número
- Párrafo siguiente
- gorras
- Uso de mayúsculas
- nueva línea
- Siguiente elemento
- siguiente problema
- Número del siguiente problema
- Fila siguiente
- Siguiente sección
- número siguiente
- rascar
- scratch that
- end dictation
Encabezados hablados
El modelo de dictado médico admite encabezados hablados para las notas dictadas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los encabezados se delimitarán con corchetes en la transcripción y se escribirán con mayúscula inicial. Por ejemplo, la transcripción que obtengas podría ser similar a la siguiente:
[CURRENT MEDICATIONS] Patient is currently taking no medications
.
Speech-to-Text admite los siguientes encabezados hablados:
- MOTIVO PRINCIPAL DE LA CONSULTA
- MEDICACIÓN ACTUAL
- MEDICACIÓN AL ALTA
- PLAN DE ALTA
- HISTORIAL FAMILIAR
- CONCLUSIONES
- REVISIÓN DE LOS SISTEMAS
- HISTORIAL DE LA ENFERMEDAD ACTUAL
- INDICACIONES
- LABS
- ANTECEDENTES QUIRÚRGICOS
- EXPLORACIÓN FÍSICA
- REVISIÓN DE LOS SISTEMAS
- RADIOLOGY