A API Speech-to-Text oferece dois modelos médicos, além dos outros modelos de reconhecimento de voz padrão e melhorado. Os modelos médicos são especificamente adaptados para o reconhecimento de palavras comuns em contextos médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Se quiser reconhecer este tipo de dados de áudio, pode melhorar os resultados da transcrição através destes modelos.
Existem dois modelos médicos, cada um adaptado a exemplos de utilização específicos:
medical_conversation
: para conversas entre um prestador de cuidados médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use este modelo quando um prestador e um paciente estiverem a falar. As palavras pronunciadas por cada interlocutor são detetadas e etiquetadas automaticamente na transcrição devolvida.medical_dictation
: para notas ditadas por um único profissional de saúde, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.
Use modelos médicos apenas com as seguintes funcionalidades de conversão de voz em texto. Não é possível usar as funcionalidades omitidas desta lista com nenhum dos modelos médicos.
O modelo de conversa médica suporta as seguintes funcionalidades:
e requer que as seguintes funcionalidades estejam ativadas:
O modelo de ditado médico suporta as seguintes funcionalidades:
e requer que as seguintes funcionalidades estejam ativadas:
Envie um pedido de transcrição
REST
O seguinte exemplo de código usa o modelo medical_conversation
para transcrever um ficheiro de áudio num contentor do Cloud Storage público.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
LANGUAGE_CODE
: o código BCP-47 do idioma falado no clipe de áudio. Os modelos médicos só estão disponíveis em inglês dos EUA.ENCODING
: a codificação do áudio que quer transcrever. Se estiver a usar o exemplo de áudio público, a codificação éLINEAR16
.PROJECT_ID
: o ID alfanumérico do seu projeto Google Cloud .
Método HTTP e URL:
POST https://speech.googleapis.com/v1/speech:recognize
Corpo JSON do pedido:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
Para enviar o seu pedido, expanda uma destas opções:
Deve receber uma resposta JSON semelhante à seguinte:
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
Pontuação falada
O modelo de ditado médico suporta pontuação falada para notas médicas. Esta funcionalidade está sempre ativada. A pontuação falada é delimitada por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
.
A conversão de voz em texto suporta a seguinte pontuação falada:
- ponto final
- vírgula
- dois pontos
- tampas
- barra
- travessão
- hífen
- ponto de interrogação
- ponto e vírgula
- aspas
- remover as aspas
- aspas de fim
- parêntese de abertura
- parêntese de fecho
- parêntese de fecho
Comandos de formatação
O modelo de ditado médico suporta comandos falados para formatar notas. Esta funcionalidade está sempre ativada. Os comandos falados são delimitados por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
[next line] Patient says they are experiencing fever [next point]
.
A conversão de voz em texto suporta os seguintes comandos falados:
- ponto seguinte
- número seguinte
- parágrafo seguinte
- tampas
- uso de maiúsculas
- nova linha
- item seguinte
- problema seguinte
- next problem number
- linha seguinte
- secção seguinte
- number next
- arranhão
- scratch that
- terminar ditado
Títulos falados
O modelo de ditado médico suporta títulos falados para notas ditadas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os títulos são delimitados por parênteses retos na transcrição e são escritos em maiúsculas. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:
[CURRENT MEDICATIONS] Patient is currently taking no medications
.
A conversão de voz em texto suporta os seguintes títulos falados:
- CHIEF COMPLAINT
- MEDICAMENTOS ATUAIS
- MEDICAMENTOS DE ALTA
- PLANO DE ALTA
- HISTÓRICO FAMILIAR
- RESULTADOS
- REVISÃO DE SISTEMAS
- HISTÓRIA DA DOENÇA ATUAL
- INDICAÇÕES
- LABS
- HISTORIAL CIRÚRGICO ANTERIOR
- EXAME FÍSICO
- REVISÃO DE SISTEMAS
- RADIOLOGY