Reconheça a voz através de modelos médicos

A API Speech-to-Text oferece dois modelos médicos, além dos outros modelos de reconhecimento de voz padrão e melhorado. Os modelos médicos são especificamente adaptados para o reconhecimento de palavras comuns em contextos médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Se quiser reconhecer este tipo de dados de áudio, pode melhorar os resultados da transcrição através destes modelos.

Existem dois modelos médicos, cada um adaptado a exemplos de utilização específicos:

  • medical_conversation: para conversas entre um prestador de cuidados médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use este modelo quando um prestador e um paciente estiverem a falar. As palavras pronunciadas por cada interlocutor são detetadas e etiquetadas automaticamente na transcrição devolvida.
  • medical_dictation: para notas ditadas por um único profissional de saúde, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.

Use modelos médicos apenas com as seguintes funcionalidades de conversão de voz em texto. Não é possível usar as funcionalidades omitidas desta lista com nenhum dos modelos médicos.

O modelo de conversa médica suporta as seguintes funcionalidades:

e requer que as seguintes funcionalidades estejam ativadas:

O modelo de ditado médico suporta as seguintes funcionalidades:

e requer que as seguintes funcionalidades estejam ativadas:

Envie um pedido de transcrição

REST

O seguinte exemplo de código usa o modelo medical_conversation para transcrever um ficheiro de áudio num contentor do Cloud Storage público.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio. Os modelos médicos só estão disponíveis em inglês dos EUA.
  • ENCODING: a codificação do áudio que quer transcrever. Se estiver a usar o exemplo de áudio público, a codificação é LINEAR16.
  • PROJECT_ID: o ID alfanumérico do seu projeto Google Cloud .

Método HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON do pedido:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Para enviar o seu pedido, expanda uma destas opções:

Deve receber uma resposta JSON semelhante à seguinte:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Pontuação falada

O modelo de ditado médico suporta pontuação falada para notas médicas. Esta funcionalidade está sempre ativada. A pontuação falada é delimitada por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

A conversão de voz em texto suporta a seguinte pontuação falada:

  • ponto final
  • vírgula
  • dois pontos
  • tampas
  • barra
  • travessão
  • hífen
  • ponto de interrogação
  • ponto e vírgula
  • aspas
  • remover as aspas
  • aspas de fim
  • parêntese de abertura
  • parêntese de fecho
  • parêntese de fecho

Comandos de formatação

O modelo de ditado médico suporta comandos falados para formatar notas. Esta funcionalidade está sempre ativada. Os comandos falados são delimitados por parênteses na transcrição de voz. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

[next line] Patient says they are experiencing fever [next point].

A conversão de voz em texto suporta os seguintes comandos falados:

  • ponto seguinte
  • número seguinte
  • parágrafo seguinte
  • tampas
  • uso de maiúsculas
  • nova linha
  • item seguinte
  • problema seguinte
  • next problem number
  • linha seguinte
  • secção seguinte
  • number next
  • arranhão
  • scratch that
  • terminar ditado

Títulos falados

O modelo de ditado médico suporta títulos falados para notas ditadas. Esta funcionalidade está ativada por predefinição e não pode ser desativada. Os títulos são delimitados por parênteses retos na transcrição e são escritos em maiúsculas. Por exemplo, a transcrição devolvida pode ser semelhante à seguinte:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

A conversão de voz em texto suporta os seguintes títulos falados:

  • CHIEF COMPLAINT
  • MEDICAMENTOS ATUAIS
  • MEDICAMENTOS DE ALTA
  • PLANO DE ALTA
  • HISTÓRICO FAMILIAR
  • RESULTADOS
  • REVISÃO DE SISTEMAS
  • HISTÓRIA DA DOENÇA ATUAL
  • INDICAÇÕES
  • LABS
  • HISTORIAL CIRÚRGICO ANTERIOR
  • EXAME FÍSICO
  • REVISÃO DE SISTEMAS
  • RADIOLOGY