Medir e melhorar a acurácia da fala

Visão geral

O Reconhecimento automático de fala (ASR, na sigla em inglês), também conhecido como transcrição automática ou conversão de voz em texto (STT, na sigla em inglês), usa o machine learning para transformar um áudio que contém uma fala em texto. O ASR tem muitas aplicações, como legendas, assistentes virtuais, unidades de resposta audível (URAs), ditado e muito mais. No entanto, os sistemas de machine learning raramente são 100% precisos, e o ASR não é exceção. Se você planeja usar o ASR para sistemas críticos, é muito importante medir a acurácia ou qualidade geral para entender o desempenho dessa integração no sistema mais amplo.

Depois de medir a acurácia, é possível ajustar os sistemas para fornecer um nível de acurácia ainda maior para sua situação específica. Na API Cloud Speech-to-Text do Google, o ajuste de acurácia pode ser feito escolhendo o modelo de reconhecimento mais apropriado e usando nossa API Speech Adaptation. Oferecemos uma ampla variedade de modelos adaptados a diferentes casos de uso, como áudio de longa duração, conversas médicas ou por telefone.

Como definir a acurácia da fala

A acurácia da fala pode ser medida de várias maneiras. Pode ser útil usar várias métricas, dependendo das suas necessidades. No entanto, o método padrão do setor para comparação é a Taxa de erros de palavras (WER, na sigla em inglês), geralmente abreviada como WER. A WER mede a porcentagem de transcrições incorretas de palavras em todo o conjunto. Uma WER menor significa que o sistema está mais preciso.

Você também pode ver o termo informações empíricas, usado no contexto de acurácia do ASR. Informações empíricas são transcrições 100% precisas, geralmente fornecidas por humanos, que você usa para comparar e medir a acurácia.

Taxa de erro de palavras (WER)

A WER é a combinação de três tipos de erros de transcrição que podem ocorrer:

  • Erro de inserção (I): palavras presentes na transcrição da hipótese que não estão presentes nas informações empíricas.
  • Erros de substituição (S): palavras que estão presentes na hipótese e nas informações empíricas, mas não foram transcritas corretamente.
  • Erros de exclusão (D): palavras que estão faltando na hipótese, mas presentes nas informações empíricas.

\[WER = {S+R+Q \over N}\]

Para encontrar a WER, adicione o número total de cada um desses erros e divida pelo número total de palavras (N) na transcrição de informações empíricas. A WER pode ser maior que 100% em situações com acurácia muito baixa, por exemplo, quando uma grande quantidade de texto novo é inserida. Observação: a substituição é basicamente a exclusão seguida pela inserção, e algumas substituições são menos graves que outras. Por exemplo, pode haver uma diferença na substituição de uma única letra por uma palavra.

Relação da WER com uma pontuação de confiança

A métrica da WER é independente de uma pontuação de confiança e geralmente não está correlacionada. Uma pontuação de confiança se baseia na probabilidade, enquanto a WER se baseia na identificação correta da palavra. Se a palavra não for identificada corretamente, isso significa que até mesmo erros gramaticais menores podem gerar uma WER alta. Uma palavra identificada corretamente resulta em uma WER baixa, o que ainda pode resultar em uma baixa probabilidade, o que gera uma confiança baixa caso a palavra não seja tão frequente ou o áudio tenha muito ruído.

Da mesma forma, uma palavra usada com frequência pode ter uma probabilidade alta de ser transcrita pelo ASR corretamente, o que aumenta a pontuação de confiança. Por exemplo, quando uma diferença é identificada entre "I" e "eye", uma alta confiança pode ocorrer, já que "I" é uma palavra mais conhecida, mas a métrica da WER é reduzida por ela.

Em resumo, as métricas de confiança e a WER são independentes e não devem se correlacionar.

Normalização

Ao calcular a métrica da WER, a transcrição automática é comparada a uma transcrição de informações empíricas fornecida por humanos. O texto das duas transcrições é normalizado antes da comparação. A pontuação é removida e as letras maiúsculas são ignoradas ao comparar a transcrição automática com a das informações empíricas fornecidas por humanos.

Convenções de informações empíricas

É importante reconhecer que não há um formato único de transcrição para qualquer áudio. Há muitos aspectos a serem considerados. Por exemplo, o áudio pode ter outras vocalizações não verbais, como "ãh", "é", "hum". Alguns modelos do Cloud STT, como "medical_conversation", incluem essas vocalizações, enquanto outros não. Portanto, é importante que as convenções de informações empíricas correspondam às convenções do modelo que está sendo avaliado. As diretrizes de alto nível a seguir são usadas para preparar uma transcrição de texto de informações empíricas para um determinado áudio.

  • Além das letras padrão, é possível usar os dígitos de 0 a 9.
  • Não use símbolos como "@", "#", "$" e ".". Use palavras como "arroba", "hashtag", "dólar" e "ponto".
  • Use "%", mas apenas quando precedido por um número. Caso contrário, use a palavra "porcentagem".
  • Use "\$" somente se for seguido por um número, como "O leite custa \$ 3,99".

  • Use palavras para números inferiores a 10.

    • Por exemplo, "Eu tenho quatro gatos e 12 chapéus".
  • Use números para medidas, moeda e grandes fatores como milhões, bilhões ou trilhões. Por exemplo, "7,5 milhões" em vez de "sete e meio milhões".

  • Não use abreviações nos seguintes casos:

    O que fazer O que não fazer
    Warriors contra Lakers Warriors vs Lakers
    Moro na Rua Principal, 123 Moro na R. Principal, 123

Medir a acurácia da fala

Siga estas etapas para determinar a acurácia usando o áudio:

Coletar arquivos de áudio de teste

Coletar uma amostra representativa de arquivos de áudio para medir a qualidade deles. Esta amostra deve ser aleatória e estar o mais próximo possível do ambiente de destino. Por exemplo, se você quiser transcrever conversas de um call center para ajudar no controle de qualidade, selecione aleatoriamente algumas chamadas reais gravadas no mesmo equipamento pelo qual o áudio da produção é recebido. Se o áudio for gravado no microfone do smartphone ou computador e não representar seu caso de uso, não use o áudio gravado.

Grave pelo menos 30 minutos de áudio para receber uma métrica de acurácia estatisticamente significativa. Recomendamos usar entre 30 minutos e 3 horas de áudio. Neste laboratório, o áudio é fornecido para você.

Receber transcrições de informações empíricas

Receba transcrições precisas do áudio. Isso geralmente envolve uma transcrição humana simples ou dupla do áudio de destino. Seu objetivo é ter uma transcrição 100% precisa para medir os resultados automatizados.

É importante receber transcrições de informações empíricas de acordo com as convenções de transcrição do seu sistema de ASR desejado. Por exemplo, verifique se a pontuação, os números e as letras maiúsculas são consistentes.

Receba uma transcrição de máquina e corrija todos os problemas observado no texto.

Receber a transcrição da máquina

Envie o áudio para a API Google Speech-to-Text e receba a transcrição da sua hipótese usando a UI do Speech-to-Text.

Parear informações empíricas com o áudio

Na ferramenta da UI, clique em "Anexar Informações Empíricas" para associar um determinado arquivo de áudio às informações empíricas fornecidas. Depois de concluir o anexo, você vai ver a métrica da WER e a visualização de todas as diferenças.