Medir e melhorar a acurácia

Neste guia de início rápido, saiba como medir e melhorar a acurácia do Google Cloud Speech-to-Text para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a acurácia da transcrição. Saiba como usar a interface do Speech-to-Text no console do Google Cloud e um arquivo de informações empíricas para medir a acurácia e receber insights sobre o sistema de conversão de voz em texto.

Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas de conversão de voz em texto não são exceção. A medição precisa está fortemente acoplada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a acurácia. Como resultado, uma pontuação de acurácia única para todos os clientes e casos de uso é impraticável. Para garantir o desempenho confiável dos sistemas ASR em desempenho crítico dos sistemas voltados à produção. Também é essencial entender o desempenho do Speech-to-Text no contexto mais amplo do sistema.

Para este guia de início rápido, use o método padrão do setor para comparação, a taxa de erros de palavras (WER, na sigla em inglês), muitas vezes abreviada como WER. Para mais informações sobre como a WER é calculada e interpretada, consulte Medir e melhorar a acurácia da fala. Vamos começar.

Introdução ao console do Speech-to-Text

Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto. 1. Acesse Speech no console do Google Cloud e navegue até a UI do Speech-to-Text. 2. Usando um arquivo de áudio que represente seu caso de uso e como você pretende usar o sistema ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando o Speech-to-Text.

Como calcular a acurácia da transcrição

  1. Depois de transcrever o arquivo de áudio, use a seção Transcription Accuracy. Esta seção permanece vazia até que a acurácia seja calculada para sua transcrição.
  2. Usando o botão Fazer Upload de Informações Empíricas na parte superior da seção, você pode começar a calcular a acurácia.
    Captura de tela da página de detalhes da transcrição do Speech-to-Text, mostrando a seção de acurácia da transcrição e o botão de upload de informações empíricas

Como especificar informações empíricas

  1. Para calcular a acurácia da transcrição, forneça um arquivo de informações empíricas. Este é um arquivo .txt ou .csv, normalmente um arquivo de transcrição gerado pelo usuário que contém as transcrições corretas ou esperadas para comparação.
  2. Use gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O arquivo de informações empíricas contém: How old is the Brooklyn Bridge. Se você não tiver um arquivo de informações empíricas disponível, baixe a transcrição em um formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas.
  3. Usando a opção Fazer Upload ou um arquivo do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
    Captura de tela da página de criação da transcrição do Speech-to-Text, mostrando a seleção ou o upload de um arquivo de informações empíricas.

Como confirmar as informações empíricas

  1. Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo de informações empíricas representa corretamente as transcrições, já que isso afeta diretamente as métricas de acurácia.
  2. Clique em Confirmar para continuar.
    Captura de tela da página de transcrição do Speech-to-Text, mostrando o conteúdo do arquivo de informações empíricas enviado.

Analisar os resultados da avaliação

  1. Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
  2. Depois que a avaliação for concluída, as seguintes seções serão exibidas:
    • A tabela Acurácia da Transcrição, as métricas de acurácia e um link para o arquivo de informações empíricas usado no processo.
    • O Transcription com uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento de métricas e destaques de acurácia.
  3. Analise e interprete os resultados de acurácia para entender o desempenho do reconhecedor do Speech-to-Text usado para identificar áreas de melhoria, já que os resultados variam de acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, você pode ver casos indicativos dos resultados de acurácia, que fornecem insights valiosos para a otimização do sistema Google Cloud Speech-to-Text.
    • Um exemplo de WER igual a 0%:
      Captura de tela da página de acurácia da transcrição do Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erro de palavras igual a 0%.
    • Um exemplo de WER igual a 40%:
      Captura de tela da página de acurácia da transcrição do Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erro de palavras igual a 40%.

Opcional: como atualizar as informações empíricas

Para testar uma informação empírica diferente da transcrição atual, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.

Faça um teste

Se você ainda não conhece o Google Cloud, crie uma conta para avaliar o desempenho do Speech-to-Text em cenários reais. Clientes novos também recebem US$ 300 em créditos sem custos para executar, testar e implantar cargas de trabalho.

Faça um teste do Speech-to-Text sem custos financeiros