Meça e melhore a precisão

Neste guia de início rápido, saiba como medir e melhorar a precisão do Google Cloud Speech-to-Text para os seus dados de áudio. Explore também os vários modelos e opções disponíveis na API para melhorar a precisão da transcrição. Explore como usar a IU de conversão de voz em texto na Google Cloud consola e um ficheiro de dados reais para medir a precisão e obter estatísticas sobre o sistema de conversão de voz em texto.

Os sistemas de aprendizagem automática (AA) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento de voz automático (ASR), também conhecidos como sistemas de voz para texto, não são exceção. A medição precisa da precisão está fortemente associada a exemplos de utilização específicos e aos sistemas que estão a ser avaliados, uma vez que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Consequentemente, uma pontuação de precisão singular para todos os clientes e exemplos de utilização é impraticável. Para garantir um desempenho fiável dos sistemas RFA em sistemas críticos de produção. Também é essencial compreender o desempenho da funcionalidade de conversão de voz em texto no contexto mais amplo do seu sistema.

Para efeitos deste guia de início rápido,use o método padrão da indústria para comparação, a taxa de erro de palavras (WER), frequentemente abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte o artigo Meça e melhore a precisão da voz. Vamos começar.

Introdução à Speech-to-Text Console

Certifique-se de que se inscreveu numa Google Cloud conta e criou um projeto. 1. Aceda a Voz na Google Cloud consola e navegue para IU de conversão de voz em texto. 2. Usando um ficheiro de áudio que seja acusticamente representativo do seu exemplo de utilização e de como planeia usar o sistema ASR, siga as instruções de início rápido para fazer a sua primeira transcrição usando o Speech-to-Text.

Calcular a precisão da transcrição

  1. Depois de transcrever com êxito o ficheiro de áudio, use a secção Transcription Accuracy. Esta secção permanece vazia até que a precisão seja calculada para a sua transcrição.
  2. Usando o botão Carregar dados de referência na parte superior da secção, pode começar a calcular a precisão.
    Captura de ecrã da página de detalhes da transcrição de voz em texto, que mostra a secção de precisão da transcrição e o botão de carregamento de dados de referência

Especificar a exatidão

  1. Para calcular a precisão da transcrição, forneça um ficheiro de dados reais. Este é um ficheiro .txt ou .csv, normalmente um ficheiro de transcrição gerado por humanos que contém as transcrições corretas ou esperadas para comparação.
  2. Usando gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O ficheiro de dados reais contém: How old is the Brooklyn Bridge. Se não tiver um ficheiro de dados reais disponível, recomendamos que transfira a transcrição num formato de texto. Edite o ficheiro de transcrição conforme necessário. Carregue o ficheiro de transcrição como ficheiro de dados reais.
  3. Usando a opção Carregar ou um ficheiro do Cloud Storage existente, especifique o ficheiro de dados reais e clique em Guardar.
    Captura de ecrã da página de criação de transcrições de voz para texto, que mostra a seleção ou o carregamento de um ficheiro de dados reais.

Confirmar factos observáveis

  1. Depois de clicar em Guardar, é apresentado um comando para confirmar se o ficheiro de dados reais especificado está correto. Verifique se o ficheiro de dados reais representa com precisão as transcrições corretas, uma vez que afeta diretamente as métricas de precisão.
  2. Clique em Confirmar para continuar.
    Captura de ecrã da página de transcrição de conversão de voz em texto, que mostra o conteúdo do ficheiro de dados reais carregado.

Reveja os resultados da avaliação

  1. Consoante o tamanho dos dados de entrada, o processo de avaliação pode demorar algum tempo, e os resultados são apresentados após a conclusão.
  2. Assim que a avaliação estiver concluída, são apresentadas as seguintes secções:
    • A tabela Precisão da transcrição, as métricas de precisão e um link para o ficheiro de dados reais que foram usados no processo.
    • O Transcription com um botão para comparar com o ficheiro de dados reais, juntamente com uma discriminação das métricas de precisão e realces.
  3. Reveja e interprete os resultados de precisão para compreender o desempenho do reconhecedor de voz para texto usado para identificar áreas de melhoria, uma vez que os resultados variam consoante as entradas e a transcrição usadas. Nos exemplos seguintes, pode ver casos indicativos dos resultados de precisão, que fornecem estatísticas valiosas para a otimização do Google Cloud sistema de conversão de voz em texto.
    • Um exemplo de 0% de WER:
      Captura de ecrã da página de precisão da transcrição de voz em texto, que mostra os resultados da avaliação calculados para a transcrição fornecida com uma taxa de erro de palavras de 0%.
    • Um exemplo de WER de 40%:
      Captura de ecrã da página de precisão da transcrição de voz em texto, que mostra os resultados da avaliação calculados para a transcrição fornecida com uma taxa de erro de palavras de 40%.

Opcional: atualizar os factos observáveis

Pode testar uma verdade fundamental diferente em relação à transcrição existente, anexando um ficheiro diferente e, em seguida, repetindo os passos três e quatro com um ficheiro de verdade fundamental atualizado.

Experimente

Se está a usar o Google Cloud pela primeira vez, crie uma conta para avaliar o desempenho do Speech-to-Text em cenários reais. Os novos clientes também recebem 300 USD em créditos gratuitos para executar, testar e implementar cargas de trabalho.

Experimente a conversão de voz em texto gratuitamente