Esta página foi traduzida pela API Cloud Translation.

Meça e melhore a precisão

Neste guia de início rápido, saiba como medir e melhorar a precisão do Google Cloud Speech-to-Text para os seus dados de áudio. Explore também os vários modelos e opções disponíveis na API para melhorar a precisão da transcrição. Explore como usar a IU de conversão de voz em texto na Google Cloud consola e um ficheiro de dados reais para medir a precisão e obter estatísticas sobre o sistema de conversão de voz em texto.

Os sistemas de aprendizagem automática (AA) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento de voz automático (ASR), também conhecidos como sistemas de voz para texto, não são exceção. A medição precisa da precisão está fortemente associada a exemplos de utilização específicos e aos sistemas que estão a ser avaliados, uma vez que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Consequentemente, uma pontuação de precisão singular para todos os clientes e exemplos de utilização é impraticável. Para garantir um desempenho fiável dos sistemas RFA em sistemas críticos de produção. Também é essencial compreender o desempenho da funcionalidade de conversão de voz em texto no contexto mais amplo do seu sistema.

Para efeitos deste guia de início rápido,use o método padrão da indústria para comparação, a taxa de erro de palavras (WER), frequentemente abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte o artigo Meça e melhore a precisão da voz. Vamos começar.

Introdução à Speech-to-Text Console

Autorizações necessárias para esta tarefa

Para realizar esta tarefa, tem de ter as seguintes autorizações:

storage.buckets.get
storage.buckets.list

Ao nível do projeto ou do contentor:

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

Certifique-se de que se inscreveu numa Google Cloud conta e criou um projeto. 1. Aceda a Voz na Google Cloud consola e navegue para IU de conversão de voz em texto. 2. Usando um ficheiro de áudio que seja acusticamente representativo do seu exemplo de utilização e de como planeia usar o sistema ASR, siga as instruções de início rápido para fazer a sua primeira transcrição usando o Speech-to-Text.

Calcular a precisão da transcrição

Depois de transcrever com êxito o ficheiro de áudio, use a secção Transcription Accuracy. Esta secção permanece vazia até que a precisão seja calculada para a sua transcrição.
Usando o botão Carregar dados de referência na parte superior da secção, pode começar a calcular a precisão.

Especificar a exatidão

Para calcular a precisão da transcrição, forneça um ficheiro de dados reais. Este é um ficheiro .txt ou .csv, normalmente um ficheiro de transcrição gerado por humanos que contém as transcrições corretas ou esperadas para comparação.
Usando gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O ficheiro de dados reais contém: How old is the Brooklyn Bridge. Se não tiver um ficheiro de dados reais disponível, recomendamos que transfira a transcrição num formato de texto. Edite o ficheiro de transcrição conforme necessário. Carregue o ficheiro de transcrição como ficheiro de dados reais.
Usando a opção Carregar ou um ficheiro do Cloud Storage existente, especifique o ficheiro de dados reais e clique em Guardar.

Confirmar factos observáveis

Depois de clicar em Guardar, é apresentado um comando para confirmar se o ficheiro de dados reais especificado está correto. Verifique se o ficheiro de dados reais representa com precisão as transcrições corretas, uma vez que afeta diretamente as métricas de precisão.
Clique em Confirmar para continuar.

Reveja os resultados da avaliação

Consoante o tamanho dos dados de entrada, o processo de avaliação pode demorar algum tempo, e os resultados são apresentados após a conclusão.
Assim que a avaliação estiver concluída, são apresentadas as seguintes secções:
- A tabela Precisão da transcrição, as métricas de precisão e um link para o ficheiro de dados reais que foram usados no processo.
- O Transcription com um botão para comparar com o ficheiro de dados reais, juntamente com uma discriminação das métricas de precisão e realces.
Reveja e interprete os resultados de precisão para compreender o desempenho do reconhecedor de voz para texto usado para identificar áreas de melhoria, uma vez que os resultados variam consoante as entradas e a transcrição usadas. Nos exemplos seguintes, pode ver casos indicativos dos resultados de precisão, que fornecem estatísticas valiosas para a otimização do Google Cloud sistema de conversão de voz em texto.
- Um exemplo de 0% de WER:
- Um exemplo de WER de 40%:

Opcional: atualizar os factos observáveis

Pode testar uma verdade fundamental diferente em relação à transcrição existente, anexando um ficheiro diferente e, em seguida, repetindo os passos três e quatro com um ficheiro de verdade fundamental atualizado.

Experimente

Se está a usar o Google Cloud pela primeira vez, crie uma conta para avaliar o desempenho do Speech-to-Text em cenários reais. Os novos clientes também recebem 300 USD em créditos gratuitos para executar, testar e implementar cargas de trabalho.

Experimente a conversão de voz em texto gratuitamente

Meça e melhore a precisão Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.