Neste guia de início rápido, saiba como medir e melhorar a precisão do Google Cloud Speech-to-Text para os seus dados de áudio. Explore também os vários modelos e opções disponíveis na API para melhorar a precisão da transcrição. Explore como usar a IU de conversão de voz em texto na Google Cloud consola e um ficheiro de dados reais para medir a precisão e obter estatísticas sobre o sistema de conversão de voz em texto.
Os sistemas de aprendizagem automática (AA) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento de voz automático (ASR), também conhecidos como sistemas de voz para texto, não são exceção. A medição precisa da precisão está fortemente associada a exemplos de utilização específicos e aos sistemas que estão a ser avaliados, uma vez que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Consequentemente, uma pontuação de precisão singular para todos os clientes e exemplos de utilização é impraticável. Para garantir um desempenho fiável dos sistemas RFA em sistemas críticos de produção. Também é essencial compreender o desempenho da funcionalidade de conversão de voz em texto no contexto mais amplo do seu sistema.
Para efeitos deste guia de início rápido,use o método padrão da indústria para comparação, a taxa de erro de palavras (WER), frequentemente abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte o artigo Meça e melhore a precisão da voz. Vamos começar.
Introdução à Speech-to-Text Console
Certifique-se de que se inscreveu numa Google Cloud conta e criou um projeto. 1. Aceda a Voz na Google Cloud consola e navegue para IU de conversão de voz em texto. 2. Usando um ficheiro de áudio que seja acusticamente representativo do seu exemplo de utilização e de como planeia usar o sistema ASR, siga as instruções de início rápido para fazer a sua primeira transcrição usando o Speech-to-Text.
Calcular a precisão da transcrição
- Depois de transcrever com êxito o ficheiro de áudio, use a secção
Transcription Accuracy
. Esta secção permanece vazia até que a precisão seja calculada para a sua transcrição. - Usando o botão Carregar dados de referência na parte superior da secção, pode começar a calcular a precisão.
Especificar a exatidão
- Para calcular a precisão da transcrição, forneça um ficheiro de dados reais. Este é um ficheiro
.txt
ou.csv
, normalmente um ficheiro de transcrição gerado por humanos que contém as transcrições corretas ou esperadas para comparação. - Usando
gs://cloud-samples-data/speech/brooklyn_bridge.wav
como exemplo. O ficheiro de dados reais contém:How old is the Brooklyn Bridge
. Se não tiver um ficheiro de dados reais disponível, recomendamos que transfira a transcrição num formato de texto. Edite o ficheiro de transcrição conforme necessário. Carregue o ficheiro de transcrição como ficheiro de dados reais. - Usando a opção Carregar ou um ficheiro do Cloud Storage existente, especifique o ficheiro de dados reais e clique em Guardar.
Confirmar factos observáveis
- Depois de clicar em Guardar, é apresentado um comando para confirmar se o ficheiro de dados reais especificado está correto. Verifique se o ficheiro de dados reais representa com precisão as transcrições corretas, uma vez que afeta diretamente as métricas de precisão.
- Clique em Confirmar para continuar.
Reveja os resultados da avaliação
- Consoante o tamanho dos dados de entrada, o processo de avaliação pode demorar algum tempo, e os resultados são apresentados após a conclusão.
- Assim que a avaliação estiver concluída, são apresentadas as seguintes secções:
- A tabela Precisão da transcrição, as métricas de precisão e um link para o ficheiro de dados reais que foram usados no processo.
- O
Transcription
com um botão para comparar com o ficheiro de dados reais, juntamente com uma discriminação das métricas de precisão e realces.
- Reveja e interprete os resultados de precisão para compreender o desempenho do reconhecedor de voz para texto usado para identificar áreas de melhoria, uma vez que os resultados variam consoante as entradas e a transcrição usadas. Nos exemplos seguintes, pode ver casos indicativos dos resultados de precisão, que fornecem estatísticas valiosas para a otimização do Google Cloud sistema de conversão de voz em texto.
- Um exemplo de 0% de WER:
- Um exemplo de WER de 40%:
- Um exemplo de 0% de WER:
Opcional: atualizar os factos observáveis
Pode testar uma verdade fundamental diferente em relação à transcrição existente, anexando um ficheiro diferente e, em seguida, repetindo os passos três e quatro com um ficheiro de verdade fundamental atualizado.
Experimente
Se está a usar o Google Cloud pela primeira vez, crie uma conta para avaliar o desempenho do Speech-to-Text em cenários reais. Os novos clientes também recebem 300 USD em créditos gratuitos para executar, testar e implementar cargas de trabalho.
Experimente a conversão de voz em texto gratuitamente