Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Neste guia de início rápido, saiba como medir e melhorar a acurácia do Google Cloud Speech-to-Text para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a acurácia da transcrição. Saiba como usar a interface do Speech-to-Text no console do Google Cloud e um arquivo de informações empíricas para medir a acurácia e receber insights sobre o sistema de conversão de voz em texto.
Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas de conversão de voz em texto não são exceção. A medição precisa está fortemente acoplada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a acurácia. Como resultado, uma pontuação de acurácia única para todos os clientes e casos de uso é impraticável. Para garantir o desempenho confiável dos sistemas ASR em desempenho crítico dos sistemas voltados à produção. Também é essencial entender o desempenho do Speech-to-Text no contexto mais amplo do sistema.
Para executar essa tarefa, é necessário ter
permissões:
storage.buckets.get
storage.buckets.list
No nível do projeto ou do bucket:
storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update
Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto.
1. Acesse Speech no console do Google Cloud e navegue até a UI do Speech-to-Text.
2. Usando um arquivo de áudio que represente seu caso de uso e como você pretende usar o sistema ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando o Speech-to-Text.
Como calcular a acurácia da transcrição
Depois de transcrever o arquivo de áudio, use a seção Transcription Accuracy. Esta seção permanece vazia até que a acurácia seja calculada para sua transcrição.
Usando o botão Fazer Upload de Informações Empíricas na parte superior da seção, você pode começar a calcular a acurácia.
Como especificar informações empíricas
Para calcular a acurácia da transcrição, forneça um arquivo de informações empíricas. Este é um arquivo .txt ou .csv, normalmente um arquivo de transcrição gerado pelo usuário que contém as transcrições corretas ou esperadas para comparação.
Use gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O arquivo de informações empíricas contém: How old is the Brooklyn Bridge. Se você não tiver um arquivo de informações empíricas disponível, baixe a transcrição em um formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas.
Usando a opção Fazer Upload ou um arquivo do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
Como confirmar as informações empíricas
Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo de informações empíricas representa corretamente as transcrições, já que isso afeta diretamente as métricas de acurácia.
Clique em Confirmar para continuar.
Analisar os resultados da avaliação
Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
Depois que a avaliação for concluída, as seguintes seções serão exibidas:
A tabela Acurácia da Transcrição, as métricas de acurácia e um link para o arquivo de informações empíricas usado no processo.
O Transcription com uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento de métricas e destaques de acurácia.
Analise e interprete os resultados de acurácia para entender o desempenho do reconhecedor do Speech-to-Text usado para identificar áreas de melhoria, já que os resultados variam de acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, você pode ver casos indicativos dos resultados de acurácia, que fornecem insights valiosos para a otimização do sistema Google Cloud Speech-to-Text.
Um exemplo de WER igual a 0%:
Um exemplo de WER igual a 40%:
Opcional: como atualizar as informações empíricas
Para testar uma informação empírica diferente da transcrição atual, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.
Faça um teste
Se você ainda não conhece o Google Cloud, crie uma conta para avaliar o
desempenho do Speech-to-Text em
cenários reais. Clientes novos também recebem US$ 300 em créditos sem custos para executar, testar e
implantar cargas de trabalho.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-02 UTC."],[],[],null,["# Measure and improve accuracy\n\nIn this quickstart, learn how to measure and improve the accuracy of the Google Cloud Speech-to-Text for your audio data. Also explore the various models and options available from the API to enhance transcription accuracy. Explore how to use the Speech-to-Text UI in the Google Cloud console and a ground-truth file to measure accuracy and to gain insights into the Speech-to-Text system.\n\nMachine Learning (ML) systems are inherently subject to inaccuracies, and Automatic Speech Recognition (ASR) systems, also known as Speech-to-Text systems, are no exception. Accurate measurement of accuracy is strongly coupled to specific use cases and the systems being evaluated, as differences in audio recording quality and acoustic conditions can significantly impact accuracy. As a result, a singular accuracy score for all customers and use cases is impractical. To ensure reliable performance of ASR systems in critical production-facing systems performance. It is also essential to understand how Speech-to-Text performs within the broader context of your system.\n\nFor the purposes of this quickstart guide,use the industry standard method for comparison, [Word Error Rate (WER)](https://en.wikipedia.org/wiki/Word_error_rate), often abbreviated as WER. For more information on how WER is calculated and interpreted see [Measure and improve speech accuracy](/speech-to-text/docs/speech-accuracy). Let's start.\n\nGetting started with Speech-to-Text Console\n-------------------------------------------\n\n#### Permissions required for this task\n\nTo perform this task, you must have the following\n[permissions](/iam/docs/overview#permissions):\n\n\n- `storage.buckets.get`\n- `storage.buckets.list`\n\nAt the project or bucket level:\n\n- `storage.objects.create`\n- `storage.objects.get`\n- `storage.objects.list`\n- `storage.objects.update`\n\nEnsure you have signed up for a Google Cloud account and created a project.\n1. Go to Speech in Google Cloud console, and navigate to [Speech-to-Text UI](https://console.cloud.google.com/speech).\n2. Using an audio file that is acoustically representative of your use case and how you are planning to use the ASR system, follow the quickstart instructions for making your first transcription using the [Speech-to-Text](https://cloud.google.com/speech-to-text/docs/transcribe-console).\n\nCalculating Transcription Accuracy\n----------------------------------\n\n1. After you have successfully transcribed your audio file, use the `Transcription Accuracy` section. This section remains empty until accuracy is calculated for your transcription.\n2. Using the **Upload Ground Truth** button at the top of the section, you can begin calculating accuracy.\n\nSpecifying ground truth\n-----------------------\n\n1. To calculate the accuracy of the transcription, provide a ground truth file. This is a `.txt` or `.csv` file, usually a human-generated transcription file that contains the correct or expected transcriptions for comparison.\n2. Using `gs://cloud-samples-data/speech/brooklyn_bridge.wav` as an example. The ground truth file contains: `How old is the Brooklyn Bridge`. If you don't have a ground truth file available, a recommendation is to download the transcription in a text format. Edit the transcription file as needed. Upload the transcription file as the ground truth file.\n3. Using **Upload** or an existing Cloud Storage file, specify the ground truth file, and click **Save** .\n\nConfirming ground truth\n-----------------------\n\n1. After clicking **Save**, a prompt displays to confirm that the specified ground truth file is correct. Verify that the ground truth file accurately represents the correct transcriptions, as it directly affects the accuracy metrics.\n2. Click **Confirm** to proceed.\n\nReview evaluation results\n-------------------------\n\n1. Depending on the size of the input data, the evaluation process might take some time, and the results are displayed upon completion.\n2. Once the evaluation is complete, the following sections are displayed:\n - The **Transcription Accuracy** table, the accuracy metrics, and a link to the ground truth file that were used in the process.\n - The `Transcription` with a toggle for comparing to the ground truth file along with a breakdown of accuracy metrics and highlights.\n3. Review and interpret the accuracy results to understand the performance of the Speech-to-Text recognizer that are used to identify areas for improvement, as the results vary depending on the inputs and transcription used. In the following examples, you can see indicative cases of the accuracy results, which provide valuable insights for optimization of the Google Cloud Speech-to-Text system.\n - An example of 0% WER:\n - An example of 40% WER:\n\nOptional: updating ground truth\n-------------------------------\n\nYou can test a different ground truth against the existing transcription, by reattaching a different file and then repeating steps three and four with an updated ground truth file.\n\nTry it for yourself\n-------------------\n\n\nIf you're new to Google Cloud, create an account to evaluate how\nSpeech-to-Text performs in real-world\nscenarios. New customers also get $300 in free credits to run, test, and\ndeploy workloads.\n[Try Speech-to-Text free](https://console.cloud.google.com/freetrial)"]]