Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Use a funcionalidade de comparativo de mercado do console da Cloud Speech-to-Text para medir a acurácia de qualquer um dos modelos de transcrição usados na API Speech-to-Text V2.
O console da Cloud Speech-to-Text oferece comparativos de mercado visuais para modelos pré-treinados e personalizados da Speech-to-Text. É possível analisar a qualidade do reconhecimento comparando as métricas de avaliação da taxa de erros de palavras (WER) entre vários modelos de transcrição para decidir qual deles se adequa melhor ao aplicativo.
Antes de começar
Verifique se você se inscreveu em uma conta do Google Cloud , criou um projeto, treinou um modelo de fala personalizado e o implantou usando um endpoint.
Criar conjunto de dados de informações empíricas
Para criar um conjunto de dados personalizado de comparativo de mercado, reúna amostras de áudio que reflitam com acurácia o tipo de tráfego que o modelo de transcrição encontrará em um ambiente de produção. O ideal é que a duração agregada desses arquivos de áudio seja de no mínimo 30 minutos e no máximo 10 horas. Para montar o conjunto de dados, será necessário:
Criar um diretório no bucket do Cloud Storage de sua preferência para armazenar os arquivos de áudio e texto do conjunto de dados.
Criar transcrições com acurácia razoável para cada arquivo de áudio no conjunto de dados. Para cada arquivo de áudio (como example_audio_1.wav), é necessário criar um arquivo de texto de informações empíricas correspondente (example_audio_1.txt). O serviço usa esses pareamentos de áudio e texto em um bucket do Cloud Storage para montar o conjunto de dados.
Fazer um comparativo de mercado do modelo
Usando o modelo personalizado da Speech-to-Text e seu conjunto de dados de comparativo de mercado para avaliar a acurácia do modelo, siga o guia Medir e melhorar a acurácia.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[],[],null,["# Evaluate models\n\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nUse the benchmarking functionality of the Cloud Speech-to-Text Console to measure the accuracy of any of the [transcription models](/speech-to-text/v2/docs/transcription-model) used in the Speech-to-Text V2 API.\n\nCloud Speech-to-Text Console provides visual benchmarking for pre-trained and Custom Speech-to-Text models. You can inspect the recognition quality by comparing Word-Error-Rate (WER) evaluation metrics across multiple transcription models to help you decide which model best fits your application.\n\nBefore you begin\n----------------\n\nEnsure you have signed up for a Google Cloud account, created a project, trained a custom speech model, and deployed using an endpoint.\n\nCreate a ground-truth dataset\n-----------------------------\n\nTo create a custom benchmarking dataset, gather audio samples that accurately reflect the type of traffic the transcription model will encounter in a production environment. The aggregate duration of these audio files should ideally span a minimum of 30 minutes and not exceed 10 hours. To assemble the dataset, you will need to:\n\n1. Create a directory in a Cloud Storage bucket of your choice to store the audio and text files for the dataset.\n2. For every audio-file in the dataset, create reasonably accurate transcriptions. For each audio file (such as `example_audio_1.wav`), a corresponding ground-truth text file (`example_audio_1.txt`) must be created. This service uses these audio-text pairings in a Cloud Storage bucket to assemble the dataset.\n\nBenchmark the model\n-------------------\n\nUsing the Custom Speech-to-Text model and your benchmarking dataset to assess the accuracy of your model, follow the [Measure and improve accuracy guide](/speech-to-text/docs/measure-accuracy)."]]