Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Verwenden Sie die Benchmarking-Funktion der Cloud Speech-to-Text-Konsole, um die Accuracy eines in der Speech-to-Text V2 API verwendeten Transkriptionsmodells zu messen.
Die Cloud Speech-to-Text-Konsole bietet visuelles Benchmarking für vortrainierte und benutzerdefinierte Speech-to-Text-Modelle. Sie können die Erkennungsqualität prüfen, indem Sie die WER-Bewertungsmesswerte (Word Error Rate, Wortfehlerrate) mehrerer Transkriptionsmodelle vergleichen, um zu entscheiden, welches Modell am besten für Ihre Anwendung geeignet ist.
Hinweise
Sie müssen sich für ein Google Cloud -Konto registriert, ein Projekt erstellt, ein benutzerdefiniertes Sprachmodell trainiert und ein Endpunkt bereitgestellt haben.
Grundwahrheiten-Dataset erstellen
Erfassen Sie Audiobeispiele, die genau den Traffic widerspiegeln, mit dem das Transkriptionsmodell in einer Produktionsumgebung rechnen wird, um ein benutzerdefiniertes Benchmarking-Dataset zu erstellen. Die Gesamtdauer dieser Audiodateien sollte idealerweise mindestens 30 Minuten und maximal 10 Stunden betragen. So stellen Sie das Dataset zusammen:
Erstellen Sie ein Verzeichnis in einem Cloud Storage-Bucket Ihrer Wahl, um die Audio- und Textdateien für das Dataset zu speichern.
Erstellen Sie für jede Audiodatei im Datensatz einigermaßen genaue Transkriptionen. Für jede Audiodatei (z. B. example_audio_1.wav) muss eine entsprechende Grundwahrheiten-Textdatei (example_audio_1.txt) erstellt werden. Dieser Dienst verwendet solche Audio-Text-Kopplungen in einem Cloud Storage-Bucket, um das Dataset zusammenzustellen.
Modell vergleichen
Um das benutzerdefinierte Speech-to-Text-Modell und Ihr Benchmarking-Dataset zur Bewertung der Accuracy Ihres Modells zu nutzen, folgen Sie dem Leitfaden zum Messen und Verbessern der Accuracy.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-18 (UTC)."],[],[],null,["# Evaluate models\n\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nUse the benchmarking functionality of the Cloud Speech-to-Text Console to measure the accuracy of any of the [transcription models](/speech-to-text/v2/docs/transcription-model) used in the Speech-to-Text V2 API.\n\nCloud Speech-to-Text Console provides visual benchmarking for pre-trained and Custom Speech-to-Text models. You can inspect the recognition quality by comparing Word-Error-Rate (WER) evaluation metrics across multiple transcription models to help you decide which model best fits your application.\n\nBefore you begin\n----------------\n\nEnsure you have signed up for a Google Cloud account, created a project, trained a custom speech model, and deployed using an endpoint.\n\nCreate a ground-truth dataset\n-----------------------------\n\nTo create a custom benchmarking dataset, gather audio samples that accurately reflect the type of traffic the transcription model will encounter in a production environment. The aggregate duration of these audio files should ideally span a minimum of 30 minutes and not exceed 10 hours. To assemble the dataset, you will need to:\n\n1. Create a directory in a Cloud Storage bucket of your choice to store the audio and text files for the dataset.\n2. For every audio-file in the dataset, create reasonably accurate transcriptions. For each audio file (such as `example_audio_1.wav`), a corresponding ground-truth text file (`example_audio_1.txt`) must be created. This service uses these audio-text pairings in a Cloud Storage bucket to assemble the dataset.\n\nBenchmark the model\n-------------------\n\nUsing the Custom Speech-to-Text model and your benchmarking dataset to assess the accuracy of your model, follow the [Measure and improve accuracy guide](/speech-to-text/docs/measure-accuracy)."]]