Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
In dieser Kurzanleitung erfahren Sie, wie Sie die Genauigkeit von Google Cloud Speech-to-Text für Ihre Audiodaten messen und verbessern können. Sehen Sie sich auch die verschiedenen Modelle und Optionen an, die über die API verfügbar sind, um die Genauigkeit der Transkription zu verbessern. Hier erfahren Sie, wie Sie die Speech-to-Text-UI in der Google Cloud Konsole und eine Ground-Truth-Datei verwenden, um die Genauigkeit zu messen und Einblicke in das Speech-to-Text-System zu erhalten.
Systeme für maschinelles Lernen (ML) sind von Natur aus ungenau. Das gilt auch für Systeme zur automatischen Spracherkennung (ASR), auch Speech-to-Text-Systeme genannt. Die genaue Messung der Genauigkeit hängt stark von den jeweiligen Anwendungsfällen und den zu bewertenden Systemen ab, da sich Unterschiede in der Audioaufzeichnungsqualität und den akustischen Bedingungen erheblich auf die Genauigkeit auswirken können. Daher ist es nicht praktikabel, einen einzelnen Genauigkeitswert für alle Kunden und Anwendungsfälle zu verwenden. Um die zuverlässige Leistung von ASR-Systemen in kritischen produktionsorientierten Systemen sicherzustellen. Es ist auch wichtig zu verstehen, wie Speech-to-Text im breiteren Kontext Ihres Systems funktioniert.
Zum Ausführen dieser Aufgabe benötigen Sie folgende Berechtigungen:
storage.buckets.get
storage.buckets.list
Auf Projekt- oder Bucketebene:
storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update
Achten Sie darauf, dass Sie sich für ein Google Cloud -Konto registriert und ein Projekt erstellt haben.
1. Rufen Sie in der Google Cloud Console „Sprache“ auf und verwenden Sie die Speech-to-Text-UI.
2. Verwenden Sie eine Audiodatei, die akustisch repräsentativ für Ihren Anwendungsfall und die geplante Verwendung des ASR-Systems ist, und folgen Sie der Kurzanleitung, um Ihre erste Transkription mit Speech-to-Text zu erstellen.
Transkriptionsgenauigkeit berechnen
Nachdem Sie Ihre Audiodatei erfolgreich transkribiert haben, können Sie den Abschnitt Transcription Accuracy verwenden. Dieser Abschnitt bleibt leer, bis die Genauigkeit Ihrer Transkription berechnet wurde.
Mit der Schaltfläche Upload Ground Truth (Wahrheitsdaten hochladen) oben im Abschnitt können Sie mit der Berechnung der Genauigkeit beginnen.
Ground Truth angeben
Wenn Sie die Genauigkeit der Transkription berechnen möchten, stellen Sie eine Ground-Truth-Datei bereit. Dies ist eine .txt- oder .csv-Datei, in der Regel eine von Menschen erstellte Transkriptionsdatei, die die korrekten oder erwarteten Transkriptionen für den Vergleich enthält.
Hier ein Beispiel für gs://cloud-samples-data/speech/brooklyn_bridge.wav: Die Ground-Truth-Datei enthält: How old is the Brooklyn Bridge. Wenn Sie keine Ground-Truth-Datei haben, empfiehlt es sich, die Transkription in einem Textformat herunterzuladen. Bearbeiten Sie die Transkriptionsdatei nach Bedarf. Laden Sie die Transkriptionsdatei als Ground-Truth-Datei hoch.
Geben Sie die Ground Truth-Datei über Hochladen oder eine vorhandene Cloud Storage-Datei an und klicken Sie auf Speichern.
Ground Truth bestätigen
Nachdem Sie auf Speichern geklickt haben, werden Sie aufgefordert, zu bestätigen, dass die angegebene Ground-Truth-Datei korrekt ist. Prüfen Sie, ob die Ground-Truth-Datei die korrekten Transkriptionen enthält, da sie sich direkt auf die Genauigkeitsmesswerte auswirkt.
Klicken Sie auf Bestätigen, um fortzufahren.
Bewertungsergebnisse prüfen
Je nach Größe der Eingabedaten kann die Auswertung einige Zeit in Anspruch nehmen. Die Ergebnisse werden nach Abschluss angezeigt.
Nach Abschluss der Auswertung werden die folgenden Abschnitte angezeigt:
Die Tabelle Genauigkeit der Transkription, die Genauigkeitsmesswerte und ein Link zur Ground-Truth-Datei, die im Prozess verwendet wurde.
Die Transcription mit einem Ein/Aus-Schalter zum Vergleichen mit der Ground-Truth-Datei sowie einer Aufschlüsselung der Genauigkeitsmesswerte und Highlights.
Sehen Sie sich die Genauigkeitsergebnisse an und interpretieren Sie sie, um die Leistung des Speech-to-Text-Erkenners zu verstehen, der verwendet wird, um Bereiche mit Verbesserungsbedarf zu ermitteln. Die Ergebnisse variieren je nach Eingaben und verwendeter Transkription. In den folgenden Beispielen sehen Sie beispielhafte Fälle der Genauigkeitsergebnisse, die wertvolle Informationen für die Optimierung des Google Cloud Speech-to-Text-Systems liefern.
Beispiel für 0 % WER:
Beispiel für einen WER von 40 %:
Optional: Grundwahrheit aktualisieren
Sie können eine andere Ground-Truth-Datei für die vorhandene Transkription testen, indem Sie eine andere Datei wieder anhängen und dann die Schritte 3 und 4 mit einer aktualisierten Ground-Truth-Datei wiederholen.
Überzeugen Sie sich selbst
Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie einfach ein Konto, um die Leistungsfähigkeit von Speech-to-Text in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[],[],null,["# Measure and improve accuracy\n\nIn this quickstart, learn how to measure and improve the accuracy of the Google Cloud Speech-to-Text for your audio data. Also explore the various models and options available from the API to enhance transcription accuracy. Explore how to use the Speech-to-Text UI in the Google Cloud console and a ground-truth file to measure accuracy and to gain insights into the Speech-to-Text system.\n\nMachine Learning (ML) systems are inherently subject to inaccuracies, and Automatic Speech Recognition (ASR) systems, also known as Speech-to-Text systems, are no exception. Accurate measurement of accuracy is strongly coupled to specific use cases and the systems being evaluated, as differences in audio recording quality and acoustic conditions can significantly impact accuracy. As a result, a singular accuracy score for all customers and use cases is impractical. To ensure reliable performance of ASR systems in critical production-facing systems performance. It is also essential to understand how Speech-to-Text performs within the broader context of your system.\n\nFor the purposes of this quickstart guide,use the industry standard method for comparison, [Word Error Rate (WER)](https://en.wikipedia.org/wiki/Word_error_rate), often abbreviated as WER. For more information on how WER is calculated and interpreted see [Measure and improve speech accuracy](/speech-to-text/docs/speech-accuracy). Let's start.\n\nGetting started with Speech-to-Text Console\n-------------------------------------------\n\n#### Permissions required for this task\n\nTo perform this task, you must have the following\n[permissions](/iam/docs/overview#permissions):\n\n\n- `storage.buckets.get`\n- `storage.buckets.list`\n\nAt the project or bucket level:\n\n- `storage.objects.create`\n- `storage.objects.get`\n- `storage.objects.list`\n- `storage.objects.update`\n\nEnsure you have signed up for a Google Cloud account and created a project.\n1. Go to Speech in Google Cloud console, and navigate to [Speech-to-Text UI](https://console.cloud.google.com/speech).\n2. Using an audio file that is acoustically representative of your use case and how you are planning to use the ASR system, follow the quickstart instructions for making your first transcription using the [Speech-to-Text](https://cloud.google.com/speech-to-text/docs/transcribe-console).\n\nCalculating Transcription Accuracy\n----------------------------------\n\n1. After you have successfully transcribed your audio file, use the `Transcription Accuracy` section. This section remains empty until accuracy is calculated for your transcription.\n2. Using the **Upload Ground Truth** button at the top of the section, you can begin calculating accuracy.\n\nSpecifying ground truth\n-----------------------\n\n1. To calculate the accuracy of the transcription, provide a ground truth file. This is a `.txt` or `.csv` file, usually a human-generated transcription file that contains the correct or expected transcriptions for comparison.\n2. Using `gs://cloud-samples-data/speech/brooklyn_bridge.wav` as an example. The ground truth file contains: `How old is the Brooklyn Bridge`. If you don't have a ground truth file available, a recommendation is to download the transcription in a text format. Edit the transcription file as needed. Upload the transcription file as the ground truth file.\n3. Using **Upload** or an existing Cloud Storage file, specify the ground truth file, and click **Save** .\n\nConfirming ground truth\n-----------------------\n\n1. After clicking **Save**, a prompt displays to confirm that the specified ground truth file is correct. Verify that the ground truth file accurately represents the correct transcriptions, as it directly affects the accuracy metrics.\n2. Click **Confirm** to proceed.\n\nReview evaluation results\n-------------------------\n\n1. Depending on the size of the input data, the evaluation process might take some time, and the results are displayed upon completion.\n2. Once the evaluation is complete, the following sections are displayed:\n - The **Transcription Accuracy** table, the accuracy metrics, and a link to the ground truth file that were used in the process.\n - The `Transcription` with a toggle for comparing to the ground truth file along with a breakdown of accuracy metrics and highlights.\n3. Review and interpret the accuracy results to understand the performance of the Speech-to-Text recognizer that are used to identify areas for improvement, as the results vary depending on the inputs and transcription used. In the following examples, you can see indicative cases of the accuracy results, which provide valuable insights for optimization of the Google Cloud Speech-to-Text system.\n - An example of 0% WER:\n - An example of 40% WER:\n\nOptional: updating ground truth\n-------------------------------\n\nYou can test a different ground truth against the existing transcription, by reattaching a different file and then repeating steps three and four with an updated ground truth file.\n\nTry it for yourself\n-------------------\n\n\nIf you're new to Google Cloud, create an account to evaluate how\nSpeech-to-Text performs in real-world\nscenarios. New customers also get $300 in free credits to run, test, and\ndeploy workloads.\n[Try Speech-to-Text free](https://console.cloud.google.com/freetrial)"]]