Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Dalam panduan memulai ini, pelajari cara mengukur dan meningkatkan akurasi Google Cloud Speech-to-Text untuk data audio Anda. Pelajari juga berbagai model dan opsi yang tersedia dari API untuk meningkatkan akurasi transkripsi. Pelajari cara menggunakan UI Speech-to-Text di konsol Google Cloud dan file kebenaran nyata untuk mengukur akurasi dan mendapatkan insight tentang sistem Speech-to-Text.
Sistem Machine Learning (ML) pada dasarnya memiliki ketidakakuratan, begitu pula dengan sistem Pengenalan Ucapan Otomatis (ASR), yang juga dikenal sebagai sistem Speech-to-Text. Pengukuran akurasi yang akurat sangat berhubungan dengan kasus penggunaan tertentu dan sistem yang dievaluasi, karena perbedaan kualitas rekaman audio dan kondisi akustik dapat berdampak signifikan pada akurasi. Akibatnya, penerapan satu skor akurasi untuk semua pelanggan dan kasus penggunaan menjadi tidak praktis. Untuk memastikan performa sistem ASR yang andal dalam performa sistem yang penting dan menghadapi produksi. Anda juga perlu memahami performa Speech-to-Text dalam konteks sistem yang lebih luas.
Untuk tujuan panduan memulai ini, gunakan metode standar industri sebagai perbandingan, Word Error Rate (WER), yang sering disingkat sebagai WER. Untuk mengetahui informasi lebih lanjut tentang cara WER dihitung dan ditafsirkan, lihat Mengukur dan meningkatkan akurasi ucapan. Mari kita mulai.
Mulai menggunakan Konsol Speech-to-Text
Izin yang diperlukan untuk langkah ini
Untuk melakukan tugas ini, Anda harus memiliki izin berikut:
storage.buckets.get
storage.buckets.list
Di tingkat project atau bucket:
storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update
Pastikan Anda telah mendaftar ke Google Cloud akun dan membuat project.
1. Buka Speech di konsol Google Cloud , lalu buka UI Speech-to-Text.
2. Dengan menggunakan file audio yang secara akustik mewakili kasus penggunaan Anda dan rencana penggunaan sistem ASR, ikuti petunjuk panduan memulai untuk membuat transkripsi pertama Anda menggunakan Speech-to-Text.
Menghitung Akurasi Transkripsi
Setelah berhasil mentranskripsikan file audio, gunakan bagian Transcription Accuracy. Bagian ini tetap kosong hingga akurasi dihitung untuk transkripsi Anda.
Dengan menggunakan tombol Upload Kebenaran Nyata di bagian atas, Anda dapat mulai menghitung akurasi.
Menentukan kebenaran nyata
Untuk menghitung akurasi transkripsi, berikan file kebenaran nyata. File ini adalah file .txt atau .csv, biasanya file transkripsi buatan manusia yang berisi transkripsi yang benar atau yang diharapkan sebagai perbandingan.
Menggunakan gs://cloud-samples-data/speech/brooklyn_bridge.wav sebagai contoh. File kebenaran nyata berisi: How old is the Brooklyn Bridge. Jika Anda tidak memiliki file kebenaran nyata yang tersedia, sebaiknya download transkripsi dalam format teks. Edit file transkripsi sesuai kebutuhan. Upload file transkripsi sebagai file kebenaran nyata.
Menggunakan Upload atau file Cloud Storage yang sudah ada, tentukan file kebenaran nyata, lalu klik Save.
Mengonfirmasi kebenaran nyata
Setelah mengklik Simpan, sebuah perintah akan muncul untuk mengonfirmasi bahwa file kebenaran nyata yang ditentukan sudah benar. Verifikasi bahwa file kebenaran nyata secara akurat mewakili transkripsi yang benar, karena file ini secara langsung memengaruhi metrik akurasi.
Klik Konfirmasi untuk melanjutkan.
Tinjau hasil evaluasi
Bergantung pada ukuran data input, proses evaluasi mungkin memerlukan waktu beberapa saat, dan hasilnya ditampilkan setelah selesai.
Setelah evaluasi selesai, bagian berikut akan ditampilkan:
Tabel Akurasi Transkripsi, metrik akurasi, dan link ke file kebenaran nyata yang digunakan dalam proses tersebut.
Transcription dengan tombol untuk membandingkan dengan file kebenaran nyata beserta perincian metrik akurasi dan sorotan.
Tinjau dan tafsirkan hasil akurasi untuk memahami performa pengenal Speech-to-Text yang digunakan guna mengidentifikasi area yang dapat ditingkatkan, karena hasilnya bervariasi bergantung pada input dan transkripsi yang digunakan. Dalam contoh berikut, Anda dapat melihat kasus indikasi hasil akurasi, yang memberikan insight berharga untuk pengoptimalan sistem Speech-to-Text Google Cloud .
Contoh 0% WER:
Contoh 40% WER:
Opsional: memperbarui kebenaran nyata
Anda dapat menguji kebenaran nyata yang berbeda terhadap transkripsi yang ada, dengan melampirkan kembali file yang berbeda, lalu mengulangi langkah tiga dan empat dengan file kebenaran nyata yang diperbarui.
Coba sendiri
Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa Speech-to-Text dalam skenario dunia nyata. Pelanggan baru mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[],[],null,["# Measure and improve accuracy\n\nIn this quickstart, learn how to measure and improve the accuracy of the Google Cloud Speech-to-Text for your audio data. Also explore the various models and options available from the API to enhance transcription accuracy. Explore how to use the Speech-to-Text UI in the Google Cloud console and a ground-truth file to measure accuracy and to gain insights into the Speech-to-Text system.\n\nMachine Learning (ML) systems are inherently subject to inaccuracies, and Automatic Speech Recognition (ASR) systems, also known as Speech-to-Text systems, are no exception. Accurate measurement of accuracy is strongly coupled to specific use cases and the systems being evaluated, as differences in audio recording quality and acoustic conditions can significantly impact accuracy. As a result, a singular accuracy score for all customers and use cases is impractical. To ensure reliable performance of ASR systems in critical production-facing systems performance. It is also essential to understand how Speech-to-Text performs within the broader context of your system.\n\nFor the purposes of this quickstart guide,use the industry standard method for comparison, [Word Error Rate (WER)](https://en.wikipedia.org/wiki/Word_error_rate), often abbreviated as WER. For more information on how WER is calculated and interpreted see [Measure and improve speech accuracy](/speech-to-text/docs/speech-accuracy). Let's start.\n\nGetting started with Speech-to-Text Console\n-------------------------------------------\n\n#### Permissions required for this task\n\nTo perform this task, you must have the following\n[permissions](/iam/docs/overview#permissions):\n\n\n- `storage.buckets.get`\n- `storage.buckets.list`\n\nAt the project or bucket level:\n\n- `storage.objects.create`\n- `storage.objects.get`\n- `storage.objects.list`\n- `storage.objects.update`\n\nEnsure you have signed up for a Google Cloud account and created a project.\n1. Go to Speech in Google Cloud console, and navigate to [Speech-to-Text UI](https://console.cloud.google.com/speech).\n2. Using an audio file that is acoustically representative of your use case and how you are planning to use the ASR system, follow the quickstart instructions for making your first transcription using the [Speech-to-Text](https://cloud.google.com/speech-to-text/docs/transcribe-console).\n\nCalculating Transcription Accuracy\n----------------------------------\n\n1. After you have successfully transcribed your audio file, use the `Transcription Accuracy` section. This section remains empty until accuracy is calculated for your transcription.\n2. Using the **Upload Ground Truth** button at the top of the section, you can begin calculating accuracy.\n\nSpecifying ground truth\n-----------------------\n\n1. To calculate the accuracy of the transcription, provide a ground truth file. This is a `.txt` or `.csv` file, usually a human-generated transcription file that contains the correct or expected transcriptions for comparison.\n2. Using `gs://cloud-samples-data/speech/brooklyn_bridge.wav` as an example. The ground truth file contains: `How old is the Brooklyn Bridge`. If you don't have a ground truth file available, a recommendation is to download the transcription in a text format. Edit the transcription file as needed. Upload the transcription file as the ground truth file.\n3. Using **Upload** or an existing Cloud Storage file, specify the ground truth file, and click **Save** .\n\nConfirming ground truth\n-----------------------\n\n1. After clicking **Save**, a prompt displays to confirm that the specified ground truth file is correct. Verify that the ground truth file accurately represents the correct transcriptions, as it directly affects the accuracy metrics.\n2. Click **Confirm** to proceed.\n\nReview evaluation results\n-------------------------\n\n1. Depending on the size of the input data, the evaluation process might take some time, and the results are displayed upon completion.\n2. Once the evaluation is complete, the following sections are displayed:\n - The **Transcription Accuracy** table, the accuracy metrics, and a link to the ground truth file that were used in the process.\n - The `Transcription` with a toggle for comparing to the ground truth file along with a breakdown of accuracy metrics and highlights.\n3. Review and interpret the accuracy results to understand the performance of the Speech-to-Text recognizer that are used to identify areas for improvement, as the results vary depending on the inputs and transcription used. In the following examples, you can see indicative cases of the accuracy results, which provide valuable insights for optimization of the Google Cloud Speech-to-Text system.\n - An example of 0% WER:\n - An example of 40% WER:\n\nOptional: updating ground truth\n-------------------------------\n\nYou can test a different ground truth against the existing transcription, by reattaching a different file and then repeating steps three and four with an updated ground truth file.\n\nTry it for yourself\n-------------------\n\n\nIf you're new to Google Cloud, create an account to evaluate how\nSpeech-to-Text performs in real-world\nscenarios. New customers also get $300 in free credits to run, test, and\ndeploy workloads.\n[Try Speech-to-Text free](https://console.cloud.google.com/freetrial)"]]