Pelajari cara menyiapkan data audio dan teks untuk melakukan fine-tuning model Speech-to-Text Kustom di Google Cloud konsol Speech. Kualitas data pelatihan Anda memengaruhi efektivitas model yang Anda buat. Anda harus menyusun set data beragam yang berisi konteks audio dan teks representatif yang relevan secara langsung dengan apa yang akan direspons model selama waktu inferensi dalam produksi, termasuk derau dan kosakata yang tidak biasa.
Untuk pelatihan model Speech-to-Text Kustom yang efektif, Anda memerlukan:
- Minimal 100 jam audio data pelatihan, baik hanya audio atau dengan transkrip teks yang sesuai sebagai data sebenarnya. Data ini sangat penting untuk fase pelatihan awal, sehingga model mempelajari nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data kebenaran dasar
- Kumpulan data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran dasar.
Sebelum memulai
Pastikan Anda telah mendaftar ke akun Google Cloud , membuat project Google Cloud , dan mengaktifkan Speech-to-Text API:
- Buka Cloud Storage.
- Buat bucket jika Anda belum memilikinya.
Membuat set data
Untuk membuat set data, Anda harus membuat dua subdirektori di bucket Cloud Storage pilihan Anda. Ikuti konvensi penamaan yang sederhana:
- Buat subdirektori training_dataset untuk menyimpan semua file pelatihan Anda.
- Buat subdirektori validation_dataset untuk menyimpan semua file pelatihan Anda.
- Upload file audio dan teks Anda di direktori dengan mengikuti Pedoman anotasi kebenaran nyata.
Panduan set data
- Untuk pelatihan dan validasi, format file yang didukung adalah
.wav
untuk file audio dalam encoding LINEAR16 dan.txt
untuk file teks, jika tersedia. Hindari karakter non-ASCII dalam nama file. - File audio di direktori yang sama harus disediakan dalam file TXT terpisah, masing-masing dengan nama yang sama dengan file WAV yang sesuai, misalnya, my_file_1.wav, my_file_1.txt. Hanya boleh ada satu file transkripsi per file audio.
Data pelatihan
- Semua file untuk pelatihan harus disediakan di direktori yang sama, tanpa folder bertingkat.
- Opsional: Jika tersedia, berikan transkripsi ke file audio. Tidak diperlukan stempel waktu.
- Pastikan durasi audio kumulatif file audio Anda lebih dari 100 jam. Jika tidak, tugas pelatihan akan gagal.
Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data pelatihan:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Data validasi
- Semua file untuk validasi disediakan dalam direktori yang sama bernama validation_dataset tanpa folder bertingkat.
- Durasi setiap audio validasi tidak boleh lebih dari 30 detik.
- Berikan transkripsi sebenarnya untuk setiap file audio dalam direktori yang sama dalam file TXT terpisah.
Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data validasi:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Panduan anotasi kebenaran dasar
Lihat petunjuk pemformatan berikut.
Numbers
Bilangan kardinal dan ordinal hanya boleh ditranskripsikan dalam digit.
- Audio: "A deck of cards has fifty two cards, thirteen ranks of the four suits, diamonds, hearts, and spades" (Satu set kartu memiliki lima puluh dua kartu, tiga belas peringkat dari empat jenis kartu, berlian, hati, dan sekop)
- Teks sebenarnya: "Satu set kartu memiliki 52 kartu, 13 peringkat dari empat jenis kartu, berlian, hati, dan sekop"
Mata uang dan satuan
Transkripsikan sebagaimana biasanya ditulis dalam lokalitas transkripsi. Singkat semua satuan yang mengikuti nilai numerik. Jika dari konteksnya jelas bahwa angka atau urutan angka merujuk pada mata uang atau waktu, formatlah seperti itu.
Tanggal dan waktu
Transkripsikan dalam bentuk umum untuk tanggal dan waktu yang digunakan dalam bahasa transkripsi. Tulis waktu dalam format hh:mm
, jika memungkinkan.
Alamat
Transkripsikan dengan nama lengkap lokasi, jalan, dan negara bagian, misalnya, dengan singkatan jika diucapkan secara eksplisit. Entitas dan lokasi harus ditranskripsikan menggunakan koma di antaranya.
Nama yang benar dan aksen
Transkripsikan menggunakan ejaan dan tanda baca resmi. Jika nama pribadi dapat memiliki beberapa ejaan dan konteks tidak membantu, gunakan ejaan yang paling sering digunakan.
Nama merek, nama produk, dan judul media
Transkripsikan sebagaimana format resminya dan cara penulisannya yang paling umum.
Interjeksi
Tawa atau vokalisasi non-ucapan lainnya harus ditranskripsikan menggunakan hingga tiga suku kata. Tawa yang disertakan dalam ucapan harus diabaikan sepenuhnya. Contoh:
- Audio: "ha ha ha ha ha"
- Teks sebenarnya: "hahaha"
Beberapa pembicara
Jangan memisahkannya dengan tag pembicara, karena diarisasi umumnya tidak didukung.
Langkah berikutnya
Ikuti referensi berikut untuk memanfaatkan model ucapan kustom dalam aplikasi Anda:
- Melatih dan mengelola model kustom Anda
- Men-deploy dan mengelola endpoint model
- Menggunakan model kustom Anda
- Mengevaluasi model kustom Anda