Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyesuaikan Gemini pada data audio menggunakan pembelajaran terawasi.
Kasus penggunaan
Menyesuaikan model audio akan meningkatkan performanya dengan menyesuaikannya menurut kebutuhan tertentu. Hal ini dapat mencakup peningkatan pengenalan ucapan untuk aksen yang berbeda-beda, penyempurnaan klasifikasi genre musik, pengoptimalan deteksi peristiwa suara, penyesuaian pembuatan audio, adaptasi terhadap lingkungan yang bising, peningkatan kualitas audio, dan personalisasi pengalaman audio. Berikut beberapa kasus penggunaan umum penyesuaian audio:
Asisten suara yang ditingkatkan kualitasnya:
- Pemesanan makanan melalui suara: Mengembangkan sistem yang diaktifkan dengan suara untuk pemesanan dan pengiriman makanan yang lancar.
Analisis konten audio:
- Transkripsi otomatis: Buat transkrip yang sangat akurat, bahkan di lingkungan yang bising.
- Ringkasan audio: Merangkum poin-poin penting dari podcast atau buku audio.
- Klasifikasi musik: Mengategorikan musik berdasarkan genre, mood, atau karakteristik lainnya.
Aksesibilitas dan teknologi pendukung:
- Teks real-time: Menyediakan teks langsung untuk acara atau panggilan video.
- Aplikasi yang dikontrol suara: Kembangkan aplikasi yang sepenuhnya dikontrol oleh suara.
- Pembelajaran bahasa: Membuat alat yang memberikan masukan yang dipersonalisasi tentang pengucapan.
Batasan
Gemini 2.5 Flash
Spesifikasi | Nilai |
---|---|
Panjang audio maksimum per contoh | 60 menit |
File audio maksimum per contoh | 1 |
Ukuran file audio maksimum | 100MB |
Gemini 2.0 Flash Gemini 2.0 Flash-Lite
Spesifikasi | Nilai |
---|---|
Panjang audio maksimum per contoh | 60 menit |
File audio maksimum per contoh | 1 |
Ukuran file audio maksimum | 100MB |
Untuk mempelajari lebih lanjut persyaratan sampel audio, lihat halaman Pemahaman audio (khusus ucapan).
Format set data
fileUri
untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.
Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.
Berikut adalah contoh set data audio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Langkah berikutnya
- Untuk mempelajari lebih lanjut model pemahaman audio Gemini, lihat Pemahaman audio (khusus ucapan).
- Untuk mulai melakukan penyesuaian, lihat Menyesuaikan model Gemini menggunakan fine-tuning yang diawasi.
- Untuk mempelajari cara penggunaan penyesuaian halus tersupervisi dalam solusi yang membangun pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.