Penyesuaian Audio

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk menyesuaikan Gemini pada data audio menggunakan pembelajaran terawasi.

Kasus penggunaan

Menyesuaikan model audio akan meningkatkan performanya dengan menyesuaikannya menurut kebutuhan tertentu. Hal ini dapat mencakup peningkatan pengenalan ucapan untuk aksen yang berbeda-beda, penyempurnaan klasifikasi genre musik, pengoptimalan deteksi peristiwa suara, penyesuaian pembuatan audio, adaptasi terhadap lingkungan yang bising, peningkatan kualitas audio, dan personalisasi pengalaman audio. Berikut beberapa kasus penggunaan umum penyesuaian audio:

  • Asisten suara yang ditingkatkan kualitasnya:

    • Pemesanan makanan melalui suara: Mengembangkan sistem yang diaktifkan dengan suara untuk pemesanan dan pengiriman makanan yang lancar.
  • Analisis konten audio:

    • Transkripsi otomatis: Buat transkrip yang sangat akurat, bahkan di lingkungan yang bising.
    • Ringkasan audio: Merangkum poin-poin penting dari podcast atau buku audio.
    • Klasifikasi musik: Mengategorikan musik berdasarkan genre, mood, atau karakteristik lainnya.
  • Aksesibilitas dan teknologi pendukung:

    • Teks real-time: Menyediakan teks langsung untuk acara atau panggilan video.
    • Aplikasi yang dikontrol suara: Kembangkan aplikasi yang sepenuhnya dikontrol oleh suara.
    • Pembelajaran bahasa: Membuat alat yang memberikan masukan yang dipersonalisasi tentang pengucapan.

Batasan

Gemini 2.5 Flash

Spesifikasi Nilai
Panjang audio maksimum per contoh 60 menit
File audio maksimum per contoh 1
Ukuran file audio maksimum 100MB

Gemini 2.0 Flash Gemini 2.0 Flash-Lite

Spesifikasi Nilai
Panjang audio maksimum per contoh 60 menit
File audio maksimum per contoh 1
Ukuran file audio maksimum 100MB

Untuk mempelajari lebih lanjut persyaratan sampel audio, lihat halaman Pemahaman audio (khusus ucapan).

Format set data

fileUri untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini.

Berikut adalah contoh set data audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Langkah berikutnya