Ottimizzazione audio

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per perfezionare Gemini sui dati audio utilizzando l'apprendimento supervisionato.

Casi d'uso

L'ottimizzazione dei modelli audio ne migliora le prestazioni personalizzandoli in base a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per accenti diversi, la messa a punto della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione di audio, l'adattamento a ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Ecco alcuni casi d'uso comuni per la regolazione dell'audio:

  • Assistenti vocali migliorati:

    • Ordinazione di cibo tramite comandi vocali: sviluppa sistemi attivati tramite comandi vocali per ordinare e consegnare cibo senza problemi.
  • Analisi dei contenuti audio:

    • Trascrizione automatica: genera trascrizioni molto accurate, anche in ambienti rumorosi.
    • Riepilogo audio: riassumi i punti chiave di podcast o audiolibri.
    • Classificazione della musica: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
  • Accessibilità e tecnologie per la disabilità:

    • Sottotitoli codificati in tempo reale: fornisci sottotitoli codificati in tempo reale per eventi o videochiamate.
    • Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
    • Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.

Limitazioni

Gemini 1.5 Pro

  • Durata massima dell'audio per esempio: 10 minuti
  • File audio massimi per esempio: 1
  • Dimensione massima del file audio: 100 MB

Gemini 1.5 Flash

  • Durata massima dell'audio per esempio: 60 minuti
  • File audio massimi per esempio: 1
  • Dimensioni massime del file audio: 100 MB

Per scoprire di più sui requisiti dei sample audio, consulta la pagina Comprensione audio (solo voce).

Formato del set di dati

Di seguito è riportato un esempio di set di dati audio.

Per vedere l'esempio di formato generico, consulta Esempio di set di dati per Gemini 1.5 Pro e Gemini 1.5 Flash.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Passaggi successivi