Questa pagina è stata tradotta dall'API Cloud Translation.

Ottimizzazione audio

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per il perfezionamento di Gemini sui dati audio utilizzando l'apprendimento supervisionato.

Casi d'uso

L'ottimizzazione dei modelli audio ne migliora le prestazioni adattandoli a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per diversi accenti, la messa a punto della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione audio, l'adattamento agli ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Ecco alcuni casi d'uso comuni per la regolazione dell'audio:

Assistenti vocali migliorati:
- Ordinazione di cibo con la voce: sviluppa sistemi attivati dalla voce per ordinare e ricevere cibo senza problemi.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni estremamente accurate, anche in ambienti rumorosi.
- Riepilogo audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione della musica: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie per la disabilità:
- Sottotitoli in tempo reale: fornisci sottotitoli codificati in tempo reale per eventi o videochiamate.
- Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.

Limitazioni

Modelli Gemini 2.5

Specifica	Valore
Durata massima dell'audio per esempio	60 minuti
Numero massimo di file audio per esempio	1
Dimensione massima del file audio	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Specifica	Valore
Durata massima dell'audio per esempio	60 minuti
Numero massimo di file audio per esempio	1
Dimensione massima del file audio	100MB

Per saperne di più sui requisiti dei campioni audio, consulta la pagina Comprensione dell'audio (solo voce).

Formato del set di dati

fileUri per il set di dati può essere l'URI di un file in un bucket Cloud Storage oppure un URL HTTP o HTTPS disponibile pubblicamente.

Per visualizzare l'esempio di formato generico, vedi Esempio di set di dati per Gemini.

Di seguito è riportato un esempio di set di dati audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Passaggi successivi

Per scoprire di più sul modello di comprensione audio di Gemini, vedi Comprensione audio (solo voce).
Per iniziare l'ottimizzazione, consulta Ottimizzare i modelli Gemini utilizzando l'ottimizzazione supervisionata.
Per scoprire come è possibile utilizzare il fine-tuning supervisionato in una soluzione che crea una knowledge base di AI generativa, consulta Soluzione Jump Start: knowledge base di AI generativa.