Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per perfezionare Gemini sui dati audio utilizzando l'apprendimento supervisionato.
Casi d'uso
L'ottimizzazione dei modelli audio ne migliora le prestazioni personalizzandoli in base a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per accenti diversi, la messa a punto della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione di audio, l'adattamento a ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Ecco alcuni casi d'uso comuni per la regolazione dell'audio:
Assistenti vocali migliorati:
- Ordinazione di cibo tramite comandi vocali: sviluppa sistemi attivati tramite comandi vocali per ordinare e consegnare cibo senza problemi.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni molto accurate, anche in ambienti rumorosi.
- Riepilogo audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione della musica: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie per la disabilità:
- Sottotitoli codificati in tempo reale: fornisci sottotitoli codificati in tempo reale per eventi o videochiamate.
- Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.
Limitazioni
Gemini 1.5 Pro
- Durata massima dell'audio per esempio: 10 minuti
- File audio massimi per esempio: 1
- Dimensione massima del file audio: 100 MB
Gemini 1.5 Flash
- Durata massima dell'audio per esempio: 60 minuti
- File audio massimi per esempio: 1
- Dimensioni massime del file audio: 100 MB
Per scoprire di più sui requisiti dei sample audio, consulta la pagina Comprensione audio (solo voce).
Formato del set di dati
Di seguito è riportato un esempio di set di dati audio.
Per vedere l'esempio di formato generico, consulta Esempio di set di dati per Gemini 1.5 Pro e Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Passaggi successivi
- Per scoprire di più sul modello di comprensione audio di Gemini, consulta Comprensione audio (solo voce).
- Per iniziare l'ottimizzazione, consulta Ottimizzare i modelli Gemini mediante il perfezionamento supervisionato.
- Per scoprire come la regolazione fine supervisionata può essere utilizzata in una soluzione che crea una knowledge base di AI generativa, consulta la soluzione Jump Start: Knowledge base di IA generativa.