Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per perfezionare Gemini sui dati audio utilizzando l'apprendimento supervisionato.
Casi d'uso
L'ottimizzazione dei modelli audio ne migliora le prestazioni personalizzandoli in base a esigenze specifiche. Ciò può comportare il miglioramento del riconoscimento vocale per accenti diversi, la messa a punto della classificazione dei generi musicali, l'ottimizzazione del rilevamento degli eventi sonori, la personalizzazione della generazione di audio, l'adattamento a ambienti rumorosi, il miglioramento della qualità audio e la personalizzazione delle esperienze audio. Ecco alcuni casi d'uso comuni per la regolazione dell'audio:
Assistenti vocali migliorati:
- Ordinazione di cibo tramite comandi vocali: sviluppa sistemi attivati tramite comandi vocali per ordinare e consegnare cibo senza problemi.
Analisi dei contenuti audio:
- Trascrizione automatica: genera trascrizioni molto accurate, anche in ambienti rumorosi.
- Riepilogo audio: riassumi i punti chiave di podcast o audiolibri.
- Classificazione della musica: classifica la musica in base a genere, stato d'animo o altre caratteristiche.
Accessibilità e tecnologie per la disabilità:
- Sottotitoli codificati in tempo reale: fornisci sottotitoli codificati in tempo reale per eventi o videochiamate.
- Applicazioni controllate tramite comandi vocali: sviluppa applicazioni controllate interamente tramite comandi vocali.
- Apprendimento delle lingue: crea strumenti che forniscono feedback personalizzati sulla pronuncia.
Limitazioni
Gemini 2.0 Flash
Specifica | Valore |
---|---|
Durata massima dell'audio per esempio | 60 minuti |
File audio massimi per esempio | 1 |
Dimensioni massime del file audio | 100MB |
Gemini 1.5 Flash
Specifica | Valore |
---|---|
Durata massima dell'audio per esempio | 60 minuti |
File audio massimi per esempio | 1 |
Dimensioni massime del file audio | 100MB |
Gemini 1.5 Pro
Specifica | Valore |
---|---|
Durata massima dell'audio per esempio | 10 minuti |
Numero massimo di file audio per esempio | 1 |
Dimensioni massime del file audio | 100MB |
Per scoprire di più sui requisiti dei sample audio, consulta la pagina Comprensione audio (solo voce).
Formato del set di dati
fileUri
per il set di dati può essere l'URI di un file in un bucket Cloud Storage o un URL HTTP o HTTPS disponibile pubblicamente.
Per visualizzare l'esempio di formato generico, consulta Esempio di set di dati per Gemini.
Di seguito è riportato un esempio di set di dati audio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Passaggi successivi
- Per scoprire di più sul modello di comprensione audio di Gemini, consulta Comprensione audio (solo voce).
- Per iniziare l'ottimizzazione, consulta Ottimizzare i modelli Gemini mediante l'ottimizzazione fine supervisionata.
- Per scoprire come la regolazione fine supervisionata può essere utilizzata in una soluzione che crea una knowledge base di IA generativa, consulta la soluzione Jump Start: Knowledge base di IA generativa.