En esta página se describen los requisitos previos y las instrucciones detalladas para ajustar Gemini con datos de audio mediante el aprendizaje supervisado.
Casos prácticos
Ajustar los modelos de audio mejora su rendimiento, ya que se adaptan a necesidades específicas. Esto puede implicar mejorar el reconocimiento de voz para diferentes acentos, ajustar la clasificación de géneros musicales, optimizar la detección de eventos sonoros, personalizar la generación de audio, adaptarse a entornos ruidosos, mejorar la calidad del audio y personalizar las experiencias de audio. Estos son algunos casos prácticos habituales de ajuste de audio:
Asistentes de voz mejorados:
- Pedidos de comida por voz: desarrolla sistemas activados por voz para que los usuarios puedan pedir comida y recibirla a domicilio sin problemas.
Análisis de contenido de audio:
- Transcripción automática: genera transcripciones muy precisas, incluso en entornos ruidosos.
- Resumen de audio: resume los puntos clave de pódcasts o audiolibros.
- Clasificación de música: categoriza la música según el género, el estado de ánimo u otras características.
Accesibilidad y tecnologías asistenciales:
- Subtítulos en tiempo real: ofrece subtítulos en directo para eventos o videollamadas.
- Aplicaciones controladas por voz: desarrolla aplicaciones que se controlen completamente con la voz.
- Aprendizaje de idiomas: crea herramientas que proporcionen comentarios personalizados sobre la pronunciación.
Limitaciones
Modelos de Gemini 2.5
Especificaciones | Valor |
---|---|
Duración máxima del audio por ejemplo | 60 minutos |
Número máximo de archivos de audio por ejemplo | 1 |
Tamaño máximo del archivo de audio | 100 MB |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Especificaciones | Valor |
---|---|
Duración máxima del audio por ejemplo | 60 minutos |
Número máximo de archivos de audio por ejemplo | 1 |
Tamaño máximo del archivo de audio | 100 MB |
Para obtener más información sobre los requisitos de las muestras de audio, consulta la página Comprensión de audio (solo voz).
Formato del conjunto de datos
El fileUri
de tu conjunto de datos puede ser el URI de un archivo de un segmento de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.
Para ver un ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.
A continuación, se muestra un ejemplo de un conjunto de datos de audio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Siguientes pasos
- Para obtener más información sobre el modelo de comprensión de audio de Gemini, consulta Comprensión de audio (solo voz).
- Para empezar a ajustar, consulta Ajustar modelos de Gemini mediante el ajuste fino supervisado.
- Para saber cómo se puede usar el ajuste fino supervisado en una solución que cree una base de conocimientos de IA generativa, consulta Solución de inicio rápido: base de conocimientos de IA generativa.