Ajuste de áudio

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de áudio usando o aprendizado supervisionado.

Casos de uso

O ajuste de modelos de áudio melhora o desempenho deles ao adaptá-los a necessidades específicas. Isso pode envolver a melhoria do reconhecimento de fala para diferentes sotaques, o ajuste fino da classificação de gêneros musicais, a otimização da detecção de eventos sonoros, a personalização da geração de áudio, a adaptação a ambientes barulhentos, a melhoria da qualidade de áudio e a personalização de experiências de áudio. Confira alguns casos de uso comuns de ajuste de áudio:

Assistentes de voz aprimorados:
- Pedir comida por voz: desenvolver sistemas ativados por voz para pedir e entregar comida com facilidade.
Análise de conteúdo de áudio:
- Transcrição automática: gere transcrições altamente precisas, mesmo em ambientes barulhentos.
- Resumo de áudio: resuma os pontos principais de podcasts ou audiolivros.
- Classificação de músicas: categorizar músicas com base no gênero, no humor ou em outras características.
Acessibilidade e tecnologias adaptativas:
- Legendas em tempo real: ofereça legendas ao vivo para eventos ou videochamadas.
- Aplicativos controlados por voz: desenvolva apps controlados totalmente por voz.
- Aprendizado de idiomas: crie ferramentas que ofereçam feedback personalizado sobre pronúncia.

Limitações

Duração máxima do áudio por exemplo: 10 minutos.
Número máximo de arquivos de áudio por exemplo: 1.
Tamanho máximo do arquivo de áudio: 20 MB.

Para saber mais sobre os requisitos de amostra de áudio, consulte a página Entendimento de áudio (somente fala).

Formato do conjunto de dados

Confira a seguir um exemplo de conjunto de dados de áudio.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini 1.5 Pro e o Gemini 1.5 Flash.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

A seguir

Para saber mais sobre o modelo de entendimento de áudio do Gemini, consulte Entendimento de áudio (somente fala).
Para começar a ajustar, consulte Ajustar modelos do Gemini usando ajuste supervisionado de detalhes.
Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.

Ajuste de áudio Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Casos de uso

Limitações

Formato do conjunto de dados

A seguir

Ajuste de áudio