Esta página foi traduzida pela API Cloud Translation.

Sobre ajuste de detalhes supervisionado para modelos do Gemini

O ajuste fino supervisionado é uma boa opção quando você tem uma tarefa bem definida com dados rotulados disponíveis. Ele é particularmente eficaz para aplicativos específicos de domínio em que a linguagem ou o conteúdo é significativamente diferente dos dados para os quais o modelo grande foi originalmente treinado. É possível ajustar os tipos de dados texto, imagem, áudio e documento.

O ajuste de detalhes supervisionado adapta o comportamento do modelo com um conjunto de dados rotulado. Esse processo ajusta os pesos do modelo para minimizar a diferença entre as previsões e os rótulos reais. Por exemplo, ele pode melhorar o desempenho do modelo para os seguintes tipos de tarefas:

Classificação
Resumo
Respostas a perguntas extrativas
Chat

Para uma discussão sobre os principais casos de uso de ajuste, confira a postagem do blog Centenas de organizações estão ajustando modelos do Gemini. Confira os casos de uso favoritos deles.

Para saber mais, consulte Quando usar o ajuste supervisionado de detalhes no Gemini.

Modelos compatíveis

Os seguintes modelos do Gemini são compatíveis com ajuste supervisionado:

Para modelos que oferecem suporte ao pensamento, sugerimos desativar o orçamento de pensamento ou definir o valor mais baixo. Isso pode melhorar o desempenho e reduzir os custos das tarefas ajustadas. Durante o ajuste de detalhes supervisionado, o modelo aprende com os dados de treinamento e omite o processo de pensamento. Portanto, o modelo ajustado resultante pode realizar tarefas ajustadas de maneira eficaz sem um orçamento de pensamento.

Limitações

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Especificação	Valor
Máximo de tokens de treinamento de entrada e saída	131.072
Máximo de tokens de entrada e saída	Igual ao modelo de base do Gemini
Tamanho máximo do conjunto de dados de validação	5.000 exemplos
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	1 milhão de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4, 8 e 16.

Gemini 2.5 Pro

Especificação	Valor
Máximo de tokens de treinamento de entrada e saída	131.072
Máximo de tokens de entrada e saída	Igual ao modelo de base do Gemini
Tamanho máximo do conjunto de dados de validação	5.000 exemplos
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	1 milhão de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4 e 8.

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação	Valor
Máximo de tokens de treinamento de entrada e saída	131.072
Máximo de tokens de entrada e saída	Igual ao modelo de base do Gemini
Tamanho máximo do conjunto de dados de validação	5.000 exemplos
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	1 milhão de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4 e 8.

Problemas conhecidos

Aplicar a geração controlada ao enviar solicitações de inferência para modelos ajustados do Gemini pode resultar em uma diminuição na qualidade do modelo devido ao desalinhamento de dados durante o ajuste e o tempo de inferência. Durante o ajuste, a geração controlada não é aplicada. Portanto, o modelo ajustado não consegue processar bem a geração controlada no momento da inferência. O ajuste fino supervisionado personaliza o modelo de maneira eficaz para gerar saída estruturada. Portanto, não é necessário aplicar a geração controlada ao fazer solicitações de inferência em modelos ajustados.

Casos de uso do ajuste de detalhes supervisionado

Os modelos de fundação funcionam bem quando a saída ou a tarefa esperada pode ser definida de maneira clara e concisa em um prompt e ele produza a saída esperada de maneira consistente. Se você quiser que um modelo aprenda algo nichado ou específico que se desloque dos padrões gerais, convém ajustar esse modelo. Por exemplo, é possível usar o ajuste de modelo para ensinar o modelo a seguir:

Estruturas ou formatos específicos para gerar resultados.
Comportamentos específicos, como quando fornecer uma resposta final ou detalhada.
Resultados personalizados específicos para tipos específicos de entradas.

Os exemplos a seguir são casos de uso difíceis de capturar apenas com instruções imediatas:

Classificação: a resposta esperada é uma palavra ou frase específica.

Prompt: Classifique o texto a seguir em uma das seguintes classes: [business, Entertainment]. Texto: Diversifique seu portfólio de investimentos

Resposta: negócio

Ajustar o modelo pode impedir que ele gere respostas detalhadas.

Resumo: o resumo segue um formato específico. Por exemplo, talvez seja necessário remover informações de identificação pessoal (PII, na sigla em inglês) em um resumo do chat.

Prompt: Resumir: Jessica: Parece ótimo! A gente se encontra na Times Square! Alexander: Até às 10h!

Resposta: #Person1 e #Person2 marcam de se encontrar na Times Square às 10h.

Essa formatação de substituição dos nomes dos falantes por #Person1 e #Person2 é difícil de descrever, e o modelo de fundação pode não produzir naturalmente essa resposta.

Resposta de pergunta extrativa: a pergunta é sobre um contexto e a resposta é uma substring do contexto.

Prompt: Contexto: há evidências de que houve mudanças significativas na vegetação da floresta amazônica nos últimos 21.000 anos, pelo Último máximo glacial (UMG) e o período de degelo posterior. Pergunta: o que significa UMG?

Resposta: Último máximo glacial

A resposta "Último máximo glacial" é uma frase específica do contexto.

Chat: você precisa personalizar a resposta do modelo para seguir um perfil, um papel ou um personagem.

Prompt: Usuário: como está o tempo hoje?

Resposta: Assistente: como lojista virtual da organização de exemplo, só posso ajudar você com as compras e o frete.

Também é possível ajustar um modelo nas seguintes situações:

As solicitações não produzem os resultados esperados com consistência suficiente.
A tarefa é muito complicada de ser definida em um prompt. Por exemplo, você quer que o modelo faça clonagem de comportamento para um comportamento difícil de articular em um prompt.
Você tem uma intuição complexa sobre uma tarefa que é difícil de formalizar em um comando.
Você quer reduzir a duração do contexto removendo os exemplos de poucas fotos.

Configurar uma região do job de ajuste

Os dados do usuário, como o conjunto de dados transformado e o modelo ajustado, são armazenados na região do job de ajuste. Durante o ajuste, a computação pode ser descarregada para outras regiões US ou EU para aceleradores disponíveis. Esse processo é transparente para os usuários.

Se você usar o SDK da Vertex AI, poderá especificar a região na inicialização. Por exemplo:
```
import vertexai
vertexai.init(project='myproject', location='us-central1')
```
Se você criar um job de ajuste supervisionado enviando uma solicitação POST com o método tuningJobs.create, use o URL para especificar a região onde o job de ajuste de detalhes será executado. Por exemplo, no URL a seguir, você especifica uma região substituindo as duas instâncias de TUNING_JOB_REGION pela região em que o job é executado.
```
 https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
```
Se você usa o console doGoogle Cloud , selecione o nome da região no campo suspenso Região na página Detalhes do modelo. Essa é a mesma página em que você seleciona o modelo base e um nome de modelo ajustado.

Como avaliar modelos ajustados

É possível avaliar modelos ajustados das seguintes maneiras:

Métricas de ajuste e validação: avalie o modelo ajustado usando métricas de ajuste e validação após a conclusão do job de ajuste.
Avaliação integrada com o serviço de avaliação de IA generativa (pré-lançamento): configure jobs de ajuste para executar avaliações automaticamente usando o serviço de avaliação de IA generativa durante o ajuste. As seguintes interfaces, modelos e regiões são compatíveis com a integração de ajuste com o serviço de avaliação de IA generativa:
- Interfaces compatíveis: SDK da IA generativa do Google e API REST.
- Modelos compatíveis: gemini-2.5-pro, gemini-2.5-flash e gemini-2.5-flash-lite.
- Regiões com suporte: para conferir uma lista de regiões com suporte, consulte Regiões com suporte.

Cota

A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar mais jobs simultaneamente, solicite uma cota extra para Global concurrent tuning jobs.

Se você configurar o serviço de avaliação de IA generativa para executar avaliações automaticamente durante o ajuste, consulte as cotas do serviço de avaliação de IA generativa.

Preços

Confira os preços do ajuste fino supervisionado do Gemini aqui: Preços da Vertex AI.

O número de tokens de treinamento é calculado multiplicando o número de tokens no conjunto de dados de treinamento pelo número de períodos. Após o ajuste, os custos de inferência (solicitação de previsão) para o modelo ajustado ainda se aplicam. O preço de inferência é o mesmo para cada versão estável do Gemini. Para mais informações, consulte Versões de modelo estáveis do Gemini disponíveis.

Se você configurar o serviço de avaliação de IA generativa para ser executado automaticamente durante o ajuste, as avaliações serão cobradas como jobs de previsão em lote. Para mais informações, consulte Preços.

A seguir

Preparar um conjunto de dados de ajuste de detalhes supervisionado.
Saiba como implantar um modelo do Gemini ajustado.