Este guia mostra como migrar aplicativos de IA generativa dos modelos Gemini 1.x e PaLM para os modelos Gemini 2.
Por que migrar para o Gemini 2?
O Gemini 2 oferece melhorias significativas no desempenho em relação aos modelos Gemini 1.x e PaLM, além de novos recursos. Além disso, cada versão do modelo tem o próprio período de suporte e disponibilidade da versão e a previsão de descontinuação.
Atualizar a maioria dos aplicativos de IA generativa para o Gemini 2 não exige uma reengenharia significativa de comandos ou código. No entanto, alguns aplicativos exigem mudanças de comando, e essas mudanças são difíceis de prever sem executar um comando pelo Gemini 2 primeiro. Portanto, é recomendado fazer testes do Gemini 2 antes da migração.
Mudanças significativas no código são necessárias apenas para determinadas mudanças importantes ou para usar novos recursos do Gemini 2.
Para qual modelo do Gemini 2 devo migrar?
Ao escolher um modelo do Gemini 2 para migrar, considere os recursos necessários para o aplicativo e o custo deles.
Para conferir uma visão geral dos recursos do modelo Gemini 2, consulte Gemini 2. Para uma visão geral de todos os modelos do Google, consulte Modelos do Google.
Para comparar os modelos Gemini 1.x e Gemini 2, consulte a tabela a seguir.
Recurso | Gemini 1.0 Pro | Gemini 1.5 Pro | Gemini 1.5 Flash | Gemini 2.0 Flash | Gemini 2.0 Flash-Lite |
---|---|---|---|---|---|
Modalidades de entrada | texto | texto, documentos, imagem, vídeo, áudio | texto, documentos, imagem, vídeo, áudio | texto, documentos, imagem, vídeo, áudio | texto, documentos, imagem, vídeo, áudio |
Modalidades de saída | texto | texto | texto | texto | texto |
Janela de contexto e limite total de tokens | 32.760 | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 |
Tamanho do contexto de saída | 8.192 | 8.192 | 8.192 | 8.192 | 8.192 |
Embasamento com a Pesquisa | Não | Sim | Sim | Sim | Não |
Chamadas de função | Não | Sim | Sim | Sim | Sim |
Execução de código | Não | Não | Não | Sim | Não |
Cache de contexto | Não | Sim | Sim | Sim | Não |
Previsão em lote | Não | Sim | Sim | Sim | Sim |
API Live | Não | Não | Não | Não | Não |
Latência | Mais lento que o Flash 1.5 | Mais capacidade na família 1.5 | Mais rápido na família 1.5 | Rápido e econômico | Rápido e mais econômico |
Ajuste fino | Sim | Sim | Sim | Sim | Sim |
SDK recomendado | SDK da Vertex AI | SDK da Vertex AI | SDK da Vertex AI | SDK da Gen AI | SDK da Gen AI |
Unidades de preço | Baseado em caracteres | Baseado em caracteres | Baseado em caracteres | Token | Token |
Antes de começar
Para uma migração tranquila do Gemini 2, recomendamos que você resolva as preocupações a seguir antes de iniciar o processo de migração.
Conscientização sobre a descontinuação
Observe os prazos de disponibilidade e suporte da versão do modelo para modelos mais antigos do Gemini e conclua a migração antes que o modelo que você está usando seja descontinuado.
InfoSec, governança e aprovações regulatórias
Solicite proativamente as aprovações necessárias para o Gemini 2 às partes interessadas de segurança da informação (InfoSec), risco e compliance. Certifique-se de que você cubra as restrições de compliance e risco específicas do domínio, especialmente em setores altamente regulamentados, como saúde e serviços financeiros. Os controles de segurança do Gemini diferem entre os modelos do Gemini 2.
Disponibilidade do local
Consulte a documentação IA generativa em modelos Google Cloud e disponibilidade de modelos de parceiros e verifique se o modelo Gemini 2 escolhido está disponível nas regiões em que você precisa.
Diferenças de preços com base na modalidade e na tokenização
Confira os preços do Gemini 2 para todas as modalidades (texto, código, imagens, fala) no seu app. Para mais informações, consulte a página de preços da IA generativa. A entrada e a saída de texto do Gemini 2 são cobradas por token, enquanto a entrada e a saída de texto do Gemini 1 são cobradas por caractere.
Capacidade de processamento provisionada
Se necessário, compre mais capacidade provisionada para o Gemini 2 ou altere os pedidos de capacidade provisionada.
Ajuste de detalhes supervisionado
Se o aplicativo Gemini usar o ajuste fino supervisionado, envie um novo job de ajuste com o Gemini 2. Recomendamos que você comece com os hiperparâmetros de ajuste padrão em vez de reutilizar os valores de hiperparâmetro que você usou com versões anteriores do Gemini. O serviço de ajuste foi otimizado para o Gemini 2. Portanto, a reutilização de valores de hiperparâmetros anteriores pode não gerar os melhores resultados.
Teste de regressão
Há três tipos principais de testes de regressão envolvidos no upgrade para modelos Gemini 2:
- Testes de regressão de código: testes de regressão de uma perspectiva de engenharia de software e DevOps. Esse tipo de teste de regressão é sempre necessário.
- Testes de regressão de desempenho do modelo: testes de regressão de uma perspectiva de ciência de dados ou aprendizado de máquina. Isso significa garantir que o novo modelo Gemini
2 forneça saídas com pelo menos a mesma qualidade do modelo de produção
atual.
Os testes de regressão de desempenho do modelo são apenas avaliações de modelo feitas como parte de uma mudança em um sistema ou no modelo subjacente.
O teste de regressão de desempenho do modelo se divide em:
- Teste de desempenho do modelo off-line: avaliação da qualidade das saídas do modelo em um ambiente de experimentação dedicado com base em várias métricas de qualidade da saída do modelo.
- Teste de desempenho de modelo on-line: avaliação da qualidade das saídas do modelo em uma implantação on-line ativa com base no feedback implícito ou explícito do usuário.
- Teste de carga: avaliação de como o aplicativo lida com grandes volumes de solicitações de inferência. Esse tipo de teste de regressão é necessário para aplicativos que exigem capacidade de processamento provisionada.
Documentar os requisitos de avaliação e teste do modelo
- Prepare-se para repetir as avaliações relevantes desde que você criou o aplicativo, além de todas as avaliações relevantes que você fez desde então.
- Se você achar que as avaliações atuais não abrangem ou medem adequadamente a amplitude das tarefas que o aplicativo executa, projete e prepare outras avaliações.
- Se o aplicativo envolver RAG, uso de ferramentas, fluxos de trabalho de agentes complexos ou cadeias de comandos, verifique se os dados de avaliação atuais permitem avaliar cada componente de forma independente. Caso contrário, colete exemplos de entrada e saída para cada componente.
- Se o aplicativo tiver um impacto muito grande ou fizer parte de um sistema de tempo real voltado ao usuário, inclua a avaliação on-line.
Upgrades e testes de código
Considere fazer upgrade para o SDK da IA generativa do Google
Se o aplicativo Gemini 1.x usar o SDK da Vertex AI, considere fazer upgrade para o SDK da IA generativa. Os novos recursos do Gemini 2 estão disponíveis apenas no SDK da Gen AI. No entanto, não é necessário mudar para o SDK da IA generativa se o app exigir apenas recursos disponíveis no SDK da Vertex AI. Se você não conhece o SDK da IA generativa, consulte o notebook Primeiros passos com a IA generativa do Google usando o SDK da IA generativa.
SDK da Gen AI
Recomendamos que você migre para o SDK de IA generativa ao fazer upgrade para o Gemini 2.0.
Se você optar por usar o SDK da Gen AI, o processo de configuração será diferente do SDK da Vertex AI.
Para mais informações, acesse o SDK da IA generativa do Google.
Instalar
pip install --upgrade google-genai
Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Substitua GOOGLE_CLOUD_PROJECT
pelo ID do projeto Google Cloud e GOOGLE_CLOUD_LOCATION
pelo local do projeto Google Cloud (por exemplo, us-central1
).
SDK da Vertex AI
Se você reutilizar o SDK da Vertex AI, o processo de configuração será o mesmo para os modelos 1.0, 1.5 e 2.0. Para mais informações, consulte Introdução ao SDK da Vertex AI para Python.
Instale o SDK:
pip install --upgrade --quiet google-cloud-aiplatform
Confira a seguir um exemplo de código curto que usa o SDK da Vertex AI para Python:
Substitua PROJECT_ID
pelo ID do projeto Google Cloud e LOCATION
pelo local do projeto Google Cloud (por exemplo, us-central1
). Em seguida, mude o ID do modelo de gemini-1.5-flash-002
para gemini-2.0-flash
.
Mudar as chamadas do Gemini
Mude o código de previsão para usar o Gemini 2. Isso significa, no mínimo, mudar o nome do endpoint específico do modelo para um modelo do Gemini 2 em que você carrega o modelo.
A mudança exata do código vai variar de acordo com a forma como você implementou o aplicativo originalmente, especialmente se você usou o SDK da Gen AI ou o SDK da Vertex AI.
Depois de fazer as mudanças no código, execute testes de regressão e outros testes de software no código para garantir que ele seja executado. O objetivo desse teste é avaliar se o código funciona corretamente. Ele não avalia a qualidade das respostas do modelo.
Resolver mudanças de código interruptivas
- Recuperação dinâmica: mude para o Embasamento com a Pesquisa Google. Esse recurso exige o uso do SDK da Gen AI. Ele não é compatível com o SDK da Vertex AI.
- Filtros de conteúdo: observe as configurações padrão do filtro de conteúdo e mude o código se ele depender de um padrão que foi alterado.
- Parâmetro de amostragem de token
Top-K
: os modelos posteriores ao gemini-1.0-pro-vision não oferecem suporte à alteração do parâmetroTop-K
.
Nesta etapa, concentre-se apenas nas mudanças no código. Talvez seja necessário fazer outras mudanças, mas espere até iniciar a avaliação e considere o seguinte ajuste com base nos resultados da avaliação:
- Se você estiver mudando da recuperação dinâmica, talvez seja necessário testar
instruções do sistema para controlar quando a Pesquisa Google é usada (por exemplo,
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
), mas aguarde a avaliação antes de fazer mudanças. - Se você usou o parâmetro
Top-K
, ajuste outros parâmetros de amostragem de token, comoTop-P
, para conseguir resultados semelhantes.
Avaliação off-line
Repita a avaliação que você fez quando desenvolveu e lançou o app, qualquer outra avaliação off-line que você fez após o lançamento e qualquer avaliação adicional identificada na etapa 1. Se você achar que a avaliação não captura totalmente a amplitude e a profundidade da sua aplicação, faça outra avaliação.
Se você não tiver uma maneira automatizada de executar avaliações off-line, use o serviço de avaliação de IA generativa.
Se o aplicativo usa o ajuste fino, faça uma avaliação off-line antes de ajustar o modelo com o Gemini 2. A qualidade de saída aprimorada do Gemini 2 pode significar que seu aplicativo não precisa mais de um modelo ajustado.
Avalie os resultados da avaliação e ajuste os comandos e hiperparâmetros do Gemini 2
Se a avaliação off-line mostrar uma queda no desempenho com o Gemini 2, repita o processo no seu aplicativo da seguinte maneira até que o desempenho do Gemini corresponda ao modelo mais antigo:
- Engenharia iterativa dos comandos para melhorar a performance ("Hill Climbing"). Se você não conhece a escalada, consulte o treinamento on-line de escalada do Vertex Gemini. O otimizador de comandos da Vertex AI (notebook de exemplo) também pode ajudar.
- Se o seu aplicativo já usa o ajuste fino, tente ajustar o Gemini 2.
- Se o app for afetado pela mudança de ruptura da Recuperação dinâmica e do top-K, mude os parâmetros de amostragem de comando e token.
Teste de carga
Se o aplicativo exigir uma taxa de transferência mínima, faça testes de carga para garantir que a versão do Gemini 2 atenda aos requisitos de taxa de transferência.
O teste de carga precisa acontecer antes da avaliação on-line, porque ela exige a exposição do Gemini 2 ao tráfego de produção. Use a instrumentação de teste de carga atual para realizar esta etapa.
Se o aplicativo já atende aos requisitos de throughput, considere usar a capacidade de processamento provisionada. Você vai precisar de um Throughput provisionado de curto prazo adicional para cobrir o teste de carga enquanto o pedido de Throughput provisionado atual continua a veicular o tráfego de produção.
Avaliação on-line
Só prossiga para a avaliação on-line se a avaliação off-line mostrar uma qualidade de saída do Gemini adequada e o app exigir uma avaliação on-line.
A avaliação on-line é um caso especial de teste on-line. Tente usar as ferramentas e os procedimentos atuais da sua organização para avaliação on-line. Exemplo:
- Se a sua organização realiza testes A/B regularmente, faça um teste A/B que avalie a implementação atual do seu aplicativo em comparação com a versão do Gemini 2.
- Se a sua organização realiza implantações canário regularmente, faça isso com o Gemini 2 e meça as diferenças no comportamento do usuário.
A avaliação on-line também pode ser feita criando novos recursos de feedback e medição no seu aplicativo. Diferentes recursos de feedback e medição são adequados para diferentes aplicativos. Exemplo:
- Adição de botões "Gostei" e "Não gostei" ao lado das saídas do modelo e comparação das taxas de "Gostei" e "Não gostei" entre um modelo mais antigo e o Gemini 2.
- Apresente aos usuários o modelo mais antigo e as saídas do Gemini 2 lado a lado e peça que eles escolham o favorito.
- Rastreamento de como os usuários substituem ou ajustam manualmente o modelo mais antigo em comparação com as saídas do Gemini 2.
Esses tipos de mecanismos de feedback geralmente exigem a execução de uma versão do Gemini 2 do aplicativo em paralelo à versão atual. Essa implantação paralela às vezes é chamada de "modo sombra" ou "implantação azul-verde".
Se os resultados da avaliação on-line forem significativamente diferentes dos resultados da avaliação off-line, a avaliação off-line não vai capturar os principais aspectos do ambiente ativo ou da experiência do usuário. Use as descobertas da avaliação on-line para criar uma nova avaliação off-line para cobrir a lacuna exposta pela avaliação on-line e retorne à etapa 3.
Se você usa a capacidade de processamento provisionada, talvez seja necessário comprar mais capacidade de processamento provisionada de curto prazo para continuar atendendo aos requisitos de capacidade de processamento para usuários sujeitos a avaliação on-line.
Implantação de produção
Quando a avaliação mostrar que o Gemini 2 atende ou excede o desempenho de um modelo mais antigo, desative a versão atual do seu aplicativo em favor da versão do Gemini 2. Siga os procedimentos atuais da sua organização para o lançamento da produção.
Se você estiver usando a capacidade de processamento provisionada, mude a ordem da capacidade de processamento provisionada para o modelo Gemini 2 escolhido. Se você estiver lançando seu aplicativo de forma incremental, use a taxa de transferência provisionada de curto prazo para atender aos requisitos de taxa de transferência de dois modelos diferentes do Gemini.
Como melhorar o desempenho do modelo
Ao concluir a migração, use as dicas a seguir para maximizar a performance do modelo Gemini 2:
- Inspecione as instruções do sistema, os comandos e os exemplos de aprendizagem de poucos exemplos para inconsistências, contradições ou instruções e exemplos irrelevantes.
- Teste um modelo mais eficiente. Por exemplo, se você avaliou o Gemini 2.0 Flash-Lite, teste o Gemini 2.0 Flash.
- Examine os resultados de avaliação automática para garantir que eles correspondam ao julgamento humano, especialmente os resultados que usam um modelo de juiz. Verifique se as instruções do modelo de avaliação não contêm inconsistências ou ambigüidades.
- Uma maneira de melhorar as instruções do modelo de juiz é testar as instruções com vários humanos isoladamente e conferir se os julgamentos são consistentes. Se as pessoas interpretarem as instruções de forma diferente e emitirem julgamentos diferentes, as instruções do modelo de julgamento serão ambíguas.
- Ajustar o modelo Gemini 2.
- Examine as saídas de avaliação para procurar padrões que mostrem tipos específicos de falhas. O agrupamento de falhas em diferentes modelos, tipos ou categorias fornece dados de avaliação mais direcionados, o que facilita o ajuste das instruções para corrigir esses erros.
- Avalie de forma independente os diferentes componentes de IA generativa.
- Ajuste os parâmetros de amostragem de token.
Como receber ajuda
Se você precisar de ajuda, a Google Cloud oferece pacotes de suporte para atender às suas necessidades, como cobertura 24 horas, suporte por telefone e acesso a um gerente de suporte técnico. Para mais informações, consulte Suporte doGoogle Cloud .
A seguir
- Leia a lista de perguntas frequentes.
- Migrar da API PaLM para a API Gemini na Vertex AI.