Migra tu aplicación a Gemini 2 con la API de Gemini en Vertex AI
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta guía, se muestra cómo migrar aplicaciones de IA generativa de los modelos de Gemini 1.x y PaLM a los modelos de Gemini 2.
¿Por qué migrar a Gemini 2?
Gemini 2 ofrece mejoras significativas en el rendimiento en comparación con los modelos Gemini 1.x y PaLM, además de nuevas funciones. Además, cada versión del modelo tiene su propio período de disponibilidad y compatibilidad con versiones.
La actualización de la mayoría de las aplicaciones de IA generativa a Gemini 2 no debería requerir una reingeniería significativa de las instrucciones o el código. Sin embargo, algunas aplicaciones requieren cambios inmediatos, y estos cambios son difíciles de predecir sin ejecutar una instrucción primero a través de Gemini 2. Por lo tanto, se recomienda realizar pruebas de Gemini 2 antes de la migración.
Los cambios significativos en el código solo son necesarios para ciertos cambios drásticos o para usar las nuevas funciones de Gemini 2.
¿A qué modelo de Gemini 2 debo migrar?
Cuando elijas un modelo de Gemini 2 al que migrar, deberás tener en cuenta las funciones que requiere tu aplicación, así como el costo de esas funciones.
Para obtener una descripción general de las funciones del modelo Gemini 2, consulta Gemini 2. Para obtener una descripción general de todos los modelos de Google, consulta Modelos de Google.
Para comparar los modelos de Gemini disponibles, consulta la siguiente tabla.
En este documento, se describe un proceso de ocho pasos para migrar tu aplicación a Gemini 2. Usa el siguiente diagrama para navegar a cada paso.
Antes de comenzar
Paso 1: Completa los requisitos previos
Para realizar una migración sin problemas a Gemini 2, te recomendamos que abordes las siguientes inquietudes antes de comenzar el proceso de migración.
Aprobaciones regulatorias, de gobernanza y de seguridad de la información: Solicita de forma proactiva las aprobaciones que necesitas para Gemini 2 a las partes interesadas de seguridad de la información (InfoSec), riesgos y cumplimiento. Asegúrate de abordar las restricciones de cumplimiento y riesgo específicas del dominio, especialmente en industrias muy reguladas, como la atención médica y los servicios financieros. Ten en cuenta que los controles de seguridad de Gemini difieren entre los modelos de Gemini 2.
Diferencias de precios basadas en la modalidad y la tokenización: Consulta los precios de Gemini 2 para todas las modalidades (texto, código, imágenes y voz) de tu aplicación. Para obtener más información, consulta la página de precios de la IA generativa. Ten en cuenta que la entrada y salida de texto de Gemini 2 se cobra por token, mientras que la entrada y salida de texto de Gemini 1 se cobra por carácter.
Ajuste supervisado: Si tu aplicación de Gemini usa el ajuste supervisado, envía un nuevo trabajo de ajuste con Gemini 2. Te recomendamos que comiences con los hiperparámetros de ajuste predeterminados en lugar de volver a usar los valores de hiperparámetros que usaste con versiones anteriores de Gemini. Se optimizó el servicio de ajuste para Gemini 2. Por lo tanto, es posible que reutilizar los valores de hiperparámetros anteriores no genere los mejores resultados.
Pruebas de regresión: Existen tres tipos principales de pruebas de regresión cuando se actualiza a los modelos Gemini 2:
Pruebas de regresión de código: Pruebas de regresión desde una perspectiva de ingeniería de software y DevOps. Este tipo de prueba de regresión siempre es obligatorio.
Pruebas de regresión del rendimiento del modelo: Pruebas de regresión desde una perspectiva de ciencia de datos o aprendizaje automático. Esto significa que debes asegurarte de que el nuevo modelo de Gemini 2 proporcione resultados que sean, al menos, de la misma calidad que los del modelo de producción actual. Las pruebas de regresión del rendimiento del modelo son solo evaluaciones del modelo que se realizan como parte de un cambio en un sistema o en el modelo subyacente. Las pruebas de regresión del rendimiento del modelo se desglosan en lo siguiente:
Pruebas de rendimiento del modelo sin conexión: Evalúa la calidad de los resultados del modelo en un entorno de experimentación dedicado en función de varias métricas de calidad de los resultados del modelo.
Pruebas de rendimiento del modelo en línea: Evalúa la calidad de los resultados del modelo en una implementación en línea activa según los comentarios implícitos o explícitos de los usuarios.
Pruebas de carga: Evalúa cómo la aplicación controla grandes volúmenes de solicitudes de inferencia. Este tipo de prueba de regresión es obligatorio para las aplicaciones que requieren una capacidad de procesamiento aprovisionada.
Documenta los requisitos de evaluación y prueba del modelo
Paso 2: Documenta los requisitos de evaluación y pruebas
Prepárate para repetir las evaluaciones relevantes de cuando compilaste tu aplicación originalmente, junto con las evaluaciones relevantes que hayas realizado desde entonces.
Si crees que tus evaluaciones existentes no abarcan o miden de forma adecuada la amplitud de tareas que realiza tu aplicación, debes diseñar y preparar evaluaciones adicionales.
Si tu aplicación incluye RAG, uso de herramientas, flujos de trabajo de agentes complejos o cadenas de instrucciones, asegúrate de que tus datos de evaluación existentes permitan evaluar cada componente de forma independiente. De lo contrario, recopila ejemplos de entrada y salida para cada componente.
Si tu aplicación tiene un impacto especialmente alto o forma parte de un sistema más grande en tiempo real para los usuarios, debes incluir la evaluación en línea.
Actualizaciones y pruebas de código
Paso 3: Actualiza y prueba el código
Si tu aplicación de Gemini 1.x usa el SDK de Vertex AI, considera actualizar al SDK de Gen AI. Las nuevas funciones de Gemini 2 solo están disponibles en el SDK de IA generativa. Sin embargo, no es necesario cambiar al SDK de IA generativa si tu aplicación solo requiere funciones que están disponibles en el SDK de Vertex AI.
Elemento o aspecto
SDK de IA generativa
SDK de Vertex AI
Enfoque principal
Se optimizó para los modelos de Gemini y las nuevas funciones de IA generativa.
Una plataforma de Vertex AI más amplia, incluidos los flujos de trabajo de AA convencionales
Compatibilidad con funciones de Gemini 2
Compatibilidad total con todas las nuevas funciones de Gemini 2
Compatibilidad limitada; no se agregan funciones nuevas.
Recomendación
Se recomienda para aplicaciones nuevas o cuando se usan funciones avanzadas de Gemini 2.
Es adecuada si tu aplicación solo usa funciones comunes a ambos SDK y ya está integrada.
Te recomendamos que migres al SDK de IA generativa cuando actualices a Gemini 2.0. Si decides usar el SDK de IA generativa, el proceso de configuración es diferente al del SDK de Vertex AI. Para obtener más información, visita el SDK de IA generativa de Google.
Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values# with appropriate values for your project.exportGOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECTexportGOOGLE_CLOUD_LOCATION=globalexportGOOGLE_GENAI_USE_VERTEXAI=True
fromgoogleimportgenaifromgoogle.genai.typesimportHttpOptionsclient=genai.Client(http_options=HttpOptions(api_version="v1"))response=client.models.generate_content(model="gemini-2.5-flash",contents="How does AI work?",)print(response.text)# Example response:# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...# Here's a simplified overview:# ...
Reemplaza GOOGLE_CLOUD_PROJECT por el ID de tu proyecto de Google Cloud y reemplaza GOOGLE_CLOUD_LOCATION por la ubicación de tu proyecto de Google Cloud (por ejemplo, us-central1).
SDK de Vertex AI
Si reutilizas el SDK de Vertex AI, el proceso de configuración es el mismo para los modelos 1.0, 1.5 y 2.0. Para obtener más información, consulta Introducción al SDK de Vertex AI para Python.
Instala el SDK
pipinstall--upgrade--quietgoogle-cloud-aiplatform
La siguiente es una muestra de código corto que usa el SDK de Vertex AI para Python:
importvertexaifromvertexai.generative_modelsimportGenerativeModel# TODO(developer): Update and un-comment below line# PROJECT_ID = "your-project-id"vertexai.init(project=PROJECT_ID,location="us-central1")model=GenerativeModel("gemini-2.0-flash-001")response=model.generate_content("What's a good name for a flower shop that specializes in selling bouquets of dried flowers?")print(response.text)# Example response:# **Emphasizing the Dried Aspect:**# * Everlasting Blooms# * Dried & Delightful# * The Petal Preserve# ...
Reemplaza PROJECT_ID por el ID de tu proyecto de Google Cloud y reemplaza LOCATION por la ubicación de tu proyecto de Google Cloud (por ejemplo, us-central1). Luego, cambia el ID del modelo de gemini-1.5-flash-002 a gemini-2.0-flash.
Cómo cambiar tus llamadas de Gemini
Cambia tu código de predicción para usar Gemini 2. Como mínimo, esto significa cambiar el nombre del extremo del modelo específico a un modelo de Gemini 2 en el que cargues tu modelo.
El cambio exacto del código diferirá según cómo hayas implementado tu aplicación originalmente y, en especial, si usaste el SDK de IA generativa o el SDK de Vertex AI.
Después de realizar los cambios en el código, realiza pruebas de regresión de código y otras pruebas de software para asegurarte de que se ejecute. El objetivo de esta prueba es evaluar si el código funciona correctamente. No está diseñado para evaluar la calidad de las respuestas del modelo.
Cómo abordar los cambios de código que generan errores
Parámetro de muestreo de tokens Top-K: Los modelos posteriores a gemini-1.0-pro-vision no admiten el cambio del parámetro Top-K.
En este paso, enfócate solo en los cambios de código. Es posible que debas realizar otros cambios, pero espera hasta que comiences la evaluación y, luego, considera el siguiente ajuste en función de los resultados de la evaluación:
Si cambias de la recuperación dinámica, es posible que debas experimentar con las instrucciones del sistema para controlar cuándo se usa la Búsqueda de Google (por ejemplo, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."), pero espera a realizar la evaluación antes de hacer cambios inmediatos.
Si usaste el parámetro Top-K, ajusta otros parámetros de muestreo de tokens, como Top-P, para obtener resultados similares.
Evaluación sin conexión
Paso 4: Realiza la evaluación sin conexión
Repite la evaluación que hiciste cuando desarrollaste y lanzaste tu aplicación originalmente, cualquier evaluación sin conexión que hayas hecho después del lanzamiento y cualquier evaluación adicional que hayas identificado en el paso 1. Si crees que tu evaluación no captura completamente la amplitud y profundidad de tu solicitud, realiza una evaluación más detallada.
Si tu aplicación usa el ajuste fino, realiza la evaluación sin conexión antes de volver a ajustar el modelo con Gemini 2. Es posible que la calidad de salida mejorada de Gemini 2 signifique que tu aplicación ya no requiera un modelo ajustado.
Evalúa los resultados de la evaluación y ajusta las instrucciones y los hiperparámetros de Gemini 2
Paso 5: Evalúa los resultados y ajusta las instrucciones
Si tu evaluación sin conexión muestra una disminución del rendimiento con Gemini 2, itera en tu aplicación de la siguiente manera hasta que el rendimiento de Gemini coincida con el modelo anterior:
Si tu aplicación ya se basa en el ajuste fino, intenta ajustar Gemini 2.
Si tu aplicación se ve afectada por los cambios drásticos de la recuperación dinámica y Top-K, experimenta con cambiar la instrucción y los parámetros de muestreo de tokens.
Pruebas de carga
Paso 6: Realiza pruebas de carga
Si tu aplicación requiere una cierta capacidad de procesamiento mínima, realiza pruebas de carga para asegurarte de que la versión de Gemini 2 de tu aplicación cumpla con tus requisitos de capacidad de procesamiento.
Las pruebas de carga deben realizarse antes de la evaluación en línea, ya que esta requiere exponer Gemini 2 al tráfico de producción. Usa la instrumentación de pruebas de carga existente para realizar este paso.
Si tu aplicación ya cumple con los requisitos de capacidad de procesamiento, considera usar la capacidad de procesamiento aprovisionada. Necesitarás capacidad de procesamiento aprovisionada adicional a corto plazo para cubrir las pruebas de carga mientras tu pedido de capacidad de procesamiento aprovisionada existente sigue publicando tráfico de producción.
Evaluación en línea
Paso 7: Realiza la evaluación en línea
Continúa con la evaluación en línea solo si la evaluación sin conexión muestra una calidad de salida de Gemini adecuada y tu app requiere una evaluación en línea.
La evaluación en línea es un caso especial de las pruebas en línea. Intenta usar las herramientas y los procedimientos existentes de tu organización para la evaluación en línea. Por ejemplo:
Si tu organización realiza pruebas A/B con regularidad, realiza una prueba A/B que evalúe la implementación actual de tu aplicación en comparación con la versión de Gemini 2.
Si tu organización realiza implementaciones Canary con frecuencia, asegúrate de hacerlo con Gemini 2 y medir las diferencias en el comportamiento de los usuarios.
También puedes realizar la evaluación en línea si incorporas nuevas funciones de medición y comentarios en tu aplicación. Las diferentes capacidades de medición y comentarios son adecuadas para diferentes aplicaciones. Por ejemplo:
Agregar botones de Me gusta y No me gusta junto a los resultados del modelo y comparar las tasas de Me gusta y No me gusta entre un modelo anterior y Gemini 2
Presentar a los usuarios el modelo anterior y los resultados de Gemini 2 en paralelo y pedirles que elijan su favorito
Hacer un seguimiento de la frecuencia con la que los usuarios anulan o ajustan manualmente los resultados del modelo anterior en comparación con Gemini 2
Este tipo de mecanismos de comentarios a menudo requieren ejecutar una versión de Gemini 2 de tu aplicación en paralelo con la versión existente. Esta implementación en paralelo a veces se denomina "modo de sombra" o "implementación azul-verde".
Si los resultados de la evaluación en línea difieren significativamente de los resultados de la evaluación sin conexión, significa que tu evaluación sin conexión no captura aspectos clave del entorno en vivo o de la experiencia del usuario. Usa los resultados de la evaluación en línea para diseñar una nueva evaluación sin conexión que cubra la brecha que expuso la evaluación en línea y, luego, vuelve al paso 3.
Una vez que la evaluación muestre que Gemini 2 cumple o supera el rendimiento de un modelo anterior, rechaza la versión existente de tu aplicación y usa la versión de Gemini 2. Sigue los procedimientos existentes de tu organización para el lanzamiento en producción.
Si usas la capacidad de procesamiento aprovisionada, cambia tu pedido de capacidad de procesamiento aprovisionada al modelo de Gemini 2 que elegiste. Si lanzas tu aplicación de forma incremental, usa la capacidad de procesamiento aprovisionada a corto plazo para cumplir con los requisitos de capacidad de procesamiento de dos modelos de Gemini diferentes.
Mejora el rendimiento del modelo
A medida que completes la migración, sigue las siguientes sugerencias para maximizar el rendimiento del modelo de Gemini 2:
Prueba un modelo más potente. Por ejemplo, si evaluaste Gemini 2.0 Flash-Lite, prueba Gemini 2.0 Flash.
Examina los resultados de la evaluación automatizada para asegurarte de que coincidan con el juicio humano, en especial los resultados que usan un modelo de juez. Asegúrate de que las instrucciones de tu modelo de juez no contengan inconsistencias ni ambigüedades.
Una forma de mejorar las instrucciones del modelo de juez es probarlas con varias personas de forma aislada y ver si sus juicios son coherentes. Si las personas interpretan las instrucciones de manera diferente y emiten juicios distintos, las instrucciones de tu modelo de juez son ambiguas.
Examina los resultados de la evaluación para buscar patrones que muestren tipos específicos de fallas. Agrupar las fallas en diferentes modelos, tipos o categorías te brinda datos de evaluación más segmentados, lo que facilita el ajuste de las instrucciones para abordar estos errores.
Asegúrate de evaluar de forma independiente los diferentes componentes de la IA generativa.
Si necesitas ayuda, Google Cloud ofrece paquetes de asistencia para satisfacer tus necesidades, como asistencia telefónica, cobertura las 24 horas, todos los días y acceso a un administrador de asistencia técnica. Para obtener más información, consulta la asistencia de Google Cloud.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-07-09 (UTC)"],[],[]]