Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.
Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos de IA en Model Garden.
Modelos de Gemini
En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini. Para obtener más información sobre los detalles de la API, consulta la referencia de la API de Gemini.
Para explorar un modelo en la consola de Google Cloud, selecciona su tarjeta de modelo en Model Garden.
Modelo | Entradas | Resultados | Caso práctico | Prueba el modelo |
---|---|---|---|---|
Gemini 1.5 Flash |
Texto, código, imágenes, audio, video, video con audio, PDF | Texto | Proporciona velocidad y eficiencia para apps de gran volumen, calidad y rentabilidad. | Prueba el modelo Gemini 1.5 Flash |
Gemini 1.5 Pro |
Texto, código, imágenes, audio, video, video con audio, PDF | Texto | Admite mensajes de texto o chat para una respuesta de texto o código. : Admite la comprensión del contexto a largo plazo hasta el límite máximo de token de entrada. |
Prueba el modelo Gemini 1.5 Pro |
Gemini 1.0 Pro |
Texto | Texto | El modelo con mejor rendimiento para una amplia gama de tareas de solo texto. | Ir a la tarjeta de modelo de Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
Texto, imágenes, audio, video, video con audio, PDF | Texto | El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones. | Prueba el modelo Gemini 1.0 Pro Vision |
En la siguiente información, se proporcionan detalles sobre cada modelo de Gemini.
Gemini 1.5 Flash
Descripción
Un modelo multimodal diseñado para aplicaciones rentables y de gran volumen, y que ofrece velocidad y eficiencia para compilar aplicaciones rápidas y de bajo costo que no afectan la calidad.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | Sí (solo entrada de texto) |
Ajuste | Sí |
Instrucción del sistema | Sí. Consulta Usa las instrucciones del sistema. |
Compatibilidad con JSON | Sí |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 1,048,576 |
Cantidad máxima de tokens de salida: 8,192 |
Tamaño máximo de la imagen sin formato: 20 MB |
Tamaño máximo de la imagen codificada en base64: 7 MB |
Cantidad máxima de imágenes por instrucción: 3,000 |
Duración máxima del video: 1 hora |
Cantidad máxima de videos por instrucción: 10 |
Duración máxima de audio: aproximadamente 8.4 horas |
Audio máximo por instrucción: 1 |
Tamaño máximo de PDF: 30 MB |
Datos de entrenamiento: hasta mayo de 2024 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Versiones estables
Modelo Gemini 1.5 Flash | Fecha de lanzamiento | Fecha de descontinuación | Temas destacados de las versiones de modelos |
---|---|---|---|
gemini-1.5-flash-002 | 24 de septiembre de 2024 | 24 de septiembre de 2025 | Mejora de la calidad general del modelo con ganancias significativas en las siguientes categorías:
Gemini 1.5 Flash 002 usa cuota compartida dinámica. A veces, gemini-1.5-flash-002 puede responder en tu idioma local, incluso si la instrucción está escrita en otro idioma. Este problema solo se aplica a las instrucciones que no están en inglés. Para mitigar este problema, te recomendamos que agregues lo siguiente a las instrucciones del sistema para asegurarte de que el modelo responda en el mismo idioma que la instrucción:
|
gemini-1.5-flash-001 | 24 de mayo de 2024 | 24 de mayo de 2025 | Versión inicial de Gemini 1.5 Flash. |
Versiones preliminares
Nombre del modelo | Nombre de la vista previa | Fecha de descontinuación |
---|---|---|
Gemini 1.5 Flash (versión preliminar) | gemini-1.5-flash-preview-0514 |
24 de junio de 2024 |
Gemini 1.5 Pro
Descripción
Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Este modelo admite la comprensión del contexto a largo plazo hasta el límite máximo de token de entrada.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | Sí (solo entrada de texto) |
Ajuste | Sí |
Instrucción del sistema | Sí. Consulta Usa las instrucciones del sistema. |
Compatibilidad con JSON | Sí |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 2,097,152 |
Cantidad máxima de tokens de salida: 8,192 |
Cantidad máxima de imágenes por instrucción: 3,000 |
Duración máxima del video (solo fotogramas): aproximadamente una hora |
Duración máxima del video (fotograma y audio): aproximadamente 45 minutos |
Cantidad máxima de videos por instrucción: 10 |
Duración máxima de audio: aproximadamente 8.4 horas |
Audio máximo por instrucción: 1 |
Tamaño máximo de PDF: 30 MB |
Datos de entrenamiento: hasta mayo de 2024 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Versiones estables
Modelo Gemini 1.5 Pro | Fecha de lanzamiento | Fecha de descontinuación | Temas destacados de las versiones de modelos |
---|---|---|---|
gemini-1.5-pro-002 | 24 de septiembre de 2024 | 24 de septiembre de 2025 | Mejora de la calidad general del modelo con ganancias significativas en las siguientes categorías:
Gemini 1.5 Pro 002 usa cuota compartida dinámica. A veces, gemini-1.5-pro-002 puede responder en tu idioma local, incluso si la instrucción está escrita en otro idioma. Este problema solo se aplica a las instrucciones que no están en inglés. Para mitigar este problema, te recomendamos que agregues lo siguiente a las instrucciones del sistema para asegurarte de que el modelo responda en el mismo idioma que la instrucción:
|
gemini-1.5-pro-001 | 24 de mayo de 2024 | 24 de mayo de 2025 | Versión inicial de Gemini 1.5 Pro. |
Versiones preliminares
Nombre del modelo | ID de modelo | Fecha de descontinuación |
---|---|---|
Gemini 1.5 Pro (versión preliminar) | gemini-1.5-pro-preview-0514 |
24 de junio de 2024 |
Gemini 1.5 Pro (versión preliminar) | gemini-1.5-pro-preview-0409 (a punta a y usa
gemini-1.5-pro-preview-0514 ) |
14 de junio de 2024 |
Gemini 1.0 Pro
Descripción
El modelo con mejor rendimiento y características para una amplia gama de tareas de solo texto. Este modelo solo admite texto como entrada.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | Sí (solo entrada de texto) |
Ajuste | Sí. El ajuste supervisado es compatible con gemini-1.0-pro-002. |
Instrucción del sistema | Sí. Compatible con gemini-1.0-pro-002. Consulta Usa las instrucciones del sistema. |
Compatibilidad con JSON | Sí |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 32,760 |
Cantidad máxima de tokens de salida: 8,192 |
Datos de entrenamiento: hasta febrero de 2023 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Versiones estables
Modelo Gemini 1.0 Pro | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.0-pro-001 | 15 de febrero de 2024 | 9 de abril de 2025 |
gemini-1.0-pro-002 | 9 de abril de 2024 | 9 de abril de 2025 |
Versiones actualizadas automáticamente
Nombre del modelo | Nombre actualizado automáticamente | Versión estable a la que se hace referencia |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
Descripción
El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones. Gemini 1.0 Pro Vision admite texto, imágenes y video como entradas.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | No |
Ajuste | No |
Instrucción del sistema | No |
Compatibilidad con JSON | No |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 16,384 |
Cantidad máxima de tokens de salida: 2,048 |
Cantidad máxima de imágenes por instrucción: 16 |
Duración máxima del video: 2 minutos |
Cantidad máxima de videos por instrucción: 1 |
Datos de entrenamiento: hasta febrero de 2023 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Versiones estables
Modelo Gemini 1.0 Pro Vision | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.0-pro-vision-001 | 15 de febrero de 2024 | 9 de abril de 2025 |
Alias actualizados automáticamente
Nombre del modelo | Nombre actualizado automáticamente | Versión estable a la que se hace referencia |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
Descripción
El modelo de texto más capaz de Google, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento. Gemini 1.0 Ultra solo admite texto como entrada.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | No |
Ajuste | No |
Instrucción del sistema | No |
Compatibilidad con JSON | No |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 8,192 |
Cantidad máxima de tokens de salida: 2,048 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Gemini 1.0 Ultra Vision
Descripción
El modelo de visión multimodal más capaz de Google, optimizado para admitir entradas de texto, imágenes y video conjuntas.
Funciones
Función | Disponibilidad |
---|---|
Fundamentos | No |
Ajuste | No |
Instrucción del sistema | No |
Compatibilidad con JSON | No |
Capacidad de procesamiento aprovisionada | Sí. Consulta Modelos compatibles. |
Especificaciones
Especificación |
---|
Cantidad máxima de tokens de entrada: 8,192 |
Cantidad máxima de tokens de salida: 2,048 |
Versiones del modelo
Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.
Compatibilidad con idiomas de Gemini
Todos los modelos de Gemini pueden comprender y responder en los siguientes idiomas:
Árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)
Los modelos Gemini 1.5 Pro y Gemini 1.5 Flash pueden entender y responder en los siguientes idiomas adicionales:
Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Modelos de Gemma
En la siguiente tabla, se resumen los modelos de Gemma.
Modelo | Entradas | Resultados | Caso práctico | Prueba el modelo |
---|---|---|---|---|
Gemma Detalles del modelo |
Texto | Texto | Un modelo de texto abierto pequeño y liviano que admite la generación, resumen y extracción de texto. Se puede implementar en entornos con recursos limitados. | Probar Gemma |
CodeGemma Detalles del modelo |
Texto, código, PDF | Texto | Una colección de modelos de código abierto ligeros compilados sobre Gemma. Ideal para la generación y finalización de código. | Prueba CodeGemma |
PaliGemma Detalles del modelo |
Texto, imágenes | Texto | Un modelo ligero de lenguaje de visión (VLM). Ideal para tareas de leyenda de imágenes y tareas visuales de preguntas y respuestas. | Prueba PaliGemma |
Compatibilidad de Gemma con idiomas
Gemma solo admite el idioma inglés.
Modelos de embeddings
En la siguiente tabla, se resumen los modelos disponibles en la API de incorporaciones:
Nombre del modelo | Descripción | Especificaciones | Prueba el modelo |
---|---|---|---|
Embeddings para texto ( textembedding-gecko@001, )Detalles del modelo |
Muestra embeddings para entradas de texto en inglés.
Admite el ajuste supervisado de embeddings para modelos de texto, solo en inglés. |
Entrada máxima de tokens: 3,072 (textembedding-gecko@001 ).Otros: 2,048. Dimensiones de embeddings: text-embedding-004 : <=768. Otros: 768. |
Prueba Embeddings para texto |
Embeddings para texto multilingüe ( textembedding-gecko-multilingual@001 ,text-multilingual-embedding-002 ).Detalles del modelo |
Muestra embeddings para entradas de texto de más de 100 idiomas Admite el ajuste supervisado del modelo text-multilingual-embedding-002 . Admite más de 100 idiomas. |
Entrada máxima de tokens: 2,048. Dimensiones de embeddings: text-multilingual-embedding-002 : <=768. Otros: 768. |
Prueba Embeddings para texto multilingüe |
Embeddings para multimodales(multimodalembedding) Detalles del modelo |
Muestra incorporaciones para entradas de texto, imagen y video a fin de comparar contenido entre diferentes modelos. Convierte texto, imagen y video en el mismo espacio vectorial. El video solo admite 1,408 dimensiones. Solo en inglés. |
Entrada máxima de tokens: 32, Tamaño máximo de la imagen: 20 MB. Duración máxima del video: dos minutos. Dimensión de embeddings: 128, 256, 512 o 1,408 para entrada de texto + imagen; 1,408 para entrada de video. |
Prueba Embeddings para multimodales |
Compatibilidad con idiomas de embeddings
Los modelos de incorporación multilingües de texto admiten los siguientes idiomas:
afrikaans, albanés, amárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, jemer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa, polaco, portugués, punyabí, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, cingalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.
Modelo de Imagen
En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:
Modelo | Entradas | Resultados | Caso práctico | Prueba el modelo |
---|---|---|---|---|
Imagen ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 ,
imagegeneration@006 ,
imagegeneration@005 ,
imagegeneration@002 )Detalles del modelo |
Texto (generación), Imágenes (edición) | Imágenes | Este modelo admite la generación y edición de imágenes para crear imágenes de alta calidad en segundos.
La función de edición admite la eliminación y la inserción de objetos, el retoque y la edición de productos. |
Probar Imagen |
Compatibilidad con idiomas de Imagen 3
Imagen 3 admite los siguientes idiomas:
Inglés, chino, hindi, japonés, coreano, portugués y español.
Modelo de finalización de código
En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:
Modelo | Entradas | Resultados | Caso práctico | Prueba el modelo |
---|---|---|---|---|
Codey para la finalización de código ( code-gecko ) Detalles del modelo |
Código en idiomas compatibles | Código en idiomas compatibles | Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe. | Prueba Codey para la finalización de código |
Compatibilidad con el lenguaje del modelo de finalización de código
El modelo de finalización de código admite el idioma inglés.
Modelos de MedLM
En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:
Nombre del modelo | Descripción | Especificaciones | Prueba el modelo |
---|---|---|---|
MedLM-medium (medlm-medium )Detalles del modelo |
Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la
tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. Proporciona una mejor capacidad de procesamiento y, además, incluye datos más recientes que el modelo medlm-large . |
Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
Prueba MedLM-medium |
MedLM-large (medlm-large )Detalles del modelo |
Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la
tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. |
Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 1,024 |
Prueba MedLM-large |
Compatibilidad con la capacidad de procesamiento aprovisionada de MedLM
MedLM-medium y MedLM-large admiten la capacidad de procesamiento aprovisionada. Consulta Modelos compatibles.
Compatibilidad con idiomas de MedLM
El modelo MedLM admite el idioma en inglés.
Ubicaciones
Para obtener una lista de las ubicaciones en las que están disponibles estos modelos, consulta IA generativa en ubicaciones de Vertex AI.
Versiones del modelo
Para obtener información sobre las versiones de modelos, consulta Versiones de modelos.
Explora todos los modelos en Model Garden
Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.
Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.
Próximos pasos
- Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
- Obtén información sobre cómo probar los mensajes de texto.
- Obtén información para probar las instrucciones de chat.
- Explora modelos previamente entrenados en Model Garden.
- Obtén información para ajustar un modelo de base.
- Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.
- Obtén información para controlar el acceso a modelos específicos en Model Garden con una política de la organización de Model Garden.