Esta página se ha traducido con Cloud Translation API.

Modelos admitidos

En las siguientes tablas se muestran los modelos que admiten el rendimiento aprovisionado, el rendimiento de cada unidad de escalado de IA generativa (GSU) y las tasas de reducción de cada modelo.

Modelos de Google

El rendimiento aprovisionado solo admite modelos a los que llamas directamente desde tu proyecto mediante el ID de modelo específico, no un alias de modelo. Para usar el rendimiento aprovisionado y hacer llamadas a la API de un modelo, debes usar el ID de versión del modelo específico (por ejemplo, gemini-2.0-flash-001) y no un alias de versión del modelo.

Además, el rendimiento aprovisionado no admite modelos a los que llamen otros productos de Vertex AI, como Vertex AI Agents y Vertex AI Search. Por ejemplo, si haces llamadas a la API de Gemini 2.0 Flash mientras usas Vertex AI Search, tu pedido de rendimiento aprovisionado de Gemini 2.0 Flash no garantizará las llamadas realizadas por Vertex AI Search.

El rendimiento aprovisionado no admite llamadas de predicción por lotes.

En la siguiente tabla se muestran el rendimiento, el incremento de compra y las tasas de reducción de los modelos de Google que admiten el rendimiento aprovisionado. El rendimiento por segundo se define como la entrada de la petición y la salida generada en todas las solicitudes por segundo.

Para saber cuántos tokens necesita tu carga de trabajo, consulta el tokenizer del SDK o la API countTokens.

Modelo	Rendimiento por segundo por GSU	Unidades	Incremento mínimo de compra de GSU	Ritmos de reducción
Gemini 2.5 Flash con la API Live Última versión admitida: `gemini-live-2.5-flash`	1620	Tokens	1	1 token de texto de entrada = 1 token de texto de entrada 1 token de audio de entrada = 6 tokens de texto de entrada 1 token de vídeo de entrada = 6 tokens de texto de entrada 1 token de memoria de sesión de entrada = 1 token de texto de entrada 1 token de texto de salida = 4 tokens de texto de entrada 1 token de audio de salida = 24 tokens de texto de entrada
Gemini 2.5 Flash Image Última versión admitida: `gemini-2.5-flash-image`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 9 tokens 1 token de imagen de salida = 100 tokens
Gemini 2.5 Flash-Lite Última versión admitida (GA): `gemini-2.5-flash-lite` Última versión admitida (vista previa): `gemini-2.5-flash-lite-preview-09-2025`	8070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de audio de entrada = 3 tokens 1 token de texto de respuesta de salida = 4 tokens 1 token de texto de razonamiento de salida = 4 tokens
Gemini 2.5 Flash con audio nativo de la API Live Última versión admitida: `gemini-live-2.5-flash-preview-native-audio-09-2025` (vista previa)	1620	Tokens	1	1 token de texto de entrada = 1 token 1 token de audio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagen de entrada = 6 tokens 1 token de memoria de sesión de entrada = 1 token 1 token de texto de salida = 4 tokens 1 token de audio de salida = 24 tokens
Gemini 2.5 Pro Última versión admitida: `gemini-2.5-pro`	650	Tokens	1	Menos de 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 8 tokens 1 token de texto de razonamiento de salida = 8 tokens Más de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 12 tokens 1 token de texto de razonamiento de salida = 12 tokens
Gemini 2.5 Flash Última versión admitida (GA): `gemini-2.5-flash` Última versión admitida (vista previa): `gemini-2.5-flash-preview-09-2025`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de audio de entrada = 4 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de razonamiento de salida = 9 tokens
Gemini 2.0 Flash Última versión admitida: `gemini-2.0-flash-001`	3360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de audio de entrada = 7 tokens 1 token de texto de salida = 4 tokens
Gemini 2.0 Flash-Lite Última versión admitida: `gemini-2.0-flash-lite-001`	6720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de salida = 4 tokens
Veo 3 Última versión admitida: `veo-3.0-generate-001`	0,0040	Segundos de vídeo	34	1 segundo de vídeo de salida = 1 segundo de vídeo de salida
Veo 3 Última versión admitida: `veo-3.0-generate-001`	0,0040	Duración del vídeo y el audio en segundos	67	1 segundo de vídeo y audio de salida = 2 segundos de vídeo de salida
Veo 3 Fast Última versión admitida: `veo-3.0-fast-generate-001`	0,0080	Segundos de vídeo	17	1 segundo de vídeo de salida = 1 segundo de vídeo de salida
	0,0080	Duración del vídeo y el audio en segundos	25	1 segundo de vídeo y audio de salida = 1,45 segundos de vídeo de salida
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0,015	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 4 Generate `imagen-4.0-generate-001`	0,02	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 4 - Generación rápida `imagen-4.0-fast-generate-001`	0,04	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
Imagen 3 - Fast	0,05	Imágenes	1	Solo las imágenes de salida se tienen en cuenta para calcular tu cuota de capacidad de procesamiento aprovisionada.
MedLM medium Precaución: MedLM está obsoleto. El acceso a MedLM dejará de estar disponible a partir del 29 de septiembre del 2025.	2000	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 2 caracteres
MedLM grande Advertencia: MedLM está obsoleto. El acceso a MedLM dejará de estar disponible a partir del 29 de septiembre del 2025.	200	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres
MedLM large 1.5 Precaución: MedLM está obsoleto. El acceso a MedLM dejará de estar disponible a partir del 29 de septiembre del 2025.	200	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres

Para obtener información sobre las funciones de un modelo y los límites de entrada o salida, consulta la documentación del modelo.

Solicitar acceso: el modelo gemini-live-2.5-flash está en GA privado. Para obtener información sobre cómo acceder a esta versión, consulta la página de solicitud de acceso.

Puedes cambiarte a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de discontinuación, consulta Modelos de Google.

Para obtener más información sobre las ubicaciones admitidas, consulta Ubicaciones disponibles.

Compatibilidad con modelos de endpoint global

El rendimiento aprovisionado admite el endpoint global para los siguientes modelos:

Modelo	Versión de modelo más reciente admitida
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (vista previa) `gemini-2.5-flash-lite` (GA)
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (vista previa) `gemini-2.5-flash` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

El tráfico que supera la cuota de capacidad de procesamiento aprovisionada usa el endpoint global de forma predeterminada.

Para asignar el throughput aprovisionado al endpoint global de un modelo, selecciona global como región cuando hagas un pedido de throughput aprovisionado.

Compatibilidad con modelos ajustados con supervisión

Se admite lo siguiente en los modelos de Google que admiten ajustes con supervisión:

El rendimiento aprovisionado se puede aplicar tanto a los modelos base como a las versiones de esos modelos base ajustadas con supervisión.
Los endpoints de modelos ajustados con supervisión y su número de modelos base correspondiente se incluyen en la misma cuota de rendimiento aprovisionado.

Por ejemplo, el rendimiento aprovisionado comprado para gemini-2.0-flash-lite-001 en un proyecto específico prioriza las solicitudes que se realizan desde versiones ajustadas supervisadas de gemini-2.0-flash-lite-001 creadas en ese proyecto. Usa el encabezado adecuado para controlar el comportamiento del tráfico.

Modelos de partners

En la siguiente tabla se muestran el rendimiento, el incremento de compra y las tasas de consumo de los modelos de partners que admiten el rendimiento aprovisionado. Los modelos de Claude se miden en tokens por segundo, que se definen como el total de tokens de entrada y salida de todas las solicitudes por segundo.

Modelo	Rendimiento por GSU (tokens/seg.)	Compra mínima de GSU	Incremento de compra de GSU	Ritmos de reducción
Claude Sonnet 4.5 de Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token 200.000 tokens de entrada o más: 1 token de entrada = 2 tokens 1 token de salida = 7,5 tokens 1 token de escritura en caché = 2,5 tokens 1 token de acierto de caché = 0,2 token
Claude Opus 4.1 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude Haiku 4.5 de Anthropic	1050	8	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude Opus 4 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude Sonnet 4 de Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token 200.000 tokens de entrada o más: 1 token de entrada = 2 tokens 1 token de salida = 7,5 tokens 1 token de escritura en caché = 2,5 tokens 1 token de acierto de caché = 0,2 token
Claude 3.7 Sonnet de Anthropic	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude 3.5 Sonnet v2 de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude 3.5 Haiku de Anthropic	2000	10	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude 3 Opus de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude 3 Haiku de Anthropic	4200	5	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token
Claude 3.5 Sonnet de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1,25 tokens 1 token de acierto de caché = 0,1 token

Para obtener información sobre las ubicaciones admitidas, consulta la disponibilidad de la región de Claude de Anthropic. Para pedir el servicio de Provisioned Throughput para modelos de Anthropic, ponte en contacto con tu Google Cloud representante de cuentas.

Siguientes pasos

Calcula los requisitos de Provisioned Throughput.