Se usó la API de Cloud Translation para traducir esta página.

Modelos compatibles

En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.

Modelos de Google

La capacidad de procesamiento aprovisionada solo admite modelos a los que llamas directamente desde tu proyecto con el ID de modelo específico y no con un alias de modelo. Para usar la capacidad de procesamiento aprovisionada y realizar llamadas a la API de un modelo, debes usar el ID de versión del modelo específico (por ejemplo, gemini-2.0-flash-001) y no un alias de versión del modelo.

Además, el procesamiento aprovisionado no admite modelos que llamen otros productos de Vertex AI, como Vertex AI Agents y Vertex AI Search. Por ejemplo, si realizas llamadas a la API de Gemini 2.0 Flash mientras usas Vertex AI Search, tu pedido de capacidad de procesamiento aprovisionada para Gemini 2.0 Flash no garantizará las llamadas que realice Vertex AI Search.

El rendimiento aprovisionado no admite llamadas de predicción por lotes.

En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Tu capacidad de procesamiento por segundo se define como tu entrada de instrucción y tu salida generada en todas las solicitudes por segundo.

Para saber cuántos tokens requiere tu carga de trabajo, consulta el tokenizador del SDK o la API de countTokens.

Modelo	Capacidad de procesamiento por segundo y por GSU	Unidades	Incremento mínimo de compra de GSU	Tasas de consumo
Gemini 2.5 Flash con la API de Live Versión compatible más reciente: `gemini-live-2.5-flash`	1620	Tokens	1	1 token de texto de entrada = 1 token de texto de entrada 1 token de audio de entrada = 6 tokens de texto de entrada 1 token de video de entrada = 6 tokens de texto de entrada 1 token de memoria de sesión de entrada = 1 token de texto de entrada 1 token de texto de salida = 4 tokens de texto de entrada 1 token de audio de salida = 24 tokens de texto de entrada
Gemini 2.5 Flash Image Versión compatible más reciente: `gemini-2.5-flash-image`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de texto de salida = 9 tokens 1 token de imagen de salida = 100 tokens
Gemini 2.5 Flash-Lite Versión compatible más reciente (GA): `gemini-2.5-flash-lite` Versión compatible más reciente (vista previa): `gemini-2.5-flash-lite-preview-09-2025`	8070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 3 tokens 1 token de texto de respuesta de salida = 4 tokens 1 token de texto de razonamiento de salida = 4 tokens
Gemini 2.5 Flash con audio nativo de la API de Live Versión compatible más reciente: `gemini-live-2.5-flash-preview-native-audio-09-2025` (versión preliminar)	1620	Tokens	1	1 token de texto de entrada = 1 token 1 token de audio de entrada = 6 tokens 1 token de video de entrada = 6 tokens 1 token de imagen de entrada = 6 tokens 1 token de memoria de sesión de entrada = 1 token 1 token de texto de salida = 4 tokens 1 token de audio de salida = 24 tokens
Gemini 2.5 Pro Versión compatible más reciente: `gemini-2.5-pro`	650	Tokens	1	Menos de 200,000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de respuesta de salida = 8 tokens 1 token de texto de explicación de salida = 8 tokens Más de 200,000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagen de entrada = 2 tokens 1 token de video de entrada = 2 tokens 1 token de audio de entrada = 2 tokens 1 token de texto de respuesta de salida = 12 tokens 1 token de texto de explicación de salida = 12 tokens
Gemini 2.5 Flash Versión compatible más reciente (GA): `gemini-2.5-flash` Versión compatible más reciente (vista previa): `gemini-2.5-flash-preview-09-2025`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 4 tokens 1 token de texto de respuesta de salida = 9 tokens 1 token de texto de explicación de salida = 9 tokens
Gemini 2.0 Flash Versión compatible más reciente: `gemini-2.0-flash-001`	3360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 7 tokens 1 token de texto de salida = 4 tokens
Gemini 2.0 Flash-Lite Versión compatible más reciente: `gemini-2.0-flash-lite-001`	6720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagen de entrada = 1 token 1 token de video de entrada = 1 token 1 token de audio de entrada = 1 token 1 token de texto de salida = 4 tokens
Veo 3 Versión compatible más reciente: `veo-3.0-generate-001`	0.0040	Segundos de video	34	1 segundo de video de salida = 1 segundo de video de salida
	0.0040	Segundos de audio y video	67	1 segundo de audio y video de salida = 2 segundos de video de salida
Veo 3 Fast Versión compatible más reciente: `veo-3.0-fast-generate-001`	0.0080	Segundos de video	17	1 segundo de video de salida = 1 segundo de video de salida
	0.0080	Segundos de audio y video	25	1 segundo de video y audio de salida = 1.45 segundos de video de salida
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0.015	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 4 Generate `imagen-4.0-generate-001`	0.02	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 4 Fast Generate `imagen-4.0-fast-generate-001`	0.04	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0.02	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0.025	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Fast	0.05	Imágenes	1	Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
MedLM medium Precaución: MedLM está obsoleto. El acceso a MedLM ya no estará disponible a partir del 29 de septiembre de 2025.	2,000	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 2 caracteres
MedLM grande Precaución: MedLM está obsoleto. El acceso a MedLM ya no estará disponible a partir del 29 de septiembre de 2025.	200	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres
MedLM large 1.5 Precaución: MedLM está obsoleto. El acceso a MedLM ya no estará disponible a partir del 29 de septiembre de 2025.	200	Caracteres	1	1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres

Para obtener información sobre las capacidades de un modelo y los límites de entrada o salida, consulta la documentación del modelo.

Solicita acceso: El modelo gemini-live-2.5-flash se encuentra en DG privada. Para obtener información sobre el acceso a esta versión, consulta la página de solicitud de acceso.

Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de interrupción, consulta Modelos de Google.

Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.

Compatibilidad con el modelo de extremo global

La capacidad de procesamiento aprovisionada admite el extremo global para los siguientes modelos:

Modelo	Versión del modelo compatible más reciente
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (vista previa) `gemini-2.5-flash-lite` (GA)
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (vista previa) `gemini-2.5-flash` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

El tráfico que supera la cuota de capacidad de procesamiento aprovisionada usa el extremo global de forma predeterminada.

Para asignar capacidad de procesamiento aprovisionada al extremo global de un modelo, selecciona global como la región cuando realices un pedido de capacidad de procesamiento aprovisionada.

Compatibilidad con modelos ajustados de forma supervisada

Los siguientes elementos son compatibles con los modelos de Google que admiten la optimización supervisada:

La capacidad de procesamiento aprovisionada se puede aplicar tanto a los modelos base como a las versiones ajustadas de forma supervisada de esos modelos base.
Los extremos de modelos ajustados de forma supervisada y sus modelos base correspondientes se incluyen en la misma cuota de capacidad de procesamiento aprovisionada.

Por ejemplo, el rendimiento aprovisionado comprado para gemini-2.0-flash-lite-001 para un proyecto específico prioriza las solicitudes que se realizan desde versiones ajustadas con supervisión de gemini-2.0-flash-lite-001 creadas dentro de ese proyecto. Usa el encabezado adecuado para controlar el comportamiento del tráfico.

Modelos de socios

En la siguiente tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, lo que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.

Modelo	Capacidad de procesamiento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Tasas de consumo
Claude Sonnet 4.5 de Anthropic	350	25	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché = 2.5 tokens 1 token de acierto de caché = 0.2 token
Claude Opus 4.1 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude Haiku 4.5 de Anthropic	1050	8	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude Opus 4 de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude Sonnet 4 de Anthropic	350	25	1	Menos de 200,000 tokens de entrada: 1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token Mayor o igual que 200,000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de salida = 7.5 tokens 1 token de escritura en caché = 2.5 tokens 1 token de acierto de caché = 0.2 token
Claude 3.7 Sonnet de Anthropic	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Sonnet v2 de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Haiku de Anthropic	2,000	10	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3 Opus de Anthropic	70	35	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3 Haiku de Anthropic	4,200	5	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token
Claude 3.5 Sonnet de Anthropic (obsoleto)	350	25	1	1 token de entrada = 1 token 1 token de salida = 5 tokens 1 token de escritura en caché = 1.25 tokens 1 token de acierto de caché = 0.1 token

Para obtener información sobre las ubicaciones compatibles, consulta Disponibilidad de regiones de Claude Anthropic. Para solicitar capacidad de procesamiento aprovisionada para los modelos de Anthropic, comunícate con tu Google Cloud representante de cuenta.

¿Qué sigue?

Calcula los requisitos de capacidad de procesamiento aprovisionada.