Cuotas y límites

En este documento se detallan las restricciones y los límites de uso actuales de la API Transcripción de voz. Esta página se actualizará para reflejar todos los cambios en dichos límites de uso y restricciones. Nos reservamos el derecho de cambiarlos.

Si hace falta, puedes solicitar un aumento de la cuota. Para obtener más información sobre cómo ver y gestionar tu cuota, consulta la Google Cloud página de cuotas.

Después de enviar tu solicitud, es posible que nos pongamos en contacto contigo para precisar algunos detalles y comunicarte si la aprobamos o no.

Límites de contenido

Solicitudes síncronas

Las solicitudes de reconocimiento síncronas (que usan el método Recognize) aceptan datos de audio insertados en el campo content de la solicitud o como un URI de Cloud Storage en el campo uri de la solicitud. El audio enviado a una solicitud síncrona está limitado a 10 MB o a 1 minuto de duración (lo que se alcance primero). Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento síncrono.

Solicitudes en streaming

Las solicitudes de reconocimiento de streaming (con el método StreamingRecognize) solo aceptan audio insertado en el campo audio de la solicitud. Cada solicitud de la emisión está limitada a 25 KB de audio. Una secuencia puede permanecer abierta hasta 5 minutos y el audio debe enviarse a una velocidad que se aproxime a la velocidad en tiempo real. Si tienes que emitir contenido durante más de 5 minutos, consulta el tutorial de streaming sin fin. Para obtener más información sobre el reconocimiento de streaming, consulta el artículo general sobre el reconocimiento de streaming.

Solicitudes en lote

Las solicitudes de reconocimiento por lotes (que usan el método BatchRecognize) solo aceptan audio como URI de Cloud Storage en el campo uri de la solicitud. Cada BatchRecognizeRequest puede contener hasta 15 files para transcribir. Cada archivo puede durar hasta 8 horas. Para obtener más información sobre el reconocimiento asíncrono, consulta la descripción general del reconocimiento por lotes.

Reconocimiento de varios idiomas

El reconocimiento de varios idiomas solo está disponible en los endpoints de voz a texto de EE. UU., la Unión Europea y el resto del mundo.

Adaptación

En cualquier solicitud, también puedes proporcionar recursos PhraseSet y CustomClass. Se aplican los siguientes límites a estos recursos:

Límite de adaptación de voz Valor
Valor máximo permitido de refuerzo de frase 20
Frases de un PhraseSet 1200
Frases por solicitud 5000
Caracteres por frase 100
Caracteres totales por solicitud 100.000
Número máximo de elementos en un CustomClass 500
Número máximo de caracteres por elemento CustomClass 500
Número máximo de PhraseSets por SpeechAdaptation 20
Número máximo de CustomClasses por SpeechAdaptation 20

Límites de recursos

Los límites de recursos actuales de la API Speech-to-Text son los siguientes (están sujetos a cambios):

Tipo de límite Límite de uso
Número de reconocedores (por región) 5000
Número de clases personalizadas (por región) 5000
Número de conjuntos de frases (por región) 5000

Límites de solicitudes

Los límites de uso actuales de la API Speech-to-Text son los siguientes (están sujetos a cambios):

Tipo de límite Límite de uso
Solicitudes de recursos por cada 60 segundos (por región) 100
Solicitudes de operaciones por cada 60 segundos (por región) 150
Solicitudes de reconocimiento síncronas por cada 60 segundos (por región) 300
Solicitudes de reconocimiento de streaming por cada 60 segundos (por región) * 1.000.000
Sesiones de reconocimiento de streaming por cada 5 minutos (por región) * 300
Solicitudes de reconocimiento por lotes por cada 60 segundos (por región) 150

* El reconocimiento de streaming tiene un límite de cuota de 300 sesiones simultáneas por cada 5 minutos y un límite de 3000 solicitudes por minuto, que se aplica a todas las sesiones simultáneas en conjunto. La solicitud de configuración inicial de una sesión no se tiene en cuenta en la cuota de solicitudes.

Estos límites se aplican a cada proyecto de desarrollador de Speech-to-Text. Además, se comparten entre todas las aplicaciones y direcciones IP que usen un proyecto de desarrollador determinado.