En este documento se detallan las restricciones y los límites de uso actuales de la API Transcripción de voz. Esta página se actualizará para reflejar todos los cambios en dichos límites de uso y restricciones. Nos reservamos el derecho de cambiarlos.
Si hace falta, puedes solicitar un aumento de la cuota. Para obtener más información sobre cómo ver y gestionar tu cuota, consulta la Google Cloud página de cuotas.
Después de enviar tu solicitud, es posible que nos pongamos en contacto contigo para precisar algunos detalles y comunicarte si la aprobamos o no.
Límites de contenido
Solicitudes síncronas
Las solicitudes de reconocimiento síncronas (que usan el método Recognize
) aceptan datos de audio insertados en el campo content
de la solicitud o como un URI de Cloud Storage en el campo uri
de la solicitud. El audio enviado a una solicitud síncrona está limitado a 10 MB o a 1 minuto de duración (lo que se alcance primero). Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento síncrono.
Solicitudes en streaming
Las solicitudes de reconocimiento de streaming (con el método StreamingRecognize
) solo aceptan audio insertado en el campo audio
de la solicitud. Cada solicitud de la emisión está limitada a 25 KB de audio. Una secuencia puede permanecer abierta hasta 5 minutos y el audio debe enviarse a una velocidad que se aproxime a la velocidad en tiempo real. Si tienes que emitir contenido durante más de 5 minutos, consulta el tutorial de streaming sin fin. Para obtener más información sobre el reconocimiento de streaming, consulta el artículo general sobre el reconocimiento de streaming.
Solicitudes en lote
Las solicitudes de reconocimiento por lotes (que usan el método BatchRecognize
) solo aceptan audio como URI de Cloud Storage en el campo uri
de la solicitud. Cada BatchRecognizeRequest
puede contener hasta 15 files
para transcribir. Cada archivo puede durar hasta 8 horas. Para obtener más información sobre el reconocimiento asíncrono, consulta la descripción general del reconocimiento por lotes.
Reconocimiento de varios idiomas
El reconocimiento de varios idiomas solo está disponible en los endpoints de voz a texto de EE. UU., la Unión Europea y el resto del mundo.
Adaptación
En cualquier solicitud, también puedes proporcionar recursos PhraseSet y CustomClass. Se aplican los siguientes límites a estos recursos:
Límite de adaptación de voz | Valor |
---|---|
Valor máximo permitido de refuerzo de frase | 20 |
Frases de un PhraseSet | 1200 |
Frases por solicitud | 5000 |
Caracteres por frase | 100 |
Caracteres totales por solicitud | 100.000 |
Número máximo de elementos en un CustomClass | 500 |
Número máximo de caracteres por elemento CustomClass | 500 |
Número máximo de PhraseSets por SpeechAdaptation | 20 |
Número máximo de CustomClasses por SpeechAdaptation | 20 |
Límites de recursos
Los límites de recursos actuales de la API Speech-to-Text son los siguientes (están sujetos a cambios):
Tipo de límite | Límite de uso |
---|---|
Número de reconocedores (por región) | 5000 |
Número de clases personalizadas (por región) | 5000 |
Número de conjuntos de frases (por región) | 5000 |
Límites de solicitudes
Los límites de uso actuales de la API Speech-to-Text son los siguientes (están sujetos a cambios):
Tipo de límite | Límite de uso |
---|---|
Solicitudes de recursos por cada 60 segundos (por región) | 100 |
Solicitudes de operaciones por cada 60 segundos (por región) | 150 |
Solicitudes de reconocimiento síncronas por cada 60 segundos (por región) | 300 |
Solicitudes de reconocimiento de streaming por cada 60 segundos (por región) * | 1.000.000 |
Sesiones de reconocimiento de streaming por cada 5 minutos (por región) * | 300 |
Solicitudes de reconocimiento por lotes por cada 60 segundos (por región) | 150 |
* El reconocimiento de streaming tiene un límite de cuota de 300 sesiones simultáneas por cada 5 minutos y un límite de 3000 solicitudes por minuto, que se aplica a todas las sesiones simultáneas en conjunto. La solicitud de configuración inicial de una sesión no se tiene en cuenta en la cuota de solicitudes.
Estos límites se aplican a cada proyecto de desarrollador de Speech-to-Text. Además, se comparten entre todas las aplicaciones y direcciones IP que usen un proyecto de desarrollador determinado.