En este documento se detallan las restricciones y los límites de uso actuales de la API de Speech‑to‑Text. Esta página se actualizará para reflejar los cambios en estas restricciones y límites de uso. Nos reservamos el derecho de modificar los límites.
Puedes solicitar un aumento de la cuota si es necesario. Consulta la página de cuotas de Google Cloud para obtener más información sobre cómo revisar y administrar tu cuota.
Después de enviar la solicitud, Google puede comunicarse contigo para pedirte más información y también informarte si se aprobó o rechazó.
Límites de contenido
Solicitudes síncronas
Las solicitudes de reconocimiento síncronas (mediante el método Recognize
) aceptan datos de audio intercalados en el campo content
de la solicitud o como un URI de Cloud Storage en el campo uri
de la solicitud. El audio enviado a una solicitud síncrona se limita a 10 MB o 1 minuto de duración de audio (lo que se alcance primero). Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento síncrono.
Solicitudes de transmisión
Las solicitudes de reconocimiento de transmisión continua (mediante el método StreamingRecognize
) solo aceptan audio intercalado en el campo audio
de la solicitud. Cada solicitud en la transmisión está limitada a 25 KB de audio. Una transmisión puede permanecer abierta hasta por 5 minutos, y el audio debe enviarse a una velocidad aproximada de tiempo real. Si necesitas transmitir contenido durante más de 5 minutos, consulta el instructivo de transmisión ilimitada. Para obtener más información sobre el reconocimiento de transmisión, consulta la descripción general del reconocimiento de transmisión.
Solicitudes por lotes
Las solicitudes de reconocimiento por lotes (mediante el método BatchRecognize
) solo aceptan audio como un URI de Cloud Storage en el campo uri
de la solicitud. Cada BatchRecognizeRequest
puede contener hasta 15 files
para transcribir. Cada archivo puede tener hasta 8 horas de duración. Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento por lotes.
Reconocimiento de varios idiomas
El reconocimiento de varios idiomas solo está disponible en los extremos de Speech-to-Text de EE.UU., la UE y a nivel global.
Adaptación
En todas las solicitudes, también puedes proporcionar recursos PhraseSet y CustomClass. Se aplican los siguientes límites a estos recursos:
Límite de adaptación de voz | Valor |
---|---|
Valor máximo de mejora de frase permitido | 20 |
Frases en un PhraseSet | 1,200 |
Frases por solicitud | 5,000 |
Caracteres por frase | 100 |
Total de caracteres por solicitud | 100,000 |
Cantidad máxima de elementos en una CustomClass | 500 |
Cantidad máxima de caracteres por elemento de CustomClass | 500 |
Cantidad máxima de PhraseSets por SpeechAdaptation | 20 |
Cantidad máxima de CustomClasses por SpeechAdaptation | 20 |
Límites de recursos
Los límites de los recursos actuales de la API para Speech‑to‑Text son los siguientes (y están sujetos a cambios):
Tipo de límite | Límite de uso |
---|---|
Cantidad de identificadores (por región) | 5,000 |
Cantidad de clases personalizadas (por región) | 5,000 |
Cantidad de conjuntos de frases (por región) | 5,000 |
Límites de solicitudes
Los límites de uso actuales de la API para Speech‑to‑Text son los siguientes (y están sujetos a cambios):
Tipo de límite | Límite de uso |
---|---|
Solicitudes de recursos cada 60 segundos (por región) | 100 |
Solicitudes de operaciones cada 60 segundos (por región) | 150 |
Solicitudes de reconocimiento síncronas cada 60 segundos (por región) | 300 |
Solicitudes de reconocimiento de transmisión cada 60 segundos (por región) * | 3,000 |
Sesiones de reconocimiento de transmisión cada 5 minutos (por región) * | 300 |
Solicitudes de reconocimiento de transmisión cada 60 segundos (por región) | 150 |
* El reconocimiento de transmisión continua tiene un límite de cuota de 300 sesiones simultáneas por 5 minutos y un límite de 3,000 solicitudes por minuto, que se aplica a todas las sesiones simultáneas. La solicitud de configuración inicial de una sesión no se cuenta para la cuota de solicitudes.
Los límites se aplican a cada proyecto de desarrollador de Speech‑to‑Text y se comparten en todas las aplicaciones y direcciones IP que usen un proyecto de desarrollador específico.