Ce document présente les restrictions et limites d'utilisation actuellement appliquées à l'API Speech-to-Text. Il sera mis à jour en cas de modifications de ces restrictions et limites. (nous nous réservons le droit de les modifier).
Vous pouvez demander une augmentation de quota si nécessaire. Consultez la page des quotas Google Cloud pour savoir comment afficher et gérer votre quota.
Une fois votre demande envoyée, Google peut vous contacter pour obtenir des détails supplémentaires, et vous informer de l'approbation ou du refus de votre demande.
Limites de contenu
Requêtes synchrones
Les requêtes de reconnaissance synchrone (à l'aide de la méthode Recognize
) acceptent les données audio de manière intégrée dans le champ content
de la requête ou en tant qu'URI Cloud Storage dans le champ uri
de la requête. Les données audio envoyées à une requête synchrone sont limitées à 10 Mo ou à une minute de durée audio (selon la première limite atteinte). Pour en savoir plus sur la reconnaissance synchrone, consultez la page Présentation de la reconnaissance synchrone.
Requêtes en streaming
Les requêtes de reconnaissance en streaming (à l'aide de la méthode StreamingRecognize
) n'acceptent que le contenu audio intégré dans le champ audio
de la requête. Chaque requête du flux est limitée à 25 ko d'audio. Un flux peut rester ouvert pendant cinq minutes au maximum, et le contenu audio doit être envoyé à un débit proche du temps réel. Si vous avez besoin de diffuser du contenu pendant plus de cinq minutes, consultez le tutoriel sur les flux continus. Pour en savoir plus sur la reconnaissance en streaming, consultez la présentation de la reconnaissance en streaming.
Requêtes par lot
Les requêtes de reconnaissance par lot (à l'aide de la méthode BatchRecognize
) n'acceptent que le contenu audio en tant qu'URI Cloud Storage dans le champ uri
de la requête. Chaque BatchRecognizeRequest
peut contenir jusqu'à 15 files
à transcrire. Chaque fichier peut durer jusqu'à huit heures. Pour en savoir plus sur la reconnaissance synchrone, consultez la page Présentation de la reconnaissance par lot.
Reconnaissance multilingue
La reconnaissance de plusieurs langues n'est disponible que dans les points de terminaison Speech-to-Text globaux, États-Unis et UE.
Adaptation
Dans une requête, vous pouvez également fournir des ressources PhraseSet et CustomClass. Les limites suivantes s'appliquent à ces ressources:
Limite d'adaptation vocale | Valeur |
---|---|
Valeur maximale autorisée pour l'amélioration des phrases | 20 |
Phrases dans un PhraseSet | 1,200 |
Expressions par requête | 5 000 |
Caractères par expression | 100 |
Nombre total de caractères par requête | 100,000 |
Nombre maximal d'éléments dans un élément CustomClass | 500 |
Nombre maximal de caractères par élément CustomClass | 500 |
Nombre maximal d'ensembles d'éléments SpeechSet par SpeechAdaptation | 20 |
Nombre maximal d'éléments CustomClasses par SpeechAdaptation | 20 |
Limites de ressources
Les limites de ressources actuelles de l'API Speech-to-Text sont les suivantes (sous réserve de modification) :
Type de limite | Limite d'utilisation |
---|---|
Nombre d'outils de reconnaissance (par région) | 5 000 |
Nombre de classes personnalisées (par région) | 5 000 |
Nombre d'ensembles d'expressions (par région) | 5 000 |
Limites de requêtes
Les limites d'utilisation actuelles de l'API Speech-to-Text sont les suivantes (sous réserve de modification) :
Type de limite | Limite d'utilisation |
---|---|
Requêtes de ressources par période de 60 secondes (par région) | 100 |
Requêtes d'opération par période de 60 secondes (par région) | 150 |
Requêtes de reconnaissance synchrone par période de 60 secondes (par région) | 300 |
Requêtes de reconnaissance en streaming par période de 60 secondes (par région) * | 3 000 |
Sessions de reconnaissance en streaming par tranche de 5 minutes (par région) * | 300 |
Requêtes de reconnaissance par lot par période de 60 secondes (par région) | 150 |
* La reconnaissance en streaming a une limite de quota de 300 sessions simultanées par tranche de 5 minutes et une limite de 3 000 requêtes par minute, ce qui s'applique à toutes les sessions simultanées. La requête de configuration initiale d'une session n'est pas comptabilisée dans le quota des requêtes.
Ces limites s'appliquent à chaque projet de développeur dans Speech-to-Text. Elles sont partagées entre toutes les applications et adresses IP associées à un projet de développeur donné.