Questo documento contiene le restrizioni e i limiti di utilizzo attuali per l'API Speech-to-Text. Questa pagina sarà aggiornata per riflettere eventuali modifiche a tali restrizioni e limiti di utilizzo. Ci riserviamo il diritto di modificare questi limiti.
Se necessario, puoi richiedere un aumento della quota. Consulta la pagina delle quote Google Cloud per ulteriori informazioni su come visualizzare e gestire la quota.
Dopo la presentazione della richiesta, Google potrebbe contattarti per ulteriori informazioni e per comunicarti se la richiesta è stata approvata o rifiutata.
Limiti per i contenuti
Richieste sincrone
Le richieste di riconoscimento sincrono (che utilizzano il metodo Recognize
) accettano dati audio incorporati nel campo content
della richiesta o come URI Cloud Storage nel campo uri
della richiesta. L'audio inviato a una richiesta sincrona è limitato a 10 MB o 1
minuto di durata audio (a seconda del limite raggiunto per primo). Per saperne di più sul
riconoscimento sincrono, consulta la
panoramica del riconoscimento sincrono.
Richieste di streaming
Le richieste di riconoscimento dello streaming (utilizzando il metodo
StreamingRecognize
) accettano solo l'audio incorporato nel campo
audio
della richiesta. Ogni richiesta nel flusso è limitata a 25 KB di audio. Un flusso può
rimanere aperto fino a 5 minuti e l'audio deve essere inviato con una velocità quanto più vicina al tempo reale. Se è necessario eseguire lo streaming di contenuti per più di 5 minuti,
consulta il tutorial di streaming senza fine. Per saperne di più sul
riconoscimento dello streaming, consulta la
panoramica sul riconoscimento dello streaming.
Richieste batch
Le richieste di riconoscimento batch (che utilizzano il metodo BatchRecognize
) accettano l'audio solo come URI Cloud Storage nel campo uri
della richiesta. Ogni
BatchRecognizeRequest
può contenere fino a 15
files
da trascrivere. Ogni file può durare fino a 8 ore. Per saperne di più sul riconoscimento asincrono, consulta la
panoramica del riconoscimento batch.
Riconoscimento di più lingue
Il riconoscimento di più lingue è disponibile solo negli endpoint Speech-to-Text globali, statunitensi ed europei.
Adattamento
In qualsiasi richiesta puoi anche specificare risorse PhraseSet e CustomClass. A queste risorse si applicano i seguenti limiti:
Limite di adattamento vocale | Valore |
---|---|
Valore boost massimo consentito per le frasi | 20 |
Frasi in un set di frasi | 1200 |
Frasi per richiesta | 5000 |
Caratteri per frase | 100 |
Caratteri totali per richiesta | 100.000 |
Numero massimo di elementi in una CustomClass | 500 |
Numero massimo di caratteri per elemento CustomClass | 500 |
Numero massimo di PhraseSet per SpeechAdaptation | 20 |
Numero massimo di CustomClass per SpeechAdaptation | 20 |
Limiti delle risorse
Di seguito sono riportati i limiti attuali delle risorse API per Speech-to-Text (soggetti a modifica):
Tipo di limite | Limite di utilizzo |
---|---|
Numero di riconoscitori (per regione) | 5000 |
Numero di classi personalizzate (per regione) | 5000 |
Numero di set di frasi (per regione) | 5000 |
Limiti per le richieste
Di seguito sono riportati i limiti di utilizzo attuali (soggetti a modifica) relativi all'API Speech-to-Text:
Tipo di limite | Limite di utilizzo |
---|---|
Richieste di risorse ogni 60 secondi (per regione) | 100 |
Richieste di operazioni ogni 60 secondi (per regione) | 150 |
Richieste di riconoscimento sincrono ogni 60 secondi (per regione) | 300 |
Richieste di riconoscimento dello streaming ogni 60 secondi (per regione) * | 1.000.000 |
Sessioni di riconoscimento dello streaming ogni 5 minuti (per regione) * | 300 |
Richieste di riconoscimento batch ogni 60 secondi (per regione) | 150 |
* Il riconoscimento in streaming ha un limite di quota di 300 sessioni simultanee ogni 5 minuti e un limite di 3000 richieste al minuto, che si applica a tutte le sessioni simultanee insieme. La richiesta di configurazione iniziale per una sessione non viene conteggiata ai fini della quota di richieste.
Questi limiti vengono applicati a ogni progetto di sviluppatori Speech-to-Text e sono condivisi tra tutte le applicazioni e gli indirizzi IP che utilizzano un determinato progetto di sviluppatori.