このドキュメントでは、Speech-to-Text の使用に関する API の現在の制限事項と使用量上限について説明します。これらの制限事項や使用量上限に変更があったときは、このページにもその変更が反映されます。Google は、このような制限事項をいつでも変更できる権限を有します。
必要な場合は、割り当ての増加をリクエストできます。割り当ての確認と管理に関する詳細については、Google Cloud の割り当てページをご覧ください。
リクエスト送信後に、Google から詳細について確認させていただく場合があります。リクエストの承認または却下の結果については、追ってお知らせいたします。
コンテンツの上限
同期リクエスト
同期認識リクエスト(Recognize
メソッドを使用)では、リクエストの content
フィールドのインラインで、またはリクエストの uri
フィールドの Cloud Storage URI として音声データを受け入れます。同期リクエストに送信される音声は、10 MB または 1 分間(どちらか先に到達したほう)に制限されます。同期認識の詳細については、同期認識の概要をご覧ください。
ストリーミング リクエスト
ストリーミング認識リクエスト(StreamingRecognize
メソッドを使用)では、リクエストの audio
フィールドでインライン音声のみを受け入れます。ストリームの各リクエストは最大 25 KB の音声に制限されます。ストリームは最大で 5 分間開いたままになります。音声は、ほぼリアルタイムのレートで送信する必要があります。コンテンツを 5 分以上ストリーミングする必要がある場合は、エンドレス ストリーミングのチュートリアルをご覧ください。ストリーミング認識の詳細については、ストリーミング認識の概要をご覧ください。
バッチ リクエスト
バッチ認識リクエスト(BatchRecognize
メソッドを使用)は、リクエストの uri
フィールドの Cloud Storage URI として音声のみを受け入れます。各 BatchRecognizeRequest
には、音声文字変換のために最大 15 個の files
を含めることができます。各ファイルは最大 8 時間です。同期認識の詳細については、バッチ認識の概要をご覧ください。
複数の言語の認識
複数の言語の認識は、グローバル、米国、EU の Speech-to-Text エンドポイントでのみ使用できます。
適応
任意のリクエスト内で、PhraseSet リソースと CustomClass リソースを指定することもできます。これらのリソースには、次の上限が適用されます。
音声適応の上限 | 値 |
---|---|
フレーズのブーストの最大値 | 20 |
PhraseSet 内のフレーズ | 1,200 |
1 リクエストあたりのフレーズ数 | 5,000 |
1 フレーズあたりの文字数 | 100 |
1 リクエストあたりの合計文字数 | 100,000 |
CustomClass 内のアイテムの最大数 | 500 |
CustomClass アイテムごとの最大文字数 | 500 |
SpeechAdaptation ごとの PhraseSet の最大数 | 20 |
SpeechAdaptation ごとの CustomClass の最大数 | 20 |
リソースの上限
Speech-to-Text に対する API の現在のリソース上限は次のとおりです(変更されることがあります)。
制限の種類 | 使用量上限 |
---|---|
認識機能の数(リージョンごと) | 5,000 |
カスタムクラスの数(リージョンごと) | 5,000 |
フレーズセットの数(リージョンごと) | 5,000 |
リクエストに関する上限
Speech-to-Text に対する API の現在の使用量上限は次のとおりです(変更されることがあります)。
上限のタイプ | 使用量上限 |
---|---|
60 秒あたりのリソース リクエスト数(リージョンごと) | 100 |
60 秒あたりのオペレーション リクエスト数(リージョンごと) | 150 |
60 秒あたりの同期認識リクエスト(リージョンごと) | 300 |
60 秒あたりのストリーミング認識リクエスト(リージョンごと)* | 3,000 件 |
5 分あたりのストリーミング認識セッション(リージョンごと)* | 300 |
60 秒あたりのバッチ認識リクエスト(リージョンごと)* | 150 |
* ストリーミング認識では、5 分あたり 300 の同時セッション数の割り当て上限と 1 分あたり 3,000 のリクエスト上限があります。これは、すべての同時セッションに適用されます。セッションの最初の構成リクエストは、リクエストの割り当てにカウントされません。
これらの上限は各 Speech-to-Text デベロッパー プロジェクトに適用され、そのデベロッパー プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。