このページでは、Speech-to-Text の音声文字変換結果に自動的に句読点を挿入する方法について説明します。この機能を有効にすると、Speech-to-Text は音声データ内のピリオド、カンマ、疑問符を自動的に推測して、変換結果に追加します。
デフォルトでは、Speech-to-Text の音声認識の結果に句読点は含まれません。ただし、Speech-to-Text にリクエストすれば、音声文字変換の結果で区切り場所を自動的に検出し、句読点を挿入するようにできます。自動の句読点挿入を有効にすると、Speech-to-Text は各ピリオドと疑問符の後の最初の文字も自動的に大文字にします。
句読点の自動挿入を有効にするには、リクエストの RecognitionConfig パラメータで、enableAutomaticPunctuation フィールドを true に設定します。Speech-to-Text API では、speech:recognize、speech:longrunningrecognize、Streaming のどの音声認識メソッドでも句読点の自動挿入がサポートされています。
次のサンプルコードでは、音声文字変換の結果に句読点を自動的に挿入する方法を説明します。
プロトコル
詳細については、speech:recognize API エンドポイントをご覧ください。
同期音声認識を実行するには、POST リクエストを作成し、適切なリクエスト本文を指定します。次は、curl を使用した POST リクエストの例です。この例では、Google Cloud CLI を使用してアクセス トークンを生成します。gcloud CLI のインストール手順については、クイックスタートをご覧ください。
curl -s -H "Content-Type: application/json" \
-H "Authorization: Bearer "$(gcloud auth print-access-token) \
https://speech.googleapis.com/v1/speech:recognize \
--data '{
"config": {
"encoding":"FLAC",
"sampleRateHertz": 16000,
"languageCode": "en-US",
"enableAutomaticPunctuation": true
},
"audio": {
"uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
}
}'
リクエスト本文の構成の詳細については、RecognitionConfig のリファレンス ドキュメントをご覧ください。
リクエストが成功すると、サーバーは 200 OK HTTP ステータス コードと JSON 形式のレスポンスを返します。
{
"results": [
{
"alternatives": [
{
"transcript": "How old is the Brooklyn Bridge?",
"confidence": 0.98360395
}
]
}
]
}
Go
Speech-to-Text 用のクライアント ライブラリをインストールして使用する方法については、Speech-to-Text クライアント ライブラリをご覧ください。 詳細については、Speech-to-Text の Go API リファレンス ドキュメントをご覧ください。
Speech-to-Text に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Java
Speech-to-Text 用のクライアント ライブラリをインストールして使用する方法については、Speech-to-Text クライアント ライブラリをご覧ください。 詳細については、Speech-to-Text の Java API リファレンス ドキュメントをご覧ください。
Speech-to-Text に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Node.js
Speech-to-Text 用のクライアント ライブラリをインストールして使用する方法については、Speech-to-Text クライアント ライブラリをご覧ください。 詳細については、Speech-to-Text の Node.js API リファレンス ドキュメントをご覧ください。
Speech-to-Text に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
Python
Speech-to-Text 用のクライアント ライブラリをインストールして使用する方法については、Speech-to-Text クライアント ライブラリをご覧ください。 詳細については、Speech-to-Text の Python API リファレンス ドキュメントをご覧ください。
Speech-to-Text に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET の Speech-to-Text のリファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP の Speech-to-Text のリファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby の Speech-to-Text のリファレンス ドキュメントをご覧ください。
次のステップ
音声文字の同期変換をリクエストする方法を確認する。