Text-to-Speech は、人間のような自然な品質の音声を生成します。これにより、実際の人間の音声のように聞こえる音声を作成できます。まず、合成リクエストを送信するときに音声を指定します。
Text-to-Speech には、言語、性別、アクセントに基づくさまざまな音声があります。言語によっては複数のオプションがあります。一覧については、サポートされている音声のページをご覧ください。音声を選択するには、API リクエストの VoiceSelectionParams
フィールドを使用します。synthesize
リクエストを行う手順については、クイックスタートをご覧ください。
概要
音声タイプ | 対象 | リリース ステージ | 制御可能性 | ストリーミング | |
---|---|---|---|---|---|
ルート |
会話型エージェント
|
プレビュー | - | はい | |
スタジオ | 2 台のスピーカーをグループ化する |
メディア - ディスカッションとインタビュー
|
試験運用版 | - | - |
1 人のスピーカー |
メディア - ナレーション
|
一般提供 | SSML | - | |
Neural2 |
汎用
|
一般提供 | SSML | - | |
Standard |
費用対効果に優れている
|
一般提供 | SSML | - |
ジャーニー音声
AudioLM エンジンを活用するジャーニー音声を使用すると、会話型アプリケーション向けに、より魅力的で共感できる音声を作成できます。ジャニー音声はテキスト ストリーミングを使用して低レイテンシのリアルタイム コミュニケーションを実現し、サポートされている音声の表に記載されている言語をサポートしています。
チャット エクスペリエンス
音声: en-US-Journey-F
その他の例
バーチャル アシスタント
en-US-Journey-D
カスタマー サービスの chatbot
en-US-Journey-F
インタラクティブな教育用アプリケーション
en-US-Journey-O
販売促進と提案
en-US-Journey-D
ストーリータイム
en-US-Journey-F
スタジオのマルチスピーカー音声
ジャーニー音声で使用されているものと同じテクノロジーに基づく新しいマルチスピーカー スタジオ音声で、ディスカッションやインタビューを作成できます。
スタジオ音声
スタジオ音声は、ニュースの読み上げやブロードキャスト コンテンツ向けに設計されています。
例 1。グレイト ギャツビーを読む en-US-Studio-O
の声。
Neural2 音声
Text-to-Speech API には、Neural2 という音声が用意されています。Neural2 音声は、カスタム音声の作成に使用したのと同じ技術に基づいています。Neural2 を使用すると、独自のカスタム音声をトレーニングしなくても、誰でもカスタム音声技術を利用できます。これは、グローバル エンドポイントと単一リージョン エンドポイントで使用できます。
例 1。Neural2 音声
標準音声
Text-to-Speech による音声の作成方法は、合成音声テクノロジーが音声の機械モデルを作成する方法によって異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。