サポート対象の音声

Text-to-Speech は、人間のような自然な品質の音声を生成します。これにより、実際の人の音声のように聞こえる音声を生成できます。始める際に、合成リクエストの送信時に使用される音声を指定します。

Text-to-Speech には、言語、性別、アクセントに基づくさまざまな音声が用意されています。言語によっては複数のオプションがあります。詳しい一覧については、サポートされている音声のページをご覧ください。音声を選択するには、API リクエストの VoiceSelectionParams フィールドを使用します。

概要

音声タイプ 対象 リリース ステージ 制御性 ストリーミング
Chirp 3: HD 音声 会話型エージェント
プレビュー - はい
Chirp HD 音声 会話型エージェント
プレビュー - はい
スタジオ 2 台のスピーカーグループ化する メディア: ディスカッションとインタビュー

試験運用版 - -
1 人のスピーカー 人物 メディア: ナレーション
GA SSML -
Neural2 汎用
GA SSML -
標準 優れた費用対効果
GA SSML -

料金の詳細

Chirp 3: HD 音声

Chirp 3: HD 音声は、人間のイントネーションのニュアンスをキャプチャするテクノロジーを活用し、会話をより魅力的なものにしています。これらの音声は、多くの言語で 8 つの異なるスタイルがあり、リアルタイム アプリケーションと標準アプリケーションの両方に適しています。

Chirp HD 音声

Chirp HD 音声は、最新の生成 AI モデルを活用しています。Chirp HD 音声を使用すると、会話型アプリケーション向けに、より魅力的で共感できる音声を作成できます。Chirp HD 音声はテキスト ストリーミングを使用して低レイテンシのリアルタイム コミュニケーションを実現しています。これは、サポートされている音声の表にある言語をサポートしています。

チャット エクスペリエンス


音声: en-US-Chirp-HD-F

その他の例

バーチャル アシスタント


音声: en-US-Chirp-HD-D

カスタマー サービスの chatbot


音声: en-US-Chirp-HD-F

インタラクティブな教育用アプリケーション


音声: en-US-Chirp-HD-O

販売促進と提案


音声: en-US-Chirp-HD-D

ストーリータイム


音声: en-US-Chirp-HD-F

スタジオのマルチスピーカー音声

新しいマルチスピーカー スタジオ音声を使用して、ディスカッションやインタビューを作成できます。この音声は、Chirp HD 音声と同じテクノロジーに基づいています。


例: スタジオの複数スピーカー音声

スタジオ音声

スタジオ音声は、ニュースの読み上げやブロードキャスト コンテンツ向けに設計されています。


例: グレイト ギャツビーを読む en-US-Studio-O 音声。

Neural2 音声

Text-to-Speech API には、Neural2 という音声が用意されています。Neural2 音声は、カスタム音声の作成に使用したのと同じ技術に基づいています。Neural2 を使用すると、独自のカスタム音声をトレーニングしなくても、誰でもカスタム音声技術を利用できます。これは、グローバル エンドポイントと単一リージョン エンドポイントで使用できます。


例: Neural2 音声

標準音声

Text-to-Speech で提供される音声は、音声の機械モデルの作成に使用される合成音声技術と異なります。一般的な音声テクノロジーの 1 つであるパラメータ テキスト読み上げでは通常、ボコーダと呼ばれる信号処理アルゴリズムを介して出力を渡すことによって音声データを生成します。Text-to-Speech で利用可能な標準音声の多くは、このテクノロジーのバリエーションを使用しています。

次のステップ

synthesize リクエストを行う手順については、クイックスタートをご覧ください。