モデルのトレーニング

意図しているカスタム音声を表現する声優を探して一緒に取り組むことをおすすめします。トレーニング データとして使用するには、声優と 10 秒間の音声を録音する必要があります。また、ナレーターの同意書も録音する必要があります。クローンを作成したモデルのトレーニングと提供には数分もかかりません。pre-GA の機能に関しては、重大なバグの SLA サポートはございません。

ステップ 1: クローニング用のトレーニング データを作成する

  1. 同意文を録音する: 音声クローンの法的および倫理的ガイドラインに準拠するため、必要な同意文をモノラル WAV ファイルとして、適切な言語で、LINEAR16 エンコードと 24 kHz のサンプリング レートで録音します。(私はこの音声の所有者であり、Google がこの音声を使用して合成音声モデルを作成することに同意します)。
  2. 最初の音声を録音する: パソコンのマイクを使用して、24 kHz のサンプリング レートで LINEAR16 エンコードされたモノラル WAV ファイルとして 10 秒間の音声を録音します。録音中に背景雑音が入らないようにします。
  3. 音声ファイルを保存する: 録音した音声ファイルを指定した Cloud Storage の場所に保存します。

ステップ 2: クローンを作成したモデルを作成する

クローニング プロジェクトは、Text-to-Speech コンソールから作成できます。

  1. Text-to-Speech コンソールの [合成] ページに移動します。

  2. 音声合成されるテキストを入力し、ターゲット言語コードを選択します(en-US のみが適用されます)。

  3. [カスタム音声] チェックボックスをオンにして、[鍵を生成する] をクリックします。

  4. 開いたサブタスクの必須項目をすべて入力します。

  5. 合成フォームに音声クローニング キーが表示されます。

    • このキーは、今後使用できるように保存しておくと、次回以降の「鍵を生成する」プロセスをスキップできます。

  6. [詳細設定] セクションをオンにして、[サンプリング レート(ヘルツ)] フィールドに「24000」と入力し、[合成] をクリックします。

現在のところ、クローン化された音声は 24 kHz でのみ合成されます。

音声をすぐにダウンロードまたは再生して、音質を確認できます。