Chirp 3：高清语音

Text-to-Speech Chirp 3：高清语音代表了最新一代的 Text-to-Speech 技术。这些语音由我们先进的 LLM 提供支持，可提供出色的真实感和情感共鸣。

语音选项

我们提供了一系列语音选项，每种选项都有不同的特点：

名称	性别	演示
Aoede	女
Puck	男
冥卫一	男
Kore	女
Fenrir	男
Leda	女
Orus	男
Zephyr	女
Achird	男
Algenib	男
Algieba	男
Alnilam	男
Autonoe	女
Callirrhoe	女
Despina	女
土卫二	男
Erinome	女
Gacrux	女
土卫八	男
Laomedeia	女
Pulcherrima	女
Rasalgethi	男
Sadachbia	男
Sadaltager	男
Schedar	男
Sulafat	女
Umbriel	男
Vindemiatrix	女
Zubenelgenubi	男
Achernar	女

支持的语言

Chirp 3：高清语音支持以下语言：

语言	BCP-47 代码
英语（美国）	en-US
英语（澳大利亚）	en-AU
英语（英国）	en-GB
英语（印度）	en-IN
西班牙语（美国）	es-US
德语（德国）	de-DE
法语（法国）	fr-FR
印地语（印度）	hi-IN
葡萄牙语（巴西）	pt-BR
阿拉伯语（通用）	ar-XA
西班牙语（西班牙）	es-ES
法语（加拿大）	fr-CA
印度尼西亚语（印度尼西亚）	id-ID
意大利语（意大利）	it-IT
日语（日本）	ja-JP
土耳其语（土耳其）	tr-TR
越南语（越南）	vi-VN
孟加拉语（印度）	bn-IN
古吉拉特语（印度）	gu-IN
卡纳达语（印度）	kn-IN
马拉雅拉姆语（印度）	ml-IN
马拉地语（印度）	mr-IN
泰米尔语（印度）	ta-IN
泰卢固语（印度）	te-IN
荷兰语（比利时）	nl-BE
荷兰语（荷兰）	nl-NL
韩语（韩国）	ko-KR
普通话（中国）	cmn-CN
波兰语（波兰）	pl-PL
俄语（俄罗斯）	ru-RU
斯瓦希里语（肯尼亚）	sw-KE
泰语（泰国）	th-TH
乌尔都语（印度）	ur-IN
乌克兰语（乌克兰）	uk-UA

区域可用性

Chirp 3：高清语音分别在以下 Google Cloud 区域推出：

Google Cloud 可用区	发布就绪情况
`global`	GA
`us`	GA
`eu`	GA
`asia-southeast1`	GA

支持的输出格式

默认响应格式为 LINEAR16，但支持的其他格式包括：

API 方法	格式
`streaming`	ALAW、MULAW、OGG_OPUS 和 PCM
`batch`	ALAW、MULAW、MP3、OGG_OPUS 和 PCM

使用 Chirp 3：高清语音

了解如何使用 Chirp 3：高清语音来合成语音。

执行流式语音合成请求

Python

如需了解如何安装和使用 Text-to-Speech 客户端库，请参阅 Text-to-Speech 客户端库。如需了解详情，请参阅 Text-to-Speech Python API 参考文档。

如需向 Text-to-Speech 进行身份验证，请设置应用默认凭证。如需了解详情，请参阅为本地开发环境设置身份验证。

"""Synthesizes speech from a stream of input text."""
from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

# See https://cloud.google.com/text-to-speech/docs/voices for all voices.
streaming_config = texttospeech.StreamingSynthesizeConfig(
    voice=texttospeech.VoiceSelectionParams(
        name="en-US-Chirp3-HD-Charon",
        language_code="en-US",
    )
)

# Set the config for your stream. The first request must contain your config, and then each subsequent request must contain text.
config_request = texttospeech.StreamingSynthesizeRequest(
    streaming_config=streaming_config
)

text_iterator = [
    "Hello there. ",
    "How are you ",
    "today? It's ",
    "such nice weather outside.",
]

# Request generator. Consider using Gemini or another LLM with output streaming as a generator.
def request_generator():
    yield config_request
    for text in text_iterator:
        yield texttospeech.StreamingSynthesizeRequest(
            input=texttospeech.StreamingSynthesisInput(text=text)
        )

streaming_responses = client.streaming_synthesize(request_generator())

for response in streaming_responses:
    print(f"Audio content size in bytes is: {len(response.audio_content)}")

执行在线语音合成请求

Python

如需了解如何安装和使用 Text-to-Speech 客户端库，请参阅 Text-to-Speech 客户端库。如需了解详情，请参阅 Text-to-Speech Python API 参考文档。

如需向 Text-to-Speech 进行身份验证，请设置应用默认凭证。如需了解详情，请参阅为本地开发环境设置身份验证。

def synthesize_text():
    """Synthesizes speech from the input string of text."""
    from google.cloud import texttospeech

    text = "Hello there."
    client = texttospeech.TextToSpeechClient()

    input_text = texttospeech.SynthesisInput(text=text)

    # Note: the voice can also be specified by name.
    # Names of voices can be retrieved with client.list_voices().
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="en-US-Chirp3-HD-Charon",
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    response = client.synthesize_speech(
        input=input_text,
        voice=voice,
        audio_config=audio_config,
    )

    # The response's audio_content is binary.
    with open("output.mp3", "wb") as out:
        out.write(response.audio_content)
        print('Audio content written to file "output.mp3"')

脚本和提示技巧

要想根据文字制作出引人入胜且自然流畅的音频，就需要了解口语的细微差别，并将其转换为脚本形式。以下提示可帮助您撰写真实可信的脚本，并捕捉所选的语气。

了解目标：自然语音

主要目标是让合成语音听起来尽可能接近自然的人声。这些行为包括：

模仿自然语速：说话的快慢。
创造顺畅的流程：确保在句子和短语之间顺畅过渡。
添加逼真的停顿：添加停顿以突出重点并提高清晰度。
捕捉对话语气：让音频听起来像是真实对话。

自然语音的关键技术

用于控制节奏和流畅度的标点符号
- 句点 (.)：表示句号和较长的停顿。使用它们来分隔完整的想法，并明确句子边界。
- 逗号 (,)：表示句子内停顿较短。使用它们来分隔子句、列出项或引入短暂的停顿。
- 省略号 (...)：表示更长、更慎重的停顿。它们可以表示思绪不定、犹豫或戏剧性停顿。
  - 示例：“然后…就发生了。”
- 连字符 (-)：可用于表示短暂的停顿或突然中断的思路。
  - 示例：“我想说 - 但我说不出来。”
加入停顿和非流利现象
- 策略性停顿：在人类说话者自然会停顿以换气或强调某些内容的地方，使用省略号、逗号或连字符来创建停顿。
- 非流利现象（嗯、呃）：虽然一些 Text-to-Speech 模型可以自动处理非流利现象，但了解其作用至关重要。它们可以增强真实感，让语音听起来不那么机械。即使模型会添加这些声音，了解它们在人类语音中自然出现的位置也有助于您了解脚本的整体流程。
实验和迭代
- 重新合成：不要害怕多次用相同的声音重新合成相同的信息。对标点符号、空格或字词选择进行细微调整可能会对最终音频产生重大影响。
- 仔细聆听：密切注意合成音频的节奏、流程和整体语气。找出听起来不自然的部分，并相应地调整脚本。
- 声音变体：如果系统允许，请尝试使用不同的声音，看看哪种声音最适合您的脚本和所选语气。
实用脚本技巧
- 大声朗读：在合成之前，大声朗读您的脚本。这有助于您找出不自然的措辞、不自然的停顿以及需要调整的部分。
- 以对话方式写作：使用缩写词（例如，“it's”“we're”）和非正式用语，以使脚本听起来更自然。
- 考虑情境：脚本的语气和节奏应与音频的情境相符。正式演讲需要采用与随意交谈不同的方式。
- 将复杂句子拆分开：TTS 引擎可能难以处理冗长而复杂的句子。将其分解为更易于管理的较短句子。
示例脚本改进
- 原始脚本（机器人）：“The product is now available. We have new features. It is very exciting.”
- 改进的脚本（自然）：“The product is now available... and we've added some exciting new features. It's, well, it's very exciting.”
- 原始脚本（机器人）：“This is an automated confirmation message. Your reservation has been processed. The following details pertain to your upcoming stay. Reservation number is 12345. Guest name registered is Anthony Vasquez Arrival date is March 14th. Departure date is March 16th. Room type is Deluxe Suite. Number of guests is 1 guest. Check-in time is 3 PM. Check-out time is 11 AM. Please note, cancellation policy requires notification 48 hours prior to arrival. Failure to notify within this timeframe will result in a charge of one night's stay. Additional amenities included in your reservation are: complimentary Wi-Fi, access to the fitness center, and complimentary breakfast. For any inquiries, please contact the hotel directly at 855-555-6689 Thank you for choosing our hotel.”
- 改进后的脚本（自然）：“Hi Anthony Vasquez! We're so excited to confirm your reservation with us! You're all set for your stay from March 14th to March 16th in our beautiful Deluxe Suite. That's for 1 guest. Your confirmation number is 12345, just in case you need it.
  
  So, just a quick reminder, check-in is at 3 PM, and check-out is at, well, 11 AM.
  
  Now, just a heads-up about our cancellation policy… if you need to cancel, just let us know at least 48 hours before your arrival, okay? Otherwise, there'll be a charge for one night's stay.
  
  And to make your stay even better, you'll have complimentary Wi-Fi, access to our fitness center, and a delicious complimentary breakfast each morning!
  
  If you have any questions at all, please don't hesitate to call us at 855-555-6689. We can't wait to welcome you to the hotel!“
- 修改说明：
  - 省略号 (...) 会创建一个用于强调的停顿。
  - “and we've”使用了缩写，营造更口语化的语气。
  - “It's, well, it's very exciting”会增加一点不流畅和强调。
  - “Okay?”友好提醒，语气柔和。
按照这些准则，您可以创建听起来自然、引人入胜且宛如真人发声的文本转音频脚本。请记住，熟能生巧和不断尝试是掌握此技能的关键。

Chirp 3：高清语音控制

语音控制功能专门用于高清语音合成。请注意，Chirp 3：高清语音不支持 SSML，但您仍然可以通过 Chirp 3：高清语音控制选项管理节奏控制、暂停控制和自定义发音。

语速控制

您可以使用语速参数调整生成的音频的速度。借助语速参数，您可以减慢或加快语音的速度，其值介于 0.25x（非常慢）到 2x（非常快）之间。如需设置语速，请在请求中使用 speaking_rate 参数。选择介于 0.25 到 2.0 之间的值。低于 1.0 的值会减慢语速，高于 1.0 的值会加快语速。值为 1.0 表示未调整的语速。

使用语速控制的 SynthesizeSpeechRequest 示例：

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
    "speaking_rate": 2.0,
  },
  "input": {
    "text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

使用语速控制的 StreamingSynthesizeConfig 示例：

{
  "streaming_audio_config": {
    "audio_encoding": "LINEAR16",
    "speaking_rate": 2.0,
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

语速控制音频示例：

语速	输出
0.5
1.0
2.0

暂停控制

您可以使用 markup 输入字段，将特殊标记直接嵌入到文本中，从而将暂停插入到 AI 生成的语音中。请注意，暂停标记仅适用于 markup 字段，而非 text 字段。

这些标记会指示 AI 创建暂停，但这些暂停的确切时长并非固定不变。AI 会根据上下文调整时长，就像自然的人类语音会因说话者、地点和句子结构而异一样。可用的暂停标记包括 [pause short]、[pause long] 和 [pause]。如需了解在不使用标记标签的情况下创建暂停的替代方法，请参阅我们的提示和编写准则。

AI 模型可能会偶尔忽略暂停标记，尤其是当暂停标记位于文本中不自然的位置时。您可以组合多个暂停标记以实现更长的静音时间，但过度使用可能会导致问题。

使用暂停控制的 SynthesizeSpeechRequest 示例：

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "markup": "Let me take a look, [pause long] yes, I see it.",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

使用暂停控制的 StreamingSynthesisInput 示例：

{
  "markup": "Let me take a look, [pause long] yes, I see it.",
}

暂停控制音频示例：

标记输入	输出
“让我看看，是的，我看到了。”
“让我看看，[长时间停顿] 是的，我看到了。”

自定义发音

您可以使用 IPA 或 X-SAMPA 语音表示法为输入文本中的单词指定自定义发音。请务必使用适合语言的音素以实现准确的呈现。如需详细了解音素替换，请参阅我们的音素文档。

使用自定义发音的 SynthesizeSpeechRequest 示例：

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "text": "There is a dog in the boat",
    "custom_pronunciations": {
      "phrase": "dog",
      "phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
      "pronunciation": "\"k{t",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

使用自定义发音的 StreamingSynthesizeConfig 示例：

{
  "streaming_audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
  "custom_pronunciations": {
    "phrase": "dog",
    "phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
    "pronunciation": "\"k{t",
  }
}

自定义发音音频示例：

已应用自定义发音	输出
无
“dog”的发音为“k{t”

被替换的字词可以采用任何格式，包括使用符号。例如，如果词组匹配存在潜在的上下文模糊（这在汉语和日语等语言中很常见），或者某个单词可能以不同方式发音，则可以对短语进行格式设置以消除模糊。例如，为避免意外覆盖输入文本中其他同形词 read，可将短语 "read" 格式化为 "read1"、"[read]" 或 "(read)"，以便同时应用于输入文本和被覆盖的短语。

请参阅以下示例，将自定义发音应用于句子，其中对 read 一词采用两种不同的发音：

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "text": "I read1 a book, and I will now read2 it to you.",
    "custom_pronunciations": {
      "phrase": "read1",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "rɛd",
    }
    "custom_pronunciations": {
      "phrase": "read2",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "riːd",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

已应用自定义发音	输出
“read”以两种方式覆盖

此外，自定义发音可与标记输入搭配使用，这也支持使用暂停标记：

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "markup": "Did you [pause long] read this book?",
    "custom_pronunciations": {
      "phrase": "read",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "riːd",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

使用的自定义发音	输出
使用暂停标记覆盖发音

语音控制支持的语言

语速控制适用于所有语言区域。
暂停控制适用于所有语言区域。
自定义发音适用于所有语言区域，但 bn-in、gu-in、nl-be、sw-ke、th-th、uk-ua、ur-in 和 vi-vn 除外。

常见问题解答

常见问题及其解答：

如何控制节奏和流程以改善语音输出？

您可以利用我们的提示和编写准则，并改进文本提示，以改进语音输出。

如何使用支持的语言的语音？

语音名称遵循特定格式，可通过指定唯一的语音来在支持的语言中使用。格式遵循 \<locale\>-\<model\>-\<voice\>。例如，如需使用 Chirp 3：高清语音模型的英语（美国）Kore 语音，您可以将其指定为 en-US-Chirp3-HD-Kore。

Chirp 3：高清语音是否支持 SSML？

虽然 Chirp 3：高清语音不支持 SSML，但您仍然可以通过 Chirp 3：高清语音控制选项管理节奏控制、暂停控制和自定义发音。

Chirp 3：高清语音 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

语音选项

支持的语言

区域可用性

支持的输出格式

使用 Chirp 3：高清语音

执行流式语音合成请求

Python

执行在线语音合成请求

Python

脚本和提示技巧

了解目标：自然语音

自然语音的关键技术

Chirp 3：高清语音控制

语速控制

暂停控制

自定义发音

语音控制支持的语言

常见问题解答

如何控制节奏和流程以改善语音输出？

如何使用支持的语言的语音？

Chirp 3：高清语音是否支持 SSML？

Chirp 3：高清语音