语音类型

Text-to-Speech 可生成音质自然、宛如真人发声的音频,从而生成听上去像真人发声的语音。首先,在发送合成请求时指定语音。

Text-to-Speech 提供多种语音,可根据语言、性别和口音进行选择。有些语言有多个选项。如需查看完整列表,请参阅支持的语音页面。如需选择语音,请在 API 请求中使用 VoiceSelectionParams 字段。如需了解如何发出 synthesize 请求,请参阅快速入门

概览

语音类型 适用于 发布阶段 可控性 流式
历程 对话式 AI 助理
预览 -
Studio 两个音箱 组合 媒体 - 讨论和访谈

实验性 - -
一位发言人 媒体 - 旁白
GA SSML -
Neural2 通用
GA SSML -
Standard 经济高效
GA SSML -

价格详情

历程语音

借助由 AudioLM 引擎提供支持的 Journey 语音,您可以为对话式应用创建更具吸引力和同理心的语音。通过文本流式传输,Journey 语音可实现低延迟的实时通信,并支持受支持的语音列表中列出的语言。

聊天体验


语音:en-US-Journey-F

其他示例

虚拟助理


语音:en-US-Journey-D

客户服务聊天机器人


语音:en-US-Journey-F

交互式教育应用


语音:en-US-Journey-O

销售和推介


语音:en-US-Journey-D

故事时间


语音:en-US-Journey-F

Studio 多音箱语音

使用新的多语音工作室语音制作对话和访谈,该语音采用了与历程语音相同的技术。


Studio 语音

Studio 语音专为新闻阅读和广播内容设计。


示例 1:朗读《了不起的盖茨比》(Great Gatsby) 的 en-US-Studio-O 语音。

Neural2 语音

Text-to-Speech API 提供了一个名为 Neural2 的语音层级。Neural2 语音基于用于创建自定义语音的相同技术。Neural2 使任何人都可以无需训练自己的自定义语音便可使用自定义语音技术。在全球和单区域端点中提供。


示例 1:Neural2 语音

标准语音

Text-to-Speech 提供的语音在制作方式和用于创建语音机器模型的合成语音技术方面也有所不同。“参数式文字转语音”是一种场景语音技术,通常通过称为声码器 的信号处理算法传递输出来生成音频数据。Text-to-Speech 中提供的许多标准语音都使用了这种技术的变体。