Text-to-Speech 文档

自定义语音

Cloud Text-to-Speech API 现在提供 Custom Voices。借助此功能,您可以使用自己的录音室品质的录音来训练自定义语音模型,以创建独特的语音。然后,通过 Cloud Text-to-Speech API,您可以使用自定义语音来合成音频。

如需实现 Custom Voice,请与销售团队成员联系

自定义语音示例

您可以收听以下示例,听到自定义语音的示例。第一个音频示例是原始语音。然后,您可以收听基于原始示例的两个自定义语音示例。

女性 - 原始语音 男性 - 原始语音
女性 - Custom Voice 示例 1 男性 - Custom Voice 示例 1
女性 - Custom Voice 示例 2 男性 - Custom Voice 示例 2

用户提供的训练音频数据

Custom Voice 会提供一个文字转语音 (TTS) 模型,该模型听起来尽可能与您提供的音频数据相似。您的用例获得批准后,Google 会向您发送录音的脚本。建议您找到一名配音演员并与之合作,让其代表您的目标自定义语音。您需要让配音演员录制录音室品质的音频,用作训练数据。如果您的训练数据未通过 Google 的内部确认和验证检查,您可能需要在解决已发现的问题后重新录制或重新提交数据。

模型训练

Google 需要几周的时间来训练和评估您的自定义语音模型。对于 Beta 版功能的重大错误,不提供 SLA 支持。

评估和用户验收测试

Google 对经过训练的模型进行一轮初始评估。当模型超过我们的内部质量标准后,我们就会向您发送使用您的自定义模型录制的离线音频样本。然后,您将按照用户验收测试流程来评估音频结果,并对模型进行正式签收。