此页面由 Cloud Translation API 翻译。

自定义语音模型概览

自定义 Speech-to-Text 模型可帮助您根据自己的具体需求调优语音识别模型。此服务旨在使用特定领域的音频和文本数据，提高语音识别服务在各种环境和用例中的准确性和相关性。

自定义 Speech-to-Text 模型在我们的 Google Cloud 控制台和 API 中都可以访问，它支持在无代码集成环境中训练、评估和部署专用语音模型。在训练时，您只能提供代表音频条件的音频数据，而没有参考转写作为训练集。但是，您需要在评估集中提供音频数据及其参考转写。

创建和使用自定义 Speech-to-Text 模型包括以下步骤：

工作方式

您可以使用自定义 Speech-to-Text 模型来增强基本转写模型，从而改进转写识别。某些音频条件（包括警报、音乐和过度的背景噪音）可能会给声学带来挑战。某些口音或不寻常的词汇（例如产品名称）同样也会带来挑战。

每个自定义 Speech-to-Text 模型都使用基于 Conformer 的预训练架构作为使用常用语言的专有数据训练的基本模型。在训练过程中，通过调整很大比例的原始权重来调优基本模型，以提升特定于您的应用的领域特定词汇和音频条件的识别。

为了有效训练自定义 Speech-to-Text 模型，您必须提供以下内容：

至少 100 个音频小时的训练数据，可以是纯音频，也可以是以相应文本转写作为标准答案的音频。这些数据对于初始训练阶段至关重要，因此模型可以全面学习语音模式和词汇的细微差别。如需了解详情，请参阅创建标准答案数据集。
一个包含至少 10 个音频小时的验证数据的单独数据集，相应的文字转写内容作为标准答案。请参阅我们的数据准备说明，详细了解要遵循的预期格式和标准答案惯例。

训练成功后，您只需点击一下端点，即可在端点中部署自定义 Speech-to-Text 模型，并通过 Cloud Speech-to-Text V2 API 直接使用该模型以进行推断和基准化分析。

自定义 Speech-to-Text 模型支持以下模型、语言和语言区域的组合以进行训练：

此外，为满足您的数据驻留要求，我们会在不同区域提供训练和部署硬件。以下模型和区域组合支持专用硬件：

基本模型	Google Cloud 区域	支持的任务
`latest_long`	`us-east1`	训练和部署
`latest_long`	`europe-west4`	训练和部署

对于自定义 Speech-to-Text 模型训练，每个 Google Cloud 项目都应具有足够的默认配额，以便同时运行多个训练作业，从而满足大多数项目的需求，而无需进行额外调整。但是，如果您需要运行更多数量的并发训练作业，或者需要更广泛的标签或计算资源，则需要申请更多配额。

对于提供端点部署的自定义 Speech-to-Text 模型，理论上每个端点的限制为 20 次查询/每秒 (QPS)。如果需要更高的吞吐量，请申请额外的服务配额。

创建和使用自定义 Speech-to-Text 模型涉及某些费用，这些费用主要基于模型训练和后续部署期间使用的资源。具体来说，自定义 Speech-to-Text 模型在典型的模型生命周期中会产生以下费用：

了解这些费用对于有效的预算和资源分配至关重要。如需了解详情，请参阅“自定义 Speech-to-Text 模型”部分中的 Cloud Speech-to-Text 价格。

请按照以下资源的说明在应用中利用自定义语音模型：