本页面介绍了如何将特定的机器学习模型用于发送到 Speech-to-Text 的音频转录请求。
转录模型
Speech-to-Text 会将输入与多个机器学习模型中的一个进行比较,以检测音频片段中的字词。每个模型都通过分析数百万个示例(在此是指大量实际的人物说话录音)进行过训练。
Speech-to-Text 具有众多专业模型,这些模型均通过特定来源的音频进行过训练。当将这些模型用来处理与它们所训练的数据类型类似的音频数据时,可以提供更好的结果。
例如,Speech-to-Text 具有一个经过训练的转录模型,用于识别在电话中录制的语音。当 Speech-to-Text 使用 telephony
模型转写手机音频时,所生成的转写结果会比使用 short
或 long
模型时的手机音频转写结果更准确。
下表显示了可用于 Speech-to-Text 的转写模型。
模型名称 | 说明 |
---|---|
long |
此模型适用于任何类型的长篇内容,例如媒体或自然言语和对话。请考虑使用此模型来代替“视频”或“默认”模型,尤其是在未以您的目标语言提供的情况下。 |
short |
该模型适合用于几秒钟的短语音。它有助于尝试捕获命令或其他单发定向语音应用场景。请考虑使用此模型来代替命令和搜索模型。 |
telephony |
此模型用于源自音频通话的音频,通常以 8 kHz 的采样率录制。非常适合客户服务、电话会议和自动化自助服务终端应用。 |
medical_dictation |
此模型用于对医疗专家口述的备注进行转写,例如一位医生对某位患者的验血结果进行口述备注。 |
medical_conversation |
此模型用于医疗服务提供方(例如医生或护士)与患者之间的对话。当提供方和患者都在讲话时,使用“medical_conversation”模型。系统会自动检测每个讲话人说出的字词并自动添加相应的标签。 |
chirp_2 |
使用由大语言模型技术提供支持的新一代通用大型语音模型 (USM),进行不同语言内容和多语言功能的流式传输、批量转写和翻译。 |
chirp_telephony |
通用大语音模型 (USM) 针对源自电话通话的音频(通常以 8 kHz 的采样率录制)进行了微调。 |
chirp |
通用大语音模型 (USM) 用于提供先进的具有各种语言内容和多语言功能的非流式转写。 |
选择用于音频转录的模型
模型由用于识别请求的识别器指定。调用 speech/projects.locations.recognizers/create
以创建识别器,并使用 model
字段指定模型。如需了解适用于每种语言的有效模型,请参阅支持的语言表格。