本指南提供有关语音功能的附加高级设置。您可以依次前往代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置,开启或关闭这些高级设置。
这些设置适用于代理设置(适用于整个代理)、流设置(适用于整个流并覆盖代理设置)、页面设置(适用于页面并覆盖流和代理设置)以及 fulfillment 设置(适用于 fulfillment 并覆盖页面、流和代理设置)。其中的部分设置可在每个级别使用,具体取决于级别的设置相关性。*在任何较低级别配置这些设置之前,您必须先在代理级别选中启用高级语音设置框(代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置)。
如果这些较低级别选择了自定义选项,更新后的代理级设置不会传播到流、页面和实现级别。如果自定义选项包含多项设置,而您只想更新其中的一部分,那么如果您希望其他设置与代理级设置保持一致,可能还需要更新这些设置。
各级别的设置可用性
下表显示了每个级别可用的高级语音设置:
设置名称 | 代理 | 流程 | 页面 | 履行情况 |
---|---|---|---|---|
模型选择(Speech-to-Text) | ✔ | ✔ | ✔ | |
结束语音识别的灵敏度 | ✔ | ✔ | ✔ | |
基于超时的高级语音结束灵敏度 | ✔ | ✔ | ✔ | |
启用智能断点 | ✔ | |||
无语音超时 | ✔ | ✔ | ✔ | |
打断功能 | ✔ | ✔ | ✔ | |
允许取消部分回答播放 | ✔ | |||
音频导出存储桶 | ✔ | ✔ | ||
DTMF | ✔ | ✔ | ✔ |
模型选择(Speech-to-Text)
可以在代理、流和页面级层设置。
设置用于语音识别的语音模型。此设置是特定于语言的,因此您可以为不同的语言选择不同的模型。您还可以选中替换请求级语音模型,这样即使运行时 API 调用指定了其他模型,系统也会使用所选模型。
对于 Conversational Agents (Dialogflow CX) 电话网关,请参阅限制。 如需了解详情,请参阅语音模型。
结束语音识别的灵敏度
可以在代理、流和页面级层设置。
控制识别最终用户音频输入中语音结束的灵敏度。该值的范围介于 0(低灵敏度,不太可能结束语音)到 100(高灵敏度,很有可能结束语音)之间。
基于超时的高级语音结束灵敏度
可以在代理级层设置,并在流级层和页面级层停用。
如果启用此设置,系统会使用语音结束灵敏度设置值作为衡量标准,以确定相对的音频静音超时时间,从而确定语音结束时间。如果此设置处于停用状态(默认),系统会使用语音结束灵敏度设置值,通过 Google Cloud Speech-to-Text 提供的机器学习模型来确定语音结束时间。
虽然结束语音识别的灵敏度设置默认仅支持 en-US
语言标记的 phone_call
语音模型,但启用基于高级超时时间的结束语音识别的灵敏度设置允许为 Dialogflow 支持的所有语言和语音模型配置结束语音识别的灵敏度。
启用智能断点
只能在代理级层设置。
如果启用此设置,对话智能体 (Dialogflow CX) 将分析部分用户输入,以确定语音结束时间。例如,如果用户说“我想”,然后停顿,对话智能体 (Dialogflow CX) 会等待用户继续说下去。
这对于收集数字参数特别有用,因为用户可能会先说“1234”,然后暂停一下再说“5678”。如需为特定参数应用此设置,您必须在相应参数的表单中设置智能端点。
此设置仅适用于 en-US
语言标记,默认处于停用状态。
无语音超时
可以在代理、流和页面级层设置。
Conversational Agents (Dialogflow CX) 停止等待最终用户音频输入的持续时间(以秒为单位)。默认值为 5 秒,最大值为 60 秒。对于此超时,Conversational Agents (Dialogflow CX) 会调用无输入事件。
打断功能
可在代理、流和履单级层设置。
启用后,最终用户可以中断 Conversational Agents (Dialogflow CX) 响应音频。中断后,Conversational Agents (Dialogflow CX) 将停止发送音频,并将处理下一个最终用户输入。
如果消息队列中有多个消息,并且消息被与启用了打断功能的网页、流或代理关联的 fulfillment 加入队列,则队列中的所有后续消息也会启用打断功能。在这种情况下,集成会停止播放所有启用了打断功能的排入队列的消息的音频。
允许取消部分回答播放
只能在履单级别设置。
在代理设置 > 语音和 IVR 中选中启用高级语音设置复选框,并在 fulfillment 级别启用部分响应后,即可启用此设置。此设置允许取消部分响应播放。
如果消息队列中的消息是由允许取消的 fulfillment 创建的,那么当队列中添加另一条消息时,系统会取消该消息的播放。如果您希望初始消息开始播放,但如果工作 webhook 在初始消息播放完成之前生成另一条消息,则取消该播放,那么此功能非常有用。
音频导出存储桶
可在代理级层和流级层设置。
如果提供,则与请求关联的所有音频数据都将保存到 Cloud Storage 存储桶:
音频已保存 | 适用的请求 |
---|---|
最终用户音频输入 | DetectIntent、StreamingDetectIntent、AnalyzeContent、StreamingAnalyzeContent |
为响应合成的 Text-to-Speech (TTS) 音频 | AnalyzeContent、StreamingAnalyzeContent |
将 Storage Object Creator 角色授予项目中的以下服务账号:
格式为
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com
的服务账号(如果您使用合作伙伴内置电话集成)。格式为
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com
的服务账号(如果您使用 Dialogflow CX 电话网关集成)。如需在 IAM 中查找此服务账号,请选中包括 Google 提供的角色授权选项。
DTMF
如需详细了解此功能,请参阅 DTMF(双音多频信号)文档。