此页面由 Cloud Translation API 翻译。

创建对话数据集

对话数据集包含对话转录数据，用于训练智能回复或总结自定义模型。智能回复使用对话记录向与最终用户对话的人工客服推荐文本响应。总结自定义模型基于包含转录和注解数据的对话数据集进行训练。在对话结束后，他们会使用注释生成对话摘要，供人工客服参考。

您可以通过两种方式创建数据集：使用控制台教程工作流，或在控制台中手动创建数据集（依次选择数据 -> 数据集标签页）。我们建议您首先使用控制台教程。如需使用控制台教程，请前往 Agent Assist 控制台，然后点击您要测试的功能下方的开始按钮。

本页演示了如何手动创建数据集。

准备工作

按照 Dialogflow 设置说明在 Google Cloud Platform 项目上启用 Dialogflow。
我们建议您在开始本教程之前先阅读 Agent Assist 的基础知识页面。
如果您要使用自己的转录数据来实现智能回复，请确保您的转录内容采用指定格式的 JSON 并存储在 Google Cloud Storage 存储桶中。一个对话数据集必须至少包含 30000 个对话，否则模型训练将失败。一般来说，对话数量越多，模型质量就越好。我们建议您移除所含消息少于 20 条或对话轮数（参与者说出话语的变化）少于 3 轮的所有对话。我们还建议您移除任何聊天机器人消息或系统自动生成的消息（例如“客服人员进入聊天室”）。我们建议您上传至少 3 个月的对话，以确保涵盖尽可能多的使用场景。一个对话数据集中的对话数量上限为 100 万。
如果您要使用自己的转录和注解数据来实现总结功能，请确保您的转录内容采用指定格式并存储在 Google Cloud Storage 存储桶中。建议的最小训练注释数量为 1000。强制执行的最小值是 100。
导航到 Agent Assist 控制台。选择您的 Google Cloud Platform 项目，然后点击页面最左侧的数据菜单选项。数据菜单会显示您的所有数据。该菜单包含两个标签页，分别为对话数据集和知识库。
点击对话数据集标签页，然后点击对话数据集页面右上角的 +新建按钮。

使用 Agent Assist 控制台，基于一个或多个对话数据集训练智能回复或总结模型。