数据存储区

数据存储区工具会使用数据存储区从您的数据中查找最终用户问题的解答。数据存储区是指第三方系统中的一系列网站、文档或数据,其中每项都引用您的数据。

当最终用户向客服人员提出问题时,客服人员会从给定的来源内容中搜索答案,并将结果汇总为连贯的客服人员回答。它还提供指向回答来源的支持链接,供最终用户了解详情。客服人员最多可以针对给定问题提供 5 个回答摘要。

数据存储区来源

您可以为数据提供不同的来源:

受限访问权限的数据存储区源

Google 还提供了许多其他第一方和第三方数据存储区来源,作为受限访问功能。如需查看可用来源的列表并请求访问权限,请参阅本页中的其他数据存储区部分。

网站内容

将网站内容添加为来源时,您可以添加和排除多个网站。指定网站时,您可以使用单个网页或 * 作为模式的通配符。系统会处理所有 HTML 和 PDF 内容。

使用网站内容作为来源时,您必须验证您的网域

限制:

  • 来自公共网址的文件必须已被 Google 搜索索引器抓取,因此存在于搜索索引中。您可以使用 Google Search Console 检查是否满足此项要求。
  • 最多可编入索引的网页数量为 20 万个。如果数据存储区包含更多网页,则索引编制将会失败。已编入索引的所有内容都将保留。

导入数据

您可以从 BigQuery 或 Cloud Storage 导入数据。这些数据可以采用常见问题解答的形式非结构化形式,并且可以包含元数据不包含元数据

您可以使用以下数据导入选项

  • 添加/更新数据:提供的文档会添加到数据存储区。如果新文档的 ID 与旧文档的 ID 相同,则新文档会替换旧文档。
  • 覆盖现有数据:系统会删除所有旧数据,然后上传新数据。此操作无法撤消。

常见问题解答数据存储区

FAQ 数据存储区可以存储常见问题解答 (FAQ)。 如果用户问题与上传的问题高度匹配,客服人员会返回该问题的答案,而无需进行任何修改。您可以为客服人员显示的每个问题和答案对提供标题和网址。

数据必须以 CSV 格式上传到数据存储区。每个文件都必须包含用于描述列的标题行。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 列是可选的,可以忽略:

"answer","question"
"42","What is the meaning of life?"

在上传过程中,您可以选择一个文件夹,其中每个文件都会被视为 CSV 文件,无论其扩展名如何。

限制:

  • , 后面的额外空格字符会导致错误。
  • 空白行(即使在文件末尾)也会导致错误。

非结构化数据存储区

非结构化数据存储区可以包含以下格式的内容:

  • HTML
  • PDF
  • TXT
  • CSV

您可以(但不常见)从其他项目的 Cloud Storage 存储桶导入文件。为此,您需要向导入流程授予明确的访问权限。按照错误消息中的说明操作,其中会包含需要对存储桶拥有读取权限才能执行导入操作的用户的名称。

限制:

  • 基于文本的格式文件大小上限为 2.5MB,其他格式文件大小上限为 100MB。

包含元数据的数据存储区

您可以将影视内容和 URL 作为元数据提供。当客服人员与用户对话时,可以向用户提供此类信息。这有助于用户快速链接到 Google 搜索索引编制工具无法访问的内部网页。

如需导入包含元数据的内容,您必须提供一个或多个 JSON 行文件。该文件中的每一行都描述一个文档。您不直接上传实际文档;JSON 行文件中提供了指向 Cloud Storage 路径的 URIs

若要提供 JSON 行文件,您必须提供包含这些文件的 Cloud Storage 文件夹。请勿在此文件夹中放置任何其他文件。

字段说明:

字段 类型 说明
id 字符串 文档的唯一标识符。
content.mimeType 字符串 文档的 MIME 类型。支持“application/pdf”和“text/html”。
content.uri 字符串 Cloud Storage 中文档的 URI。
structData 字符串 包含可选 titleurl 字段的单行 JSON 对象。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

不含元数据的数据存储区

此类内容没有元数据。您需要提供指向各个文档的 URI 链接。内容类型由文件扩展名决定。

解析和分块配置

根据数据源,您或许可以配置 Vertex AI Search 定义的解析和分块设置

将 Cloud Storage 用于数据存储区文档

如果您的内容不是公开的,建议您将内容存储在 Cloud Storage 中。创建数据存储区文档时,您需要以以下形式提供 Cloud Storage 对象的网址:gs://bucket-name/folder-name。文件夹中的每个文档都会添加到数据存储区。

创建 Cloud Storage 存储桶时,请注意以下几点:

按照 Cloud Storage 快速入门中的说明创建存储分区并上传文件。

语言

如需了解支持的语言,请参阅语言参考中的数据存储区列。

为获得最佳性能,建议使用单一语言创建数据存储区。

创建数据存储区后,您可以选择指定数据存储区语言。如果您设置了数据存储区语言,则可以将数据存储区连接到配置为使用其他语言的代理。例如,您可以创建一个法语数据存储区,并将其与英语客服人员相关联。

支持的区域

如需了解支持的区域,请参阅区域参考文档

(受限访问权限)其他数据存储区来源

下表列出了其他数据存储区类型。这些功能是作为访问受限的功能提供的。您可以填写许可名单表单申请访问权限。获得批准后,当您在 AI 应用中创建新的数据存储区时,便会看到这些选项。

Google 数据存储区来源

数据存储区来源 说明
Cloud SQL 从 Cloud SQL 表导入数据。
(预览版)Spanner 从 Spanner 表导入数据。
(预览版)Bigtable 从 Bigtable 表导入数据。
Firestore 从 Firestore 集合导入数据。
(预览版)AlloyDB 从您的 AlloyDB 集群导入数据。
Google 云端硬盘 指向贵组织云端硬盘的链接。
(预览版)Google Gmail 指向贵组织的 Gmail 的链接。
(预览版)Google 协作平台 指向贵组织的协作平台的链接。
(预览版)Google 日历 指向贵组织的日历的链接。
(预览版)Google 群组 指向贵组织的群组的链接。

第三方数据存储区源

数据存储区来源 说明
(预览版)AODocs 从 AODocs 文档管理系统导入数据。
Box 从贵组织的 Box 网站导入数据。
Confluence Cloud 从您的 Confluence Cloud 工作区导入数据。
(预览版)Confluence Data Center 从您的 Confluence Data Center 工作区导入数据。
Dropbox 从您的 Dropbox 存储空间导入数据。
(预览版)Entraid 从贵组织的 EntraID 系统导入数据。
(预览版)HubSpot 从贵组织的 HubSpot 网站导入数据。
Jira Cloud 从 Jira 任务管理系统导入数据。
(预览版)Jira Data Center 从 Jira Data Center 网站导入数据。
(预览版)Marketo 从贵组织的 Marketo 营销系统导入数据。
(预览版)Notion 从贵组织的 Notion 工作区导入数据。
OneDrive 从贵组织的 OneDrive 存储空间导入数据。
Microsoft Outlook 从 Microsoft Outlook 导入数据。
Salesforce 从 Salesforce 导入数据。
ServiceNow 从 ServiceNow 导入数据。
SharePoint 从贵组织的 SharePoint 系统导入数据。
(预览版)Shopify 从贵组织的 Shopify 系统导入数据。
Slack 从 Slack 导入数据。
Microsoft Teams 从 Microsoft Teams 导入数据。
(预览版)WordPress 从贵组织的 WordPress 网站导入数据。

使用连接器设置第三方数据存储区

本部分概述了使用第三方数据设置数据存储区的流程。如需了解适用于每种第三方数据源的具体说明,请参阅生成式 AI 文档

身份提供方

借助身份提供方,您可以管理用户、群组和身份验证。设置第三方数据存储区时,您可以选择使用 Google 身份提供方或第三方身份提供方。

Google 身份提供方

  • 代理的所有用户都需要使用其 Google 凭据进行登录。这可以是任何 @gmail.com 电子邮件地址,也可以是使用 Google 作为身份提供方的任何账号(例如 Google Workspace)。如果用户直接使用 Google Cloud 与客服人员交谈,系统会自动内置 Google 身份,因此会跳过此步骤。
  • 您可以使用 IAM 分配对 Google 账号的访问权限。

第三方身份提供方

  • 代理的用户使用非 Google 凭据(例如 Microsoft 电子邮件地址)进行登录。
  • 您必须使用包含非 Google 身份提供方的 Google Cloud 创建员工池。然后,您可以使用 IAM 授予对整个令牌桶或该令牌桶中的个别用户的访问权限。
  • 此方法不能用于在 @google.com 组织下设置的任何项目。 Google Cloud

连接器

第三方数据存储区是使用连接器实现的。每个连接器可以包含多个数据存储区,这些数据存储区会在对话式代理 (Dialogflow CX) 系统中存储为实体

  • 在创建数据存储区之前,您必须在 Google Cloud -> Agent Builder -> 设置中为每个区域设置单个身份提供程序。该区域中的所有数据存储区都将使用相同的身份提供程序。您可以在员工身份池中选择 Google 身份或第三方身份。如果同一 Google 凭据位于员工身份池中,则会被视为不同的身份。例如,test@gmail.com 被视为与 workforcePools/test-pool/subject/test@gmail.com 不同的身份。

    • 创建员工池(如果需要)。
    • 前往 Agent Builder 设置,然后选择 Google 身份第三方身份。点击保存将身份保存到该区域。
    • 您现在可以在该区域创建数据存储区。
  • 每个数据存储区都会为每个文档保存访问控制列表 (ACL) 数据。这会记录哪些用户或群组对哪些实体拥有读取权限。在运行时,用户或群组成员会收到来自代理的响应,这些响应来自他们拥有读取权限的实体。如果用户对数据存储区中的任何实体都没有读取权限,代理将返回空响应。

  • 由于数据存储区中的数据是第三方实例的副本,因此需要定期刷新。您可以按小时或天的时间刻度配置刷新间隔。

  • 配置数据存储区并点击创建后,数据存储区最长可能需要 1 小时才能显示在数据存储区列表中。

数据存储区跟踪

此功能包含两个部分:

  1. 在代理模拟器中显示数据存储区内部执行跟踪记录和步骤延迟时间。
  2. 将轨迹和延迟时间数据导出到 Cloud Logging 和 BigQuery。

在模拟器中查看数据

如需在客服人员数据中显示跟踪和执行数据,请点击客服人员回复右侧的展开箭头,展开有关对话转换的详细信息。

执行标签页会显示内部数据存储区执行轨迹,包括以下信息:

  • 原始用户输入。
  • 由数据存储区引擎重写的查询。
  • 各种执行步骤期间的质量信号,包括安全检查状态、稳定性检查状态、接地检查结果和安全检查状态。
  • 在数据存储区搜索中搜索摘要。
  • 摘要来源的证明文件列表。

延迟时间标签页会显示各种数据存储区执行步骤的时间图表。步骤列表可能会因数据存储区配置方式和执行流程而异。显示的数据可能包括:

  • 常见问题解答匹配:数据存储区执行了常见问题解答匹配步骤。
  • 查询重写:数据存储区重写了原始用户查询。
  • 搜索:数据存储区执行了摘要搜索。
  • 汇总:数据存储区汇总了响应。
  • 安全检查:数据存储区执行了安全检查步骤。

查看其他位置的轨迹数据

  • 如果对话式聊天机器人配置了对话记录日志记录,您还可以在对话记录中查看数据存储区跟踪。

  • 如果对话式 AI 客服人员配置了 Cloud Logging,您还可以在云端 Logs Explorer 中查看跟踪记录和延迟时间。

  • 如果对话式 AI 客服人员配置了 BigQuery Export,您还可以在导出的 BigQuery 表中查看跟踪记录和延迟时间。

后续步骤

如需了解如何创建数据存储区并将其与代理搭配使用,请参阅数据存储区工具文档。