获取摘要和提取内容

Vertex AI Search 可以为每个搜索结果提供搜索摘要、提取式回答和提取式片段,以增强搜索结果。

  • 摘要:摘要是指搜索结果文档中的简短文本摘录,可提供搜索结果内容的预览。其中包括您可以在界面中呈现的命中突出显示效果。摘要通常显示在每条搜索结果下方,可帮助最终用户评估相应搜索结果的相关性和实用性。数据集内包含非结构化数据和网站数据(基本网站搜索和高级网站索引)时,可使用摘要。

  • 提取式回答:提取式回答是指随每个搜索结果一起返回的原文。它是直接从原始文档中提取的。摘要回答通常显示在网页顶部附近,以便为最终用户提供与其查询在上下文上相关的简短回答。提取式回答适用于包含非结构化数据且具有高级网站索引编制功能的数据存储区。

  • 摘要片段:摘要片段是随每条搜索结果返回的逐字文本。提取式段落通常比提取式回答更详尽。提取式片段可以作为查询的回答显示,还可用于执行后处理任务,并用作大型语言模型的输入,以生成回答或新文本。提取式细分适用于包含非结构化数据且启用了高级网站索引的数据存储区。

示例

以下示例有助于说明摘要、摘要回答和摘要片段之间的区别。

询问:“什么是 Vertex AI Agent Builder?”

  • 代码段:

    为此,我们推出了全新的 Vertex AI Agent Builder,让开发者能够快速着手构建聊天机器人、...

  • 抽样回答:

    借助 Vertex AI Agent Builder,开发者可以快速交付全新体验,包括聊天机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用模板在数分钟或数小时内快速开始构建生成式应用。

  • 提取细分:

    企业和政府也希望利用这项全新 AI 技术,让客户、合作伙伴和员工互动更加高效和实用。为此,我们推出了全新的 Vertex AI Agent Builder。

    借助 Vertex AI Agent Builder,开发者可以快速交付全新体验,包括聊天机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并可使用开箱即用的模板在数分钟或数小时内快速开始构建生成式应用。借助 Vertex AI Agent Builder,开发者还可以:

    • 结合使用组织数据和信息检索技术,提供相关答案。
    • 除了文字之外,还可以使用其他方式进行搜索和回复。
    • 将自然对话与结构化流程相结合。
    • 不要只是告知,还要进行交易。

准备工作

根据您所用的应用类型,完成以下前提条件:

代码段

摘要是从每条搜索结果文档中逐字提取的短文本。这些标记包括使用粗体 HTML 标记突出显示命中项,以便在界面中呈现搜索结果预览。通常,摘要会以预览文本的形式显示在搜索结果下方,以帮助最终用户决定点击该搜索结果是否有用。

摘要适用于网站搜索和非结构化搜索。

获取代码段

如需获取摘要,请执行以下操作:

  1. 发送包含 ContentSearchSpec.SnippetSpec 且将 returnSnippet 设置为 true 的搜索请求。

    以下 SnippetSpec 示例指定可以为每条搜索结果返回一个摘要。

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet:如果设置为 true,则返回摘要。
  2. 从搜索响应中获取摘要。系统会在 derivedStructData.snippets 中随每个搜索结果返回摘要。

    在搜索响应中作为结果之一返回的文档示例中,结果中包含带有粗体突出显示的命中内容的摘要:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet:包含为文档搜索结果生成的摘要。 命中数据突出显示包含在粗体 HTML 标记中。
    • snippet_status:如果生成了摘要,此字段会作为 SUCCESS 返回。如果未生成摘要,此字段将返回为 NO_SNIPPET_AVAILABLE

抽样回答

提取式回答是指从文档中逐字提取的一段文本。当文档作为搜索响应中的搜索结果返回时,系统可以随该结果一起返回相关的摘要回答。

提取式回答可以是从搜索结果文档中提取的段落、表格或项目符号列表等文本。抽样答案比抽样段短。

在准确的逐字答案优于重述式摘要的情况下,提取式回答可以用作摘要回答的替代方案。

提取式回答适用于包含非结构化数据且启用了高级网站索引的数据存储区。

获取抽样回答

如需获取抽样回答,请执行以下操作:

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveAnswerCount 的搜索请求。

    以下 extractiveContentSpec 示例指定可以为每个搜索结果返回一个答案。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount:为每个搜索结果返回的提取式回答的数量。默认值为 0,最大值为 5。
  2. 从搜索响应中获取摘要型回答。extractive_answers 会随每个搜索结果一起返回提取式回答。

    在搜索响应中作为结果之一返回的文档示例中,结果中包含提取式回答:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取来源。
    • content:提取式回答的内容。

提取细分

提取段是指从搜索结果文档中逐字提取的一段文本。提取性段与提取性回答类似,但提取性段通常更完整、更详细。通常,提取段会用作您自己的 LLM 的输入,以生成答案或新文本。

提取段落可以是多个段落,包括表格和项目符号列表等格式化文本。

提取式细分受众群适用于包含非结构化数据且启用了高级网站索引的数据存储区。

提取式细分选项

提取式片段提供以下选项:

  • 段数:您最多可以为每个搜索结果指定 10 个要返回的摘要段。

  • 相关性得分:相关性得分取决于查询与提取的片段的相似程度。您可以指定返回的摘要片段应附带相关性得分。得分范围为 -1.0(不相关)到 1.0(相关)。开启相关性得分可能会增加延迟时间。

  • 相邻细分:您可以设置 numPreviousSegmentsnumNextSegments,以获取相关细分前后最多 3 个细分。相邻细分可为相关细分添加背景信息,提高其准确性。

    开启相邻路段可能会增加延迟时间。

获取摘要片段

以下步骤展示了如何获取非结构化数据的摘要片段。 您可以按照类似的步骤为网站数据获取提取式细分。

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveSegmentCount 的搜索请求。

    以下 extractiveContentSpec 示例指定,系统可以为每个搜索结果返回一个细分。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount:为每个搜索结果返回的摘要片段数量。默认值为 0,最大值为 10。

    其他选项:

    • returnExtractiveSegmentScore:设置为 true 可在返回每个片段时返回相关性得分。
    • numPreviousSegments:在相关路段之前要返回的相邻路段的数量。默认值为 0,最大值为 3。使用相邻路段可能会增加延迟时间。
    • numNextSegments:在相关片段之后要返回的相邻片段的数量。默认值为 0,最大值为 3。使用相邻路段可能会增加延迟时间。

    如需详细了解这些选项,请参阅提取式片段选项

  2. 从搜索响应中获取细分。系统会在 extractive_segments 中随每个搜索结果返回细分。

    在搜索响应中作为结果之一返回的文档示例中,结果中包含一个片段:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取来源。
    • content:摘要片段的内容。

后续步骤