取得摘要和擷取的內容

Vertex AI Search 可在每個搜尋回覆中提供搜尋摘要、擷取答案和擷取片段,以提升搜尋結果。

  • 網頁摘要:網頁摘要是搜尋結果文件中的簡短文字摘要,可提供搜尋結果內容的預覽畫面。其中包含可在 UI 中顯示的命中醒目顯示功能。系統通常會在每個搜尋結果下方顯示摘要,協助使用者評估該結果的關聯性和實用性。片段可用於含有非結構化資料和網站資料的資料儲存庫 (包括基本網站搜尋和進階網站索引)。

  • 擷取答案:擷取答案是指與每個搜尋結果一併傳回的逐字文字。直接從原始文件中擷取。摘要解答通常會顯示在網頁頂端附近,為使用者提供與查詢內容相關的簡短解答。擷取式答案適用於含有非結構化資料的資料儲存庫,以及具備進階網站索引功能的資料儲存庫。

  • 擷取片段:擷取片段是指隨每個搜尋結果傳回的逐字文字。擷取片段通常比擷取答案冗長。擷取片段可做為查詢的答案顯示,並用於執行後置處理工作,以及做為大型語言模型的輸入內容,以產生答案或新文字。擷取區段適用於含有非結構化資料和進階網站索引的資料儲存庫。

範例

以下範例說明摘要、摘錄答案和摘錄片段之間的差異。

查詢:「AI 應用程式是什麼?」

  • 程式碼片段:

    為此,我們推出全新的 AI 應用程式,讓開發人員以最快的方式開始建立生成式應用程式,例如機器人、...

  • 擷取答案:

    有了 AI Applications,開發人員就能快速推出新的體驗,包括機器人、即時通訊介面、自訂搜尋引擎、數位助理等等。開發人員可以透過 API 存取 Google 的基礎模型,並使用現成範本,在幾分鐘或幾小時內快速開始建立生成式應用程式。

  • 擷取片段:

    企業和政府也希望透過這項新 AI 技術,讓客戶、合作夥伴和員工的互動更有效率且更有幫助。為此,我們宣布推出全新 AI 應用程式。

    有了 AI Applications,開發人員就能快速推出新的體驗,包括機器人、即時通訊介面、自訂搜尋引擎、數位助理等等。開發人員可以透過 API 存取 Google 的基礎模型,並使用現成範本,在幾分鐘或幾小時內快速開始建立生成式應用程式。開發人員還可以透過 AI 應用程式:

    • 結合機構資料和資訊檢索技術,提供相關答案。
    • 搜尋和回覆時,不只限於文字。
    • 結合自然對話和結構化流程。
    • 除了提供資訊,還能進行交易。

事前準備

視您使用的應用程式類型而定,完成下列先決條件:

文字片段

摘要是從每個搜尋結果文件中逐字擷取出來的短片段。包括在粗體 HTML 標記中醒目顯示命中項目,以便在 UI 中顯示搜尋結果的預覽畫面。通常,片段會以預覽文字的形式顯示在搜尋結果下方,協助使用者決定是否要點選該搜尋結果。

摘要可用於網站和非結構化搜尋。

取得程式碼片段

如何取得程式碼片段:

  1. 傳送含有 ContentSearchSpec.SnippetSpec 的搜尋要求,並將 returnSnippet 設為 true。

    以下 SnippetSpec 範例指定每個搜尋結果可傳回摘要。

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet:如果設為 true,則會傳回網頁摘要。
  2. 從搜尋回應中取得摘要。derivedStructData.snippets 會在每個搜尋結果中傳回片段。

    在這個範例中,系統會將文件做為搜尋回應的其中一個結果傳回,並在結果中加入醒目顯示的命中片段:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet:包含為文件搜尋結果產生的片段。命中高亮顯示會以粗體 HTML 標記呈現。
    • snippet_status:如果系統產生網頁摘要,則會以 SUCCESS 的形式傳回此欄位。如果未產生任何片段,這個欄位會傳回 NO_SNIPPET_AVAILABLE

擷取解答

擷取答案是指從文件中逐字擷取的文字片段。當文件在搜尋回應中以搜尋結果的形式傳回時,系統會隨該結果傳回相關的擷取答案。

擷取式答案可以是從搜尋結果文件中擷取的段落、表格或項目符號清單等文字。擷取答案比擷取片段短。

在精確的逐字回答比重述摘要更有幫助的情況下,可使用擷取式答案取代摘要回覆。

擷取式答案適用於含有非結構化資料的資料儲存庫,以及具備進階網站索引建立功能的資料儲存庫。

取得擷取的答案

如要取得摘要答案:

  1. 傳送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveAnswerCount 的搜尋要求。

    以下 extractiveContentSpec 範例會指定每個搜尋結果可傳回答案。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount:每個搜尋結果要傳回的擷取答案數量。預設值為 0,上限為 5。
  2. 從搜尋回應中取得擷取式答案。extractive_answers 會隨每個搜尋結果傳回擷取答案。

    在這個範例中,系統會將文件做為搜尋回應的其中一個結果傳回,並在結果中加入擷取答案:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以從文件中擷取頁碼,這個欄位會指出擷取答案的位置。
    • content:擷取答案的內容。

擷取區隔

擷取片段是指從搜尋結果文件中逐字擷取的文字片段。擷取片段與擷取答案類似,但擷取片段通常更完整且冗長。一般來說,擷取片段會用於輸入自有 LLM,以便產生答案或新文字。

擷取片段可以是多個段落,包括格式文字,例如表格和項目符號清單。

擷取區隔適用於含有非結構化資料的資料儲存庫,以及已啟用進階網站索引建立功能的資料儲存庫。

擷取區隔選項

萃取區隔提供下列選項:

  • 區隔數量:您可以指定最多 10 個擷取區隔,以便針對每個搜尋結果傳回。

  • 關聯度分數:關聯度分數是根據查詢與擷取的區隔的相似程度計算。您可以指定要傳回擷取的片段,並附上相關性分數。分數範圍從 -1.0 (較不相關) 到 1.0 (較相關)。啟用相關性分數可能會增加延遲時間。

  • 相鄰區間:您可以設定 numPreviousSegmentsnumNextSegments,在相關區間的正前方和正後方取得最多 3 個區間。相鄰區隔可為相關區隔提供背景資訊,提高準確度。

    啟用相鄰區段可能會增加延遲時間。

取得擷取片段

下列步驟說明如何擷取非結構化資料的片段。您可以按照類似的步驟,為網站資料取得擷取區隔。

  1. 傳送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveSegmentCount 的搜尋要求。

    以下 extractiveContentSpec 範例指定每個搜尋結果可傳回一個區段。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount:每個搜尋結果要傳回的擷取片段數量。預設值為 0,上限為 10。

    其他選項:

    • returnExtractiveSegmentScore:將其設為 true,即可在傳回每個區隔時一併傳回相關性分數。
    • numPreviousSegments:在相關區段之前傳回的相鄰區段數量。預設值為 0,上限為 3。使用相鄰區段可能會增加延遲時間。
    • numNextSegments:在相關區隔後方傳回的相鄰區隔數量。預設值為 0,上限為 3。使用相鄰區段可能會增加延遲時間。

    如要進一步瞭解這些選項,請參閱「擷取片段選項」。

  2. 從搜尋回應中取得區隔。系統會在 extractive_segments 中傳回每個搜尋結果的區隔。

    在這個範例中,系統會將文件做為搜尋回應的其中一個結果傳回,並在結果中加入一個片段:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以從文件中擷取頁碼,這個欄位會指出擷取答案的位置。
    • content:擷取片段的內容。

後續步驟