資料儲存庫

資料儲存庫可讓資料儲存庫工具根據資料,為使用者的問題找出答案。資料儲存庫是指第三方系統中的網站、文件或資料集合,每個項目都會參照您的資料。

當使用者向代理程式提出問題時,代理程式會在所提供的來源內容中搜尋答案,並將結果統整為連貫的代理程式回應。並提供相關連結,方便使用者進一步瞭解回覆內容的來源。服務機器人最多可為特定問題提供五個答案片段。

資料儲存庫來源

您可以提供以下不同來源的資料:

受限存取資料儲存來源

Google 提供許多其他第一方和第三方資料儲存庫來源,做為受限存取權功能。如要查看可用來源的清單,並要求存取權,請參閱本頁的「其他資料儲存來源」一節。

網站內容

新增網站內容做為來源時,您可以新增及排除多個網站。指定網站時,您可以使用個別網頁或 * 做為模式的萬用字元。系統會處理所有 HTML 和 PDF 內容。

使用網站內容做為來源時,必須驗證網域

限制:

  • 來自公開網址的檔案必須已由 Google 搜尋索引器檢索,這樣這些檔案才會存在於搜尋索引中。你可以使用 Google Search Console 檢查這項資訊。
  • 最多會為 200,000 個網頁建立索引。如果資料儲存庫包含更多網頁,系統就會在該處失敗。任何已編入索引的內容都會保留。

匯入資料

您可以從 BigQuery 或 Cloud Storage 匯入資料。這類資料可以是常見問題形式非結構化資料,也可以包含中繼資料不含中繼資料

以下是可用的資料匯入選項

  • 新增/更新資料:系統會將提供的文件新增至資料儲存庫。如果新文件的 ID 與舊文件相同,新文件會取代舊文件。
  • 覆寫現有資料:刪除所有舊資料,然後上傳新資料。這項操作無法復原。

常見問題資料儲存庫

常見問題資料儲存庫可儲存常見問題 (FAQ) 的解答。如果使用者的問題與上傳的問題高度相符,代理程式就會直接傳回該問題的答案,不做任何修改。您可以為代理程式顯示的每個問題和答案組合提供標題和網址。

資料必須以 CSV 格式上傳至資料儲存庫。每個檔案都必須有描述資料欄的標頭列。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 欄為選用欄,可省略:

"answer","question"
"42","What is the meaning of life?"

在上傳過程中,您可以選取一個資料夾,讓系統將每個檔案視為 CSV 檔案,不論副檔名為何。

限制:

  • , 後方多了一個空格會導致錯誤。
  • 空白行 (即使位於檔案結尾) 都會導致錯誤。

非結構化資料儲存庫

非結構化資料儲存庫可包含下列格式的內容:

  • HTML
  • PDF
  • TXT
  • CSV

您可以從其他專案的 Cloud Storage 值區匯入檔案 (但不常見)。為此,您必須明確授予匯入程序的存取權。請按照錯誤訊息中的操作說明進行,其中會列出需要存取儲存桶讀取權限才能執行匯入作業的使用者名稱。

限制:

  • 文字格式的檔案大小上限為 2.5 MB,其他格式的檔案大小上限為 100 MB。

含有中繼資料的資料儲存庫

標題和 URL 可做為中繼資料提供。當服務專員與使用者對話時,可以將這項資訊提供給使用者。這有助於使用者快速連結至 Google 搜尋索引器無法存取的內部網頁。

如要匯入含有中繼資料的內容,您必須提供一或多個 JSON Lines 檔案。這個檔案的每一行都會描述一個文件。您不需要直接上傳實際文件,JSON Lines 檔案會提供連結至 Cloud Storage 路徑的 URIs

如要提供 JSON Lines 檔案,您必須提供包含這些檔案的 Cloud Storage 資料夾。請勿在這個資料夾中放置任何其他檔案。

欄位說明:

欄位 類型 說明
id 字串 文件的專屬 ID。
content.mimeType 字串 文件的 MIME 類型。支援「application/pdf」和「text/html」。
content.uri 字串 Cloud Storage 中文件的 URI。
structData 字串 單行 JSON 物件,含有選用的 titleurl 欄位。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

不含中繼資料的資料儲存庫

這類內容沒有中繼資料。請改為提供個別文件的 URI 連結。內容類型是由副檔名決定。

剖析和區塊設定

視資料來源而定,您或許可以設定 Vertex AI Search 定義的剖析和區塊設定

將 Cloud Storage 用於資料儲存庫文件

如果您的內容不是公開內容,建議您將內容儲存在 Cloud Storage 中。建立資料儲存庫文件時,請在 gs://bucket-name/folder-name 表單中提供 Cloud Storage 物件的網址。資料夾中的每份文件都會新增至資料儲存庫。

建立 Cloud Storage 值區時:

請按照 Cloud Storage 快速入門操作說明建立值區並上傳檔案。

語言

如需支援的語言,請參閱語言參考資料中的資料儲存庫欄。

為獲得最佳效能,建議您使用單一語言建立資料儲存庫。

建立資料儲存庫後,您可以選擇指定資料儲存庫語言。如果您設定資料儲存庫語言,可以將資料儲存庫連結至已針對其他語言設定的服務專員。舉例來說,您可以建立與英文服務連結的法文資料儲存庫。

支援的地區

如需支援的區域,請參閱區域參考資料

(受限存取) 其他資料儲存來源

下表列出其他資料儲存類型。這些功能的存取權受限。您可以填寫許可清單表單來申請存取權。獲得核准後,您在 AI 應用程式中建立新的資料儲存庫時,就會看到這些選項。

Google 資料儲存庫來源

資料儲存庫來源 說明
Cloud SQL 從 Cloud SQL 資料表匯入資料。
(預先發布版) Spanner 匯入 Spanner 資料表的資料。
(預先發布版) Bigtable 從 Bigtable 資料表匯入資料。
Firestore 從 Firestore 集合匯入資料。
(預先發布版) AlloyDB 匯入 AlloyDB 叢集的資料。
Google 雲端硬碟 貴機構雲端硬碟的連結。
(預先發布版) Google Gmail 貴機構 Gmail 的連結。
(預先發布版) Google 協作平台 貴機構的 Google 協作平台連結。
(預先發布) Google 日曆 貴機構的 Google 日曆連結。
(預先發布版) Google 網路論壇 貴機構網路論壇的連結。

第三方資料儲存來源

資料儲存庫來源 說明
(預先發布版) AODocs 從 AODocs 文件管理系統匯入資料。
Box 從貴機構的 Box 網站匯入資料。
Confluence Cloud 從 Confluence Cloud 工作區匯入資料。
(預先發布版) Confluence Data Center 從 Confluence Data Center 工作區匯入資料。
Dropbox 從 Dropbox 儲存空間匯入資料。
(預先發布版) EntraID 從貴機構的 EntraID 系統匯入資料。
(預先發布版) HubSpot 從貴機構的 HubSpot 網站匯入資料。
Jira Cloud 從 Jira 工作管理系統匯入資料。
(預先發布版) Jira 資料中心 從 Jira Data Center 網站匯入資料。
(預先發布版) Marketo 從貴機構的 Marketo 行銷系統匯入資料。
(預先發布版) Notion 從貴機構的 Notion 工作區匯入資料。
OneDrive 從貴機構的 OneDrive 儲存空間匯入資料。
Microsoft Outlook 從 Microsoft Outlook 匯入資料。
Salesforce 從 Salesforce 匯入資料。
ServiceNow 從 ServiceNow 匯入資料。
SharePoint 從貴機構的 SharePoint 系統匯入資料。
(預先發布版) Shopify 從貴機構的 Shopify 系統匯入資料。
Slack 從 Slack 匯入資料。
Microsoft Teams 從 Microsoft Teams 匯入資料。
(預先發布版) WordPress 從貴機構的 WordPress 網站匯入資料。

使用連接器設定第三方資料儲存庫

本節將概略說明如何使用第三方資料設定資料儲存庫。如要瞭解各個第三方資料來源的操作說明,請參閱生成式 AI 說明文件

識別資訊提供者

您可以透過身分提供者管理使用者、群組和驗證機制。設定第三方資料儲存庫時,您可以選擇使用 Google 身分識別資訊提供者或第三方身分識別資訊提供者。

Google 識別資訊提供者:

  • 代理程式的使用者都必須使用 Google 憑證登入。這可以是任何 @gmail.com 電子郵件地址,或是使用 Google 做為身分識別提供者的任何帳戶 (例如 Google Workspace)。如果使用者直接使用 Google Cloud 與服務專員交談,系統會自動略過這個步驟,因為 Google 身分會自動建構在系統中。
  • 您可以使用 IAM 指派 Google 帳戶存取權。

第三方識別資訊提供者:

  • 代理程式的使用者會使用非 Google 憑證登入,例如 Microsoft 電子郵件地址。
  • 您必須使用包含非 Google 身分識別資訊提供者的 Google Cloud ,建立工作團隊集區。接著,您可以使用 IAM 將存取權授予整個集區,或該集區中的個別使用者。
  • 這個方法無法用於在 @google.com 機構下設定的任何 Google Cloud 專案。

連接器

第三方資料儲存庫是使用連接器實作。每個連接器可包含多個資料儲存庫,這些儲存庫會儲存在對話式服務專員 (Dialogflow CX) 系統中的實體中。

  • 建立資料儲存庫前,您必須在 Google Cloud ->「Agent Builder」->「Settings」 中,為每個區域設定單一身分識別提供者。該區域的所有資料儲存庫都會使用相同的 ID 提供者。您可以在工作團隊集區中選擇 Google 身分或第三方身分。同一個 Google 憑證如果位於人力資源池中,就會被視為不同的身分。舉例來說,test@gmail.comworkforcePools/test-pool/subject/test@gmail.com 的識別資訊不同。

    • 建立工作團隊集區 (如有需要)。
    • 前往「Agent Builder」的「設定」,然後選取「Google 身分」或「第三方身分」。按一下「儲存」,將身分識別資訊儲存到區域。
    • 您現在可以在該區域建立資料儲存庫。
  • 每個資料儲存庫都會為每份文件儲存存取控制清單 (ACL) 資料。這項資料是記錄哪些使用者或群組可讀取哪些實體。在執行階段期間,使用者或群組成員「只會」收到來自代理程式的回應,該代理程式會從他們具有讀取權的實體取得資料。如果使用者沒有資料儲存庫中任何實體的讀取權限,代理程式會傳回空白回應。

  • 由於資料儲存庫中的資料是第三方執行個體的副本,因此需要定期重新整理。您可以根據小時或天數的時間刻度設定更新間隔。

  • 設定資料儲存庫並點選「Create」(建立) 後,資料儲存庫最多可能需要一小時才會顯示在資料儲存庫清單中。

資料儲存庫追蹤

這項功能包含兩個部分:

  1. 在代理程式模擬器中顯示資料儲存庫內部執行追蹤和步驟延遲。
  2. 將追蹤記錄和延遲資料匯出至 Cloud Logging 和 BigQuery。

在模擬工具中查看資料

如要在代理程式資料中顯示追蹤和執行資料,請按一下代理程式回應右側的展開箭頭,展開對話輪次的詳細資料。

「執行」分頁會顯示內部資料儲存庫執行追蹤記錄,包括下列資訊:

  • 原始使用者輸入內容。
  • 資料儲存庫引擎重寫的查詢。
  • 各種執行步驟中的品質信號,包括安全檢查狀態、穩定性檢查狀態、接地檢查結果和安全檢查狀態。
  • 從資料儲存庫搜尋摘要。
  • 摘錄片段來源的證明文件清單。

「延遲時間」分頁會顯示各種資料儲存庫執行步驟的時間圖表。步驟清單可能因資料儲存庫的設定方式和執行流程而異。顯示的資料可能包括:

  • 常見問題比對:資料儲存庫執行常見問題比對步驟。
  • 查詢改寫:資料儲存庫改寫原始使用者查詢。
  • 搜尋:資料儲存庫執行程式碼片段搜尋。
  • 摘要:資料儲存庫已將回應內容摘要。
  • 安全性檢查:資料儲存庫執行安全性檢查步驟。

查看其他位置的追蹤資料

  • 如果對話方塊代理程式已設定對話記錄記錄功能,您也可以在「對話記錄」中查看資料儲存庫追蹤記錄。

  • 如果對話方程式已設定 Cloud Logging,您也可以在雲端 記錄檔探索工具中查看追蹤記錄和延遲時間。

  • 如果對話方塊代理程式已設定 BigQuery 匯出功能,您也可以在匯出的 BigQuery 資料表中查看追蹤記錄和延遲時間。

後續步驟

如需建立資料儲存庫並與服務專員搭配使用的操作說明,請參閱資料儲存庫工具說明文件。