本頁面說明 Vertex AI Search 應用程式和資料儲存庫。
您可以透過 Vertex AI Search 建立搜尋或推薦應用程式,並連結到資料儲存庫。 Google Cloud 專案可以包含多個應用程式。
應用程式和資料儲存庫之間的關係
應用程式和資料儲存庫的關係取決於應用程式類型:
自訂搜尋應用程式和資料儲存庫之間為多對多關係。當多個資料儲存庫連結至單一自訂搜尋應用程式時,這稱為混合搜尋。如要瞭解將搜尋應用程式連結至多個資料儲存庫的限制,請參閱「關於混合搜尋」。
自訂推薦應用程式和資料儲存庫為一對一關係。
媒體應用程式和資料儲存庫為多對一關係。應用程式只能連結至一個資料儲存庫,但一個資料儲存庫可以連結至多個應用程式。舉例來說,媒體搜尋應用程式和媒體推薦應用程式可以共用資料儲存庫。
醫療照護搜尋應用程式和資料儲存庫為多對一關係。應用程式只能連結至一個資料儲存庫,但一個資料儲存庫可以連結至多個應用程式。舉例來說,面向患者的應用程式和面向醫療服務提供者的應用程式,可以連結相同的資料儲存庫。
針對醫療保健資料的批次資料匯入作業,系統會將資料匯入應用程式中的資料儲存庫。針對醫療保健資料的串流資料匯入作業 (預先發布版),系統會將資料匯入實體,這是資料連接器中的一種資料儲存庫。資料連接器也是應用程式內的一種資料儲存庫。
資料儲存庫連到應用程式後,就無法中斷連結。
應用程式建立和資料擷取方法
建立應用程式並擷取資料的方式,取決於您擁有的資料類型:
如要查看網站資料,您可以使用 Google Cloud 控制台或 API。如要使用透過 API 建立的網站資料,您必須將其附加至在 Google Cloud 控制台中啟用企業功能的應用程式。
如要使用結構化或非結構化資料,您可以使用Google Cloud 控制台或 API。
如要處理醫療保健資料,您可以使用 Google Cloud 控制台或 API。
文件
每個資料儲存庫都含有一或多個資料記錄,稱為「文件」。文件內容取決於資料儲存庫中的資料類型:
網站:文件是網頁。
結構化資料。文件是指資料表中的資料列,或採用特定結構定義的 JSON 記錄。您可以自行提供這個結構定義,或由 AI 應用程式從擷取的資料中取得。
媒體的結構化資料。文件是指資料表中的資料列,或採用媒體專屬結構定義的 JSON 記錄。這些文件是指與媒體內容相關的記錄,例如影片、新聞文章、音樂檔案和 Podcast。文件中至少包含以下描述媒體項目的資訊:標題、內容位置的 URI、類別、時間長度和可用日期。
非結構化資料。文件是指 HTML、TXT 或含嵌入文字的 PDF 檔案。預先發布版支援 PPTX 和 DOCX 格式。
醫療照護 FHIR 資料。文件是指支援的 FHIR R4 資源。如要查看 Vertex AI Search 支援的 FHIR R4 資源清單,請參閱 Healthcare FHIR R4 資料結構定義參考資料。
資料儲存庫和應用程式
AI 應用程式中有多種資料儲存庫。一個資料儲存庫只能包含一種資料類型。
網站資料
含有網站資料的資料儲存庫會使用從公開網站建立索引的資料。您可以提供一組要納入資料儲存庫的網址模式。符合網址模式的網頁稱為「已納入」網頁。接著,您可以設定搜尋從所納入網頁檢索到的資料。
舉例來說,您可以提供 example.com/faq/*
和 example.com/events/*
等網址模式,並啟用這些網頁中符合模式的資料檢索功能。這類資料包括文字、標有中繼資料的圖片,以及其他結構化資料,例如 meta
標記、PageMap 屬性和 schema.org 資料。
您也可以為要排除的網站部分提供網址模式,例如 example.com/events/members-only/*
或 example.com/events/past-*
。排除的網址優先於納入的網址。
網站資料儲存庫分為兩種類型:
基本網站搜尋:
- 針對所納入的網站,提供現有 Google 搜尋索引的搜尋功能。
- 不需要驗證網域。
進階網站索引建立功能:
- 提供進階搜尋功能,適用於根據下列任一項產生的索引:
- Vertex AI Search 應用程式擁有者可以提交並維護網站地圖,藉此控管哪些網頁會建立索引。詳情請參閱「使用 Sitemap 索引及重新整理網頁」一文。這個程序可讓索引保持最新狀態,無須人工介入。
- Vertex AI Search 應用程式擁有者可以執行初始索引,以便複製 Google 搜尋索引,然後視需要重新檢索網站,擴大索引的涵蓋範圍,確保索引保持最新狀態。詳情請參閱「重新整理網頁」。進階網站索引功能的進階功能列於「進階網站索引」一文。
- Vertex AI Search 資料儲存庫擁有者必須驗證所附網站所屬的網域。詳情請參閱「驗證網站網域」。
- 提供將結構化資料新增至資料儲存庫結構定義的功能。網站含有非結構化資料,但您可以透過
meta
標記、PageMap 屬性和 schema.org 資料,將結構化資料新增至網頁。接著,您可以使用這項結構化資料來編輯資料儲存庫結構定義,如「使用結構化資料進行進階網站索引」一文所述。
- 提供進階搜尋功能,適用於根據下列任一項產生的索引:
後續步驟
網站搜尋:
- 如要瞭解索引的必要條件,請參閱為網站搜尋準備資料。
- 使用網站內容建立資料儲存庫。
- 建立搜尋應用程式。
結構化資料
有了存放結構化資料的資料儲存庫,您就能對結構化資料啟用語意搜尋或推薦功能。您可以從 BigQuery 或 Cloud Storage 匯入資料。你也可以透過 API 手動上傳結構化 JSON 資料。
舉例來說,您可以對產品目錄啟用搜尋或推薦功能,以提升電子商務體驗;或對醫生目錄啟用提供者搜尋或推薦功能。
AI 應用程式會從您匯入的資料中自動偵測結構定義。您可以選擇為資料提供架構。為資料提供結構定義通常可改善結果品質。
後續步驟
針對自訂搜尋:
- 準備結構化資料以供擷取。
- 請使用下列任一方法建立搜尋資料儲存庫:
- 建立搜尋應用程式。
如要使用自訂推薦功能:
媒體的結構化資料
媒體應用程式只能連結至媒體資料儲存庫。媒體資料儲存庫是使用 Google 定義的結構定義或您自訂的結構定義,其中包含一組特定的五個媒體相關欄位。如要進一步瞭解結構定義,請參閱「關於媒體文件和資料儲存庫」。
舉例來說,您可以為電影目錄或新聞網站建立媒體建議應用程式,讓使用者獲得合適的個人化建議。
除了媒體文件之外,媒體資料儲存庫還包含使用者事件資訊,可讓 Vertex AI Search 為使用者提供客製化推薦內容和搜尋結果。媒體應用程式需要使用者事件。如要瞭解使用者事件,請參閱「記錄即時使用者事件」。
後續步驟
非結構化資料
非結構化資料儲存庫可針對文件和圖片等資料進行語意搜尋。
非結構化資料儲存庫支援 HTML、含嵌入文字的 PDF 和 TXT 格式文件。預先發布版支援 PPTX 和 DOCX 格式。
搜尋結果會以 10 個網址和自然語言查詢答案摘要的形式呈現。文件必須上傳至具備適當存取權限的 Cloud Storage 值區。舉例來說,金融機構可以針對私人金融研究出版品提供搜尋功能,或讓生技公司針對私人醫療研究存放區提供搜尋或推薦功能。
後續步驟
適用於搜尋:
- 準備非結構化資料以供擷取。
- 請使用下列任一方法建立搜尋資料儲存庫:
- 為非結構化資料建立搜尋資料儲存庫。
- 建立搜尋應用程式。
醫療照護 FHIR 資料
醫療照護搜尋應用程式會使用從 Cloud Healthcare API FHIR 儲存庫匯入的 FHIR R4 資料。如需 Vertex AI Search 支援的 FHIR R4 資源清單,請參閱「Healthcare FHIR R4 資料結構定義參考資料」。FHIR R4 資料儲存庫必須符合特定規定,才能當做 Vertex AI Search 資料儲存庫的資料來源。詳情請參閱如何準備醫療照護 FHIR 資料以供擷取。
後續步驟
關於混合搜尋
您可以建立混合搜尋應用程式,讓多個資料儲存庫連結至單一自訂搜尋應用程式。這項功能可讓您使用單一應用程式,搜尋多個來源和資料類型。
如要建立混合搜尋應用程式,請在建立新的自訂搜尋應用程式時選取多個資料儲存庫。如果您在建立時未選取多個資料儲存庫,日後就無法再新增其他資料儲存庫。
取得搜尋結果時,您可以搜尋所有資料儲存庫,也可以篩選單一資料儲存庫的結果。
限制如下:
- 新增及移除資料儲存庫:
- 如要為應用程式啟用混合搜尋功能,您必須在建立應用程式時連結至少兩個資料儲存庫。
- 您可以新增或移除混合搜尋應用程式的資料儲存庫,但應用程式連結的資料儲存庫數量不得少於兩個。
- 如果您在建立應用程式時將單一資料儲存庫連結至搜尋應用程式,就無法新增或移除該資料儲存庫。
- 網站資料儲存庫必須啟用進階網站索引建立功能,才能用於混合搜尋。詳情請參閱「進階網站索引建立」。
- 不支援含有使用 BigQuery 匯入的非結構化資料的資料儲存庫。
- 混合搜尋允許在搜尋要求中使用下列欄位:
boostSpec
contentSearchSpec
dataStoreSpecs
facetSpecs
filter
languageCode
offset
oneBoxPageSize
orderBy
query
pageSize
pageToken
relevanceScoreSpec
relevanceThreshold
session
sessionSpec
spellCorrectionSpec
userInfo
userPseudoId
- 混合搜尋允許在
dataStoreSpecs
中使用下列欄位:dataStore
boostSpec
:如果同時為SearchRequest
和dataStoreSpecs
指定了加強功能規格,系統會將這兩項加強功能規格套用至搜尋結果filter
:如果同時為SearchRequest
和dataStoreSpecs
指定篩選器,系統會將兩個篩選器套用至搜尋結果
- 混合應用程式支援在服務設定上執行建立、讀取、更新和刪除 (CRUD) 作業。您只能在放送設定中新增或更新下列欄位:
boostControlIds
displayName
filterControlIds
genericConfig
:contentSearchSpec
name
solutionType
synonymsControlIds
- 混合搜尋應用程式支援下列控制項的 CRUD 作業:
boostAction
synonymAction
filterAction
- 每個搜尋應用程式的資料儲存庫上限為 50 個。
- 如果一個資料儲存庫使用 CMEK 設定,所有其他資料儲存庫也必須使用相同的 CMEK 設定。