您必須先在 BigQuery 中設定特徵資料來源,才能開始使用 Vertex AI 特徵儲存庫在線上提供特徵:
使用地圖項目資料建立 BigQuery 資料表或檢視表。如要將地圖項目資料載入 BigQuery 資料表或檢視表,您可以使用資料建立 BigQuery 資料集、建立 BigQuery 資料表,然後將資料集中的地圖項目資料載入資料表。
將特徵資料載入 BigQuery 資料表或檢視表後,您必須將這個資料來源提供給 Vertex AI 特徵儲存庫,以便在線上提供服務。您可以透過兩種方式,將資料來源連結至線上資源,例如線上商店和特徵檢視畫面例項:
建立特徵群組和特徵來註冊資料來源:您可以在線上商店中,將特徵群組和特徵與特徵檢視畫面例項建立關聯。您可以使用下列任一方式設定資料格式:
請加入功能時間戳記欄,將資料格式設為時間序列。Vertex AI 特徵儲存庫會根據這個資料欄中的特徵時間戳記,為每個不重複的實體 ID 提供最新的特徵值。
設定資料格式時,請勿納入特徵時間戳記欄。Vertex AI 特徵儲存庫會管理時間戳記,並只提供每個專屬實體 ID 的最新特徵值。
如要進一步瞭解如何建立功能群組,請參閱「建立功能群組」。如要瞭解如何在地圖項目群組中建立地圖項目,請參閱「建立地圖項目」。
直接從資料來源提供地圖項目,不必建立地圖項目群組和地圖項目:您可以在地圖檢視畫面中指定資料來源的 URI。請注意,在這種情況下,您無法將資料格式化為時間序列,也無法在 BigQuery 來源中納入歷來資料。每個資料列都必須包含與專屬 ID 相對應的最新特徵值。不支援在不同列中出現多個相同實體 ID。
Vertex AI 特徵儲存庫可讓您在 BigQuery 中維護特徵資料,並提供來自 BigQuery 資料集來源的特徵,因此無須將特徵匯入或複製到離線儲存庫。
資料來源準備指南
在 BigQuery 中準備資料來源時,請按照下列規範瞭解結構定義和限制:
在資料來源中加入下列資料欄:
實體 ID 欄:資料來源至少須包含一個含有
string
或int
值的實體 ID 欄。這個資料欄的預設名稱為entity_id
。您可以為這個欄使用其他名稱。這個欄中的每個值大小不得超過 4 KB。請注意,您也可以使用多個資料欄中的特徵來建構實體 ID,藉此指定特徵記錄。在這種情況下,您可以在資料來源中加入多個實體 ID 資料欄。每個實體 ID 欄的名稱都必須不重複。如果您是透過建立地圖項目群組來註冊資料來源,請為每個地圖項目群組設定實體 ID 欄。否則,如果您直接將資料來源與地圖項目檢視畫面建立關聯,請設定地圖項目檢視畫面,指定實體 ID 欄。
請注意,您可以在資料來源中加入多個 ID 欄。在這種情況下,每個實體 ID 欄的名稱都必須是唯一的。您可以設定特徵群組或特徵檢視,以便使用特徵記錄的每個資料欄值建構實體 ID。
特徵時間戳記欄:選用。如果您使用特徵群組和特徵註冊資料來源,且需要將資料格式化為時間序列,請加入特徵時間戳記欄。時間戳記欄包含
timestamp
類型的值。時間戳記欄的預設名稱為feature_timestamp
。如果您想使用不同的資料欄名稱,請使用time_series
參數設定地圖項目群組的時間戳記資料欄。如果您未指定時間戳記資料欄,以時間序列格式設定資料,Vertex AI 特徵儲存庫會管理特徵的時間戳記,並提供最新的特徵值。
如果您直接將 BigQuery 資料來源與地圖檢視畫面建立關聯,則不需要
feature_timestamp
欄。在這種情況下,您必須在資料來源中只納入最新的特徵值,Vertex AI 特徵儲存庫不會查詢時間戳記。嵌入和篩選資料欄:選用。如要在為最佳化線上放送服務而建立的網路商店中使用嵌入管理功能,資料來源必須包含下列資料欄:
包含
float
類型陣列的embedding
資料欄。選用:一或多個篩選資料欄,類型為
string
或string
陣列。選用:類型為
int
的擁擠資料欄。
資料來源中的每一列都是與實體 ID 相關聯的特徵值完整記錄。如果某一欄缺少特徵值,系統會將其視為空值。
BigQuery 資料表或檢視表的每個欄都代表一個特徵。請在不同的資料欄中提供每個特徵的值。如果您要將資料來源與地圖項目群組和地圖項目建立關聯,請將每個欄與個別地圖項目建立關聯。
支援的地圖項目值資料類型包括
bool
、int
、float
、string
、timestamp
、這些資料類型的陣列和位元組。請注意,在資料同步期間,類型為timestamp
的功能值會轉換為int64
。資料來源必須位於與網路商店執行個體相同的地區,或是包含或重疊網路商店所在地區的多地區。舉例來說,如果線上商店位於
us-central
,BigQuery 來源可能位於us-central
或US
。在線上供應前同步特徵檢視畫面中的資料,確保您只提供最新的特徵值。如果您使用的是排定資料同步功能,可能需要手動同步功能檢視中的資料。不過,如果您使用持續性資料同步功能搭配最佳化線上放送功能,則無須手動同步資料。