以下各節將介紹 Vertex AI 特徵儲存庫 (舊版) 資料模型,以及用於說明 Vertex AI 特徵儲存庫 (舊版) 資源和元件的術語。
Vertex AI 特徵儲存庫 (舊版) 資料模型
Vertex AI 特徵儲存庫 (舊版) 使用時間序列資料模型,儲存特徵的一系列值。這個模型可讓 Vertex AI 特徵儲存庫 (舊版) 維護特徵值,因為特徵值會隨時間變化。Vertex AI 特徵儲存庫 (舊版) 會依下列順序,以階層方式整理資源:Featurestore -> EntityType -> Feature
。您必須先建立這些資源,才能將資料匯入 Vertex AI 特徵儲存庫 (舊版)。
舉例來說,假設您有來自 BigQuery 資料表的下列範例來源資料。這項來源資料與電影及其功能有關。
如要將這項資料匯入 Vertex AI 特徵儲存庫 (舊版),必須先建立特徵儲存庫,這是所有其他資源的頂層容器。在特徵儲存庫中,建立實體類型,將相關特徵分組並納入其中。接著,您可以建立對應至來源資料中特徵的特徵。實體類型和特徵的名稱可以與資料欄標題名稱相同,但並非必要。
在本例中,movie_id
欄標題可對應至實體類型 movie
。average_rating
、title
和 genre
是 movie
實體類型的特徵。每個資料欄中的值會對應至特定實體類型或特徵的執行個體,分別稱為「實體」和「特徵值」。
時間戳記資料欄會指出特徵值的產生時間。在 Feature Store 中,時間戳記是特徵值的屬性,而非獨立的資源類型。如果所有特徵值都是在同一時間產生,則不需要時間戳記欄。您可以在匯入要求中指定時間戳記。
Featurestore
特徵儲存庫是實體類型、特徵和特徵值的頂層容器。一般來說,機構會建立一個共用特徵商店,以便在機構內的所有團隊之間匯入、提供及共用特徵。不過,有時您可能會選擇在同一個專案中建立多個特徵商店,以隔離環境。舉例來說,您可能為實驗、測試和實際工作環境分別建立特徵商店。
實體類型
實體類型是語意相關特徵的集合。您可以根據與用途相關的概念,自行定義實體類型。舉例來說,電影服務可能具有 movie
和 user
實體類型,這些類型會將對應電影或顧客的相關特徵分組。
實體
實體是實體類型的例項。舉例來說,movie_01
和 movie_02
是 movie
實體類型的實體。在特徵商店中,每個實體都必須有不重複的 ID,且類型必須為 STRING
。
功能
特徵是實體類型的可量化屬性。舉例來說,movie
實體類型具有 average_rating
和 title
等特徵,可追蹤電影的各種屬性。特徵與實體類型相關聯。
特徵在特定實體類型中不得重複,但不必是全域唯一值。舉例來說,如果您對兩種不同的實體類型使用 title
,Vertex AI 特徵儲存庫 (舊版) 會將 title
解讀為兩種不同的特徵。讀取特徵值時,您會在要求中提供特徵及其實體類型。
建立特徵時,您會指定特徵的值類型,例如 BOOL_ARRAY
、DOUBLE
、DOUBLE_ARRAY
和 STRING
。這個值會決定特定特徵可匯入的值類型。如要進一步瞭解支援的值類型,請參閱 API 參考資料中的 valueType
。
特徵值
Vertex AI 特徵儲存庫 (舊版) 會擷取特定時間點的特徵值。換句話說,您可以為特定實體和特徵設定多個值。舉例來說,movie_01
實體可以有多個 average_rating
特徵的特徵值。這個值可以先是 4.4
,之後再設為 4.8
。Vertex AI 特徵儲存庫 (舊版) 會將元組 ID 與每個特徵值 (entity_id
、feature_id
、timestamp
) 建立關聯,Vertex AI 特徵儲存庫 (舊版) 會在服務期間使用這些 ID 查詢值。
即使時間是連續的,Vertex AI 特徵儲存庫 (舊版) 仍會儲存離散值。在時間 t
要求特徵值時,Vertex AI 特徵儲存庫 (舊版) 會傳回時間 t
之前或當時儲存的最新值。舉例來說,如果 Vertex AI 特徵儲存庫 (舊版) 儲存車輛在 100
和 110
時間點的位置資訊,則在 100
(含) 和 110
(不含) 之間的所有時間,系統都會使用 100
時間點的位置資訊來處理要求。如果需要更高解析度,可以推斷值之間的間隔,或提高資料的取樣率。
匯入特徵
特徵匯入是指將特徵工程工作計算出的特徵值匯入特徵儲存庫的程序。匯入資料之前,必須先在特徵商店中定義相應的實體類型和特徵。Vertex AI 特徵儲存庫 (舊版) 提供批次和串流匯入功能,可讓您大量或即時新增特徵值。
舉例來說,您可能已在 BigQuery 或 Cloud Storage 等位置計算來源資料。您可以從這些來源批次匯入資料至中央特徵商店,以便以統一格式提供這些特徵值。來源資料變更時,您可以使用串流匯入功能,快速將這些變更匯入特徵商店。這樣一來,您就能在線上放送情境中使用最新資料。
特徵供應
特徵提供是匯出儲存特徵值的程序,用於訓練或推論。Vertex AI 特徵儲存庫 (舊版) 提供兩種特徵服務方法:批次和線上。批次服務適用於高總處理量,以及為離線處理作業 (例如模型訓練或批次預測) 提供大量資料。線上服務適用於低延遲資料擷取,可擷取小批資料以進行即時處理 (例如線上預測)。
實體檢視畫面
從特徵存放區擷取值時,服務會傳回包含所要求特徵值的實體檢視區塊。您可以將實體檢視畫面視為特徵和值的投影,Vertex AI 特徵儲存庫 (舊版) 會從線上或批次服務要求傳回這些特徵和值:
- 如果是線上放送要求,您可以取得特定實體類型的所有或部分特徵。
- 如果是批次服務要求,您可以取得一或多個實體類型的所有或部分特徵。舉例來說,如果特徵分布在多個實體類型中,您可以透過單一要求一併擷取這些特徵,並將這些特徵聯結在一起。然後,您可以使用結果來提供機器學習或批次預測要求。
匯出資料
Vertex AI 特徵儲存庫 (舊版) 可讓您從特徵儲存庫匯出資料,以便備份及封存特徵值。您可以選擇匯出最新特徵值 (快照) 或一系列值 (完整匯出)。詳情請參閱匯出特徵值。