在機器學習 (ML) 中,特徵是可用於訓練模型或做出線上預測的例項或實體特徵屬性。特徵是透過使用特徵工程技術,將原始機器學習資料轉換為可評估和共用的屬性,通常稱為特徵轉換。
特徵管理是指在集中式位置或存放區中建立、維護、分享及提供機器學習特徵的程序。特徵管理功能可讓您更輕鬆地重複使用特徵來訓練及重新訓練模型,縮短 AI 和機器學習部署作業的生命週期。
產品或服務如果包含特徵管理服務,用於儲存、探索、分享及提供機器學習特徵,就稱為特徵儲存庫。Vertex AI 整合了下列特徵儲存庫服務:
本頁面將介紹並比較這兩項功能管理服務,並提供其功能總覽。並說明如何將 Vertex AI 特徵儲存庫 (舊版) 中的現有特徵儲存庫遷移至新版 Vertex AI 特徵儲存庫。
Vertex AI 特徵儲存庫
Vertex AI 特徵儲存庫提供全新的特徵管理方式,可讓您從 BigQuery 資料來源維護及提供特徵資料。在這種做法中,Vertex AI 特徵儲存庫會充當中繼資料層,為 BigQuery 中的特徵資料來源提供線上服務功能,並讓您根據該資料線上提供特徵。您不需要將資料複製或匯入 Vertex AI 中的個別離線儲存庫。
Vertex AI 特徵儲存庫已與 Dataplex 通用目錄整合,以追蹤特徵中繼資料。它也支援嵌入,可讓您針對最近鄰執行向量相似度搜尋。
Vertex AI 特徵儲存庫經過最佳化處理,可提供超低延遲的服務,並讓您執行下列操作:
在 BigQuery 中儲存及維護離線特徵資料,充分利用 BigQuery 的資料管理功能。
將功能新增至功能登錄檔,以便共用及重複使用。
使用 Bigtable 線上供應服務,以低延遲提供線上預測特徵;或使用最佳化線上供應服務,以超低延遲提供線上預測特徵。
將嵌入項目儲存在特徵資料中,並使用最佳化線上服務功能執行向量相似度搜尋。
追蹤 Dataplex 通用目錄中的地圖項目中繼資料。
如要進一步瞭解 Vertex AI 特徵儲存庫,請參閱 Vertex AI 特徵儲存庫說明文件。
Vertex AI 特徵儲存庫 (舊版)
Vertex AI 特徵儲存庫 (舊版) 提供集中式存放區,可用於儲存、整理及提供機器學習特徵資料。這項資源會在 Vertex AI 中封裝線上商店和離線商店,線上儲存庫會提供最新的特徵值,用於線上預測。離線儲存庫會儲存及維護特徵資料 (包括歷來資料),供您以批次方式提供,用於訓練機器學習模型。
Vertex AI 特徵儲存庫 (舊版) 是一項功能完整的特徵管理服務,可讓您執行下列操作:
從資料來源 (例如 Cloud Storage 值區或 BigQuery 來源) 匯入特徵資料至離線儲存庫,可採用批次或串流方式。
線上提供預測所需的特徵。
為機器學習模型訓練或分析作業提供或匯出特徵資料。
在
EntityType
和Featurestore
資源上設定身分與存取權管理 (IAM) 政策。透過 Google Cloud 控制台管理特徵儲存庫資源。
Vertex AI 特徵儲存庫 (舊版) 不包含嵌入管理或向量擷取功能。如果您需要管理特徵資料中的嵌入項目,或執行向量相似度搜尋,建議改用 Vertex AI 特徵儲存庫。如要瞭解如何遷移至 Vertex AI 特徵儲存庫,請參閱「遷移至 Vertex AI 特徵儲存庫」一文。
如要進一步瞭解 Vertex AI 特徵儲存庫 (舊版),請參閱 Vertex AI 特徵儲存庫 (舊版) 說明文件。
Vertex AI 特徵儲存庫與 Vertex AI 特徵儲存庫 (舊版) 的比較
下表比較 Vertex AI 特徵儲存庫 (舊版) 和新版 Vertex AI 特徵儲存庫的各個面向:
類別 | Vertex AI 特徵儲存庫 | Vertex AI 特徵儲存庫 (舊版) |
---|---|---|
資料模型 | ||
資源階層 (線上和離線商店) | 網路商店中的資源階層如下:FeatureOnlineStore -> FeatureView
|
資源階層如下:Featurestore -> EntityType -> Feature
|
資源階層 (功能註冊表) | 功能登錄中的資源階層如下:FeatureGroup -> Feature
|
Vertex AI 特徵儲存庫 (舊版) 中沒有特徵登錄。 |
功能管理 | ||
線上和實體商店 | 您需要建立線上商店例項,並定義特徵檢視畫面。 Vertex AI 特徵儲存庫不需要單獨的離線儲存庫,因為 BigQuery 資料來源即為離線儲存庫。 |
您在佈建特徵儲存庫時,Vertex AI 特徵儲存庫 (舊版) 會建立個別的線上和離線儲存庫。 |
特徵匯入 | 您不需要將資料匯入離線儲存空間,因為資料會儲存在 BigQuery 中,您可以直接將資料用於離線需求。針對線上服務用途,您可以將 BigQuery 資料表或檢視表註冊為功能檢視表,以便將功能資料複製到線上商店。Vertex AI 特徵儲存庫會在資料同步期間,重新整理線上儲存庫中的資料。 | 您必須使用外部來源 (例如 BigQuery 資料表或 BigQuery 檢視表) 的批次或串流匯入功能,將功能資料匯入離線和線上商店。 |
線上和離線商店之間的資料移轉 | Vertex AI 特徵儲存庫會使用 BigQuery 做為離線儲存庫,並只將最新的特徵值複製到線上儲存庫。Vertex AI 中沒有提供獨立的離線儲存空間。 | 特徵值會複製到離線儲存空間,然後再複製到線上儲存空間。 |
功能提交 | ||
離線放送 | 如要與離線儲存庫互動,您必須使用 BigQuery API。底層功能相同。 | 如要與由 Vertex AI 特徵儲存庫 (舊版) 管理的離線儲存庫互動,您必須使用 Vertex AI API。這類互動包括即時查詢和匯出功能。 |
線上提供 |
Vertex AI 特徵儲存庫提供兩種線上服務:
每個線上讀取要求都會擷取特徵檢視畫面中的所有預設特徵,且不需要額外處理,因此可降低延遲時間。 |
Vertex AI 特徵儲存庫 (舊版) 只提供一種線上服務。您可以指定實體和特徵來擷取特徵資料。 |
介面和 API | ||
Google Cloud 控制台功能 | 您可以使用 Google Cloud 控制台建立及管理資源,例如線上商店執行個體、特徵檢視畫面執行個體、特徵群組和特徵。你也可以查看線上商店清單,以及功能沿革資訊。 | 您可以使用 Google Cloud 主控台執行大部分的功能管理工作,包括資源建立監控。 |
資源建立 API | 包含用於建立 FeatureOnlineStore 、FeatureView 、FeatureGroup 和 Feature 資源的 API。這些資源可讓您設定特徵登錄和網路商店。離線儲存庫則會使用 BigQuery。 |
包含用於建立線上和離線商店所用 Featurestore 、EntityType 和 Feature 資源的 API。 |
批次匯入 API (離線商店) | 不需要 API 就能將資料批次匯入離線商店,因為不需要進行離線商店的批次匯入作業。 | 使用 Vertex AI API 將批次匯入至離線儲存庫。 |
批次匯入 API (網路商店) | 在資料同步期間,定期將資料從 BigQuery 複製到網路商店。 | 使用 Vertex AI API 將批次匯入至線上商店。 |
串流匯入 API (離線商店) | 不需要 API 就能將串流匯入至離線商店,因為不需要另外執行串流匯入至離線商店的步驟。 | 使用 Vertex AI 將串流匯入至離線商店。 |
串流匯入 API (網路商店) | 不支援串流匯入。 | 使用 Vertex AI API 將串流內容匯入線上商店。 |
批次放送 API | 使用 BigQuery API,直接從功能檢視中定義的 BigQuery 資料來源批次提供資料。 | 使用 Vertex AI API 批次處理特徵資料。 |
線上放送 API | 使用 FetchFeatureValues(FetchFeatureValuesRequest) API 。 |
使用 ReadFeatureValues(ReadFeatureValuesRequest) API 進行線上放送。 |
遷移至 Vertex AI 特徵儲存庫
Vertex AI 特徵儲存庫 (舊版) 的資源和特徵資料無法在 Vertex AI 特徵儲存庫中直接使用。如果您是 Vertex AI 特徵儲存庫 (舊版) 的現有使用者,且想要將專案遷移至 Vertex AI 特徵儲存庫,請執行下列步驟。請注意,由於 Vertex AI 特徵儲存庫中的資源階層與 Vertex AI 特徵儲存庫 (舊版) 中的資源階層不同,因此您必須在遷移特徵資料後手動建立資源。
如果 BigQuery 中尚未提供你的功能資料,請將功能資料匯出至 BigQuery,然後建立 BigQuery 資料表和檢視表。匯出及準備資料時,請遵循資料準備規範。例如:
每個地圖項目都會對應至資料欄。實體 ID 可以是單獨的資料欄,您可以將其識別為
ID
欄。Vertex AI 特徵儲存庫沒有
EntityType
和Entity
資源。在對應實體 ID 的資料列中,提供每個實體的特徵值。
根據特徵資料建立線上商店和特徵檢視畫面執行個體,設定線上服務。