關於 Vertex AI 特徵儲存庫

Vertex AI 特徵儲存庫是 Vertex AI 不可或缺的代管式雲端原生特徵儲存庫服務。這項功能可讓您在 BigQuery 資料表或檢視表中管理特徵資料,簡化機器學習特徵管理和線上服務程序。接著,您就可以直接從 BigQuery 資料來源在線上提供功能。

Vertex AI 特徵儲存庫會配置資源,讓您指定特徵資料來源,以設定線上提供機制。接著,它會充當中繼資料層,與 BigQuery 資料來源建立介面,並直接從 BigQuery 提供最新的特徵值,以便在線上進行低延遲預測。

在 Vertex AI 特徵儲存庫中,包含特徵資料的 BigQuery 資料表或檢視表會共同組成離線儲存庫。您可以在離線儲存庫中維護特徵值,包括歷來特徵資料。由於所有特徵資料都會在 BigQuery 中維護,Vertex AI 特徵儲存庫不需要在 Vertex AI 中佈建個別的離線儲存庫。此外,如果您想使用離線儲存庫中的資料訓練機器學習模型,可以使用 BigQuery 中的 API 和功能匯出或擷取資料。

使用 Vertex AI 特徵儲存庫設定及開始線上服務的工作流程可歸納如下:

  1. 在 BigQuery 中準備資料來源。

  2. 選用:建立特徵群組和特徵,註冊資料來源。

  3. 設定線上儲存庫和特徵檢視畫面資源,將特徵資料來源連結至線上供應叢集。

  4. 並線上提供特徵檢視表的最新特徵值

Vertex AI 特徵儲存庫資料模型和資源

本節將說明與 Vertex AI 特徵儲存庫以下各項方面相關聯的資料模型和資源:

BigQuery 中的資料來源準備作業

在線上服務期間,Vertex AI 特徵儲存庫會使用 BigQuery 資料來源的特徵資料。設定特徵註冊庫或線上服務資源前,您必須先將特徵資料儲存在一或多個 BigQuery 資料表或檢視表中。

在 BigQuery 資料表或 View 中,每個資料欄都代表一個特徵。每個資料列都包含與專屬 ID 相對應的特徵值。如要進一步瞭解如何在 BigQuery 中準備地圖項目資料,請參閱「準備資料來源」。

舉例來說,在圖 1 中,BigQuery 資料表包含下列欄:

  • f1f2:特徵欄。

  • entity_id:ID 欄,其中包含用於識別每個功能記錄的專屬 ID。

  • feature_timestamp時間戳記欄。

以時間序列格式,包含 f1 和 f2 特徵的功能檢視畫面。
圖 1. BigQuery 資料來源範例。

由於您是在 BigQuery 中準備資料來源,而非在 Vertex AI 中準備,因此您不需要在這個階段建立任何 Vertex AI 資源。

特徵註冊庫設定

在 BigQuery 中準備好資料來源後,您就可以在「特徵註冊中心」中註冊這些資料來源 (包括特定特徵欄)。

您可以選擇是否要註冊功能。即使您未將 BigQuery 資料來源新增至特徵註冊庫,也可以在線上提供特徵。不過,在下列情況下註冊功能會更有優勢:

  • 您的資料包含相同實體 ID 的多個例項,因此您需要以時間序列格式 (含時間戳記欄) 準備資料。註冊特徵時,Vertex AI 特徵儲存庫會查詢時間戳記,並只提供最新的特徵值。

  • 您想要註冊資料來源中的特定特徵欄。

  • 您想匯總多個資料來源的特定欄,以定義地圖檢視畫面例項。

  • 您想監控特徵統計資料並偵測特徵偏移。

特徵註冊中心中有兩種 Vertex AI 特徵儲存庫資源:

特徵資料的特徵註冊庫資源

如要在特徵登錄表中註冊特徵資料,您必須建立下列 Vertex AI 特徵儲存庫資源:

  • 特徵群組 (FeatureGroup):FeatureGroup 資源與特定 BigQuery 來源資料表或檢視表相關聯。它代表特徵欄的邏輯群組,這些欄由 Feature 資源表示。地圖項目群組也包含一或多個實體 ID 欄,用於識別地圖項目記錄。如果地圖項目資料採用時間序列格式,則地圖項目群組也必須包含時間戳記欄。如要瞭解如何建立功能群組,請參閱「建立功能群組」。

  • 特徵 (Feature):Feature 資源代表特定資料欄,其中包含特徵資料來源的特徵值,且與其父項 FeatureGroup 資源相關聯。如要進一步瞭解如何在地圖項目群組中建立地圖項目,請參閱「建立地圖項目」。

舉例來說,圖 2 顯示特徵群組,其中包含特徵欄 f1f2,這些欄來自與特徵群組相關聯的 BigQuery 資料表。BigQuery 資料來源包含四個特徵欄,其中兩個欄會匯總為特徵群組。特徵群組也包含實體 ID 欄和特徵時間戳記欄。

包含以時序格式呈現的 f1 和 f2 特徵的特徵組合。
圖 2. 範例:包含兩個 Feature 欄的 FeatureGroup,這些欄的資料來源為 BigQuery。

用於特徵監控的功能註冊資源

特徵監控資源可讓您監控使用 FeatureGroupFeature 資源註冊的特徵資料。您可以建立下列與功能監控相關的資源:

  • 特徵監控項目 (FeatureMonitor):FeatureMonitor 資源與 FeatureGroup 資源和該特徵群組中一或多個特徵相關聯。指定監控時間表。您可以建立多個特徵監控資源,為特徵群組中的相同特徵設定不同的監控時間表。舉例來說,如果 f1f2 功能每小時更新一次,但 f3f4 功能每天更新一次,您可以建立兩個功能監控資源,以便有效監控這些功能:

    • 特徵監控器 fm1 會針對 f1f2 的功能,每小時執行一次監控工作。

    • 特徵監控器 fm2 會每天針對 f3f4 執行監控工作。

  • 特徵監控工作 (FeatureMonitorJob):FeatureMonitorJob 資源包含特徵統計資料和執行特徵監控工作時擷取的資訊。也可能包含在功能資料中偵測到的異常現象資訊,例如功能偏移。

如要進一步瞭解如何建立特徵監控資源,請參閱「監控特徵是否有異常現象」。

線上供應設定

如要提供線上預測所需的特徵,您必須定義及設定至少一個線上供應叢集,並將該叢集與特徵資料來源或特徵註冊資源建立關聯。在 Vertex AI 特徵儲存庫中,線上服務叢集稱為線上儲存庫執行個體。線上商店例項可包含多個地圖檢視畫面例項,每個地圖檢視畫面都會與地圖資料來源建立關聯。

線上供應資源

如要設定線上提供機制,您必須建立下列 Vertex AI 特徵儲存庫資源:

  • 線上商店 (FeatureOnlineStore):FeatureOnlineStore 資源代表線上服務叢集執行個體,並包含線上服務設定,例如線上服務節點數。線上商店例項不會指定特徵資料來源,但會包含 FeatureView 資源,這些資源會在 BigQuery 或特徵註冊庫中指定特徵資料來源。如要瞭解如何建立網路商店執行個體,請參閱「建立網路商店執行個體」。

  • 特徵檢視畫面 (FeatureView):FeatureView 資源是指線上商店例項中的特徵邏輯集合。建立地圖檢視畫面時,您可以透過下列任一方式指定地圖資料來源的位置:

    • 將一或多個特徵群組和特徵與特徵註冊表建立關聯。地圖項目群組會指定 BigQuery 資料來源的位置。特徵群組中的特徵會指向該資料來源中的特定特徵欄。

    • 或者,您也可以連結 BigQuery 來源資料表或檢視表。

    如要瞭解如何在網路商店中建立特色檢視表例項,請參閱「建立特色檢視表」。

舉例來說,圖 3 顯示特徵檢視畫面,其中包含特徵欄 f2f4,這些欄來自與 BigQuery 資料表相關聯的兩個獨立特徵群組。

特徵檢視表包含來自兩個特徵群組的特徵 f2 和 f4。
圖 3. 範例:FeatureView 包含來自兩個獨立地圖項目群組的地圖項目。

線上提供

Vertex AI 特徵儲存庫提供下列類型的線上服務,以便即時提供線上預測結果:

  • Bigtable 線上提供功能可用於提供大量資料 (數 TB 的資料)。這項功能類似於 Vertex AI 特徵儲存庫 (舊版) 中的線上服務,並提供更完善的快取功能。Bigtable 線上服務不支援嵌入。如果您需要提供經常更新的大量資料,且不需要提供嵌入內容,請使用 Bigtable 線上服務。

  • 最佳化線上提供服務可讓您以超低延遲時間線上提供特徵。雖然線上供應服務的延遲時間取決於工作負載,但經過最佳化的線上供應服務可提供比 Bigtable 線上供應服務更短的延遲時間,因此建議在大多數情況下使用這項服務。最佳化線上服務也支援嵌入物管理。

    如要使用最佳化線上放送,您必須設定公開端點或專屬 Private Service Connect 端點。

如要瞭解如何在設定特徵後,在 Vertex AI 特徵儲存庫中設定線上服務,請參閱「線上服務類型」。

批次預測或模型訓練的離線服務

由於您不需要將特徵資料從 BigQuery 複製或匯入 Vertex AI 中的個別離線儲存空間,因此可以使用 BigQuery 的資料管理和匯出功能執行以下操作:

如要進一步瞭解如何使用 BigQuery 進行機器學習,請參閱 BigQuery ML 簡介

Vertex AI 特徵儲存庫條款

特徵工程
  • 特徵工程是指將原始機器學習 (ML) 資料轉換為可用於訓練機器學習模型或進行推論的特徵的程序。

功能
  • 在機器學習 (ML) 技術中,特徵是指個別例項或實體的特性或屬性,可用於訓練機器學習模型或進行推論。

特徵值
  • 特徵值對應至執行個體或實體的特徵 (屬性) 的實際且可量化值。不重複實體的特徵值集合代表與該實體相對應的特徵記錄。

功能時間戳記
  • 特徵時間戳記會指出實體特定特徵記錄中的特徵值組合產生時間。

功能記錄
  • 地圖項目記錄是所有地圖項目值的匯總,用於描述特定實體在特定時間點的屬性。

與功能登錄相關的術語

功能登錄表
  • 特徵註冊庫是用於記錄您要提供用於線上推論的特徵資料來源的集中式介面。詳情請參閱「功能登錄設定」。

功能群組
  • 特徵群組是一組特徵註冊庫資源,對應的 BigQuery 來源資料表或檢視表包含特徵資料。特徵檢視畫面可能包含特徵,可視為資料來源中特徵欄的邏輯分組。

功能服務
  • 特徵服務是指匯出或擷取特徵值以供訓練或推論的程序。Vertex AI 提供兩種特徵服務:線上服務和離線服務。線上供應功能會擷取特徵資料來源子集的最新特徵值,用於線上推論。離線或批次服務會匯出大量特徵資料 (包括歷來資料),用於離線處理,例如機器學習模型訓練。

實體商店
  • 離線儲存庫是儲存最近和歷史特徵資料的儲存設施,通常用於訓練機器學習模型。離線儲存庫也包含最新的特徵值,可用於線上推論。

線上商店
  • 在特徵管理中,線上儲存庫是用於儲存最新特徵值的儲存空間,可用於線上推論。

功能檢視畫面
  • 特徵檢視畫面是指從 BigQuery 資料來源到線上商店執行個體的邏輯特徵集合。特徵檢視會儲存並定期重新整理客戶的特徵資料,這些資料會定期從 BigQuery 來源重新整理。特徵檢視會直接或透過與特徵註冊庫資源的關聯,與特徵資料儲存空間建立關聯。

位置限制

所有 Vertex AI 特徵儲存庫資源都必須位於與 BigQuery 資料來源相同的地區或多地區位置。舉例來說,如果地圖項目資料來源位於 us-central1,您必須在 us-central1US 多地區位置中建立 FeatureOnlineStore 例項。

地圖項目中繼資料

Vertex AI 特徵儲存庫已與 Dataplex Universal Catalog 整合,可提供特徵管理功能,包括特徵中繼資料。線上商店執行個體、功能檢視畫面和功能群組會自動註冊為 Data Catalog 中的資料資產,這是一項可將這些資源的中繼資料編目入 Data Catalog 的功能。接著,您可以使用 Dataplex Universal Catalog 的中繼資料搜尋功能,搜尋、查看及管理這些資源的中繼資料。如要進一步瞭解如何搜尋 Vertex AI 特徵儲存庫資源,請參閱「在 Data Catalog 中搜尋資源中繼資料」。

功能標籤

您可以在建立資源時或之後,為資源加上標籤。如要進一步瞭解如何在現有的 Vertex AI 特徵儲存庫資源中新增標籤,請參閱「更新標籤」一文。

資源版本中繼資料

Vertex AI 特徵儲存庫僅支援特徵的 0 版本。

特徵監控

Vertex AI 特徵儲存庫可讓您設定特徵監控功能,擷取特徵統計資料並偵測特徵資料中的異常情形。您可以設定監控排程,定期執行監控工作,也可以手動執行監控工作。如要進一步瞭解如何設定特徵監控功能並執行特徵監控工作,請參閱「監控特徵是否有異常」。

嵌入管理和向量擷取

Vertex AI 特徵儲存庫中的最佳化線上服務支援嵌入管理。您可以將嵌入項目儲存在 BigQuery 中,做為一般 double 陣列。您可以使用 Vertex AI 特徵儲存庫的嵌入管理功能,執行向量相似度搜尋,擷取指定實體或嵌入值的近似最鄰近實體。

如要在 Vertex AI 特徵儲存庫中使用嵌入管理功能,請執行下列操作:

如要瞭解如何在 Vertex AI Feature Store 中執行向量相似度搜尋,請參閱「針對實體執行向量搜尋」。

資料保留

Vertex AI 特徵儲存庫會根據資料來源中特徵值的相關聯時間戳記,保留專屬 ID 的最新特徵值。網路商店沒有資料保留期限限制。

由於離線儲存庫是由 BigQuery 配置,因此 BigQuery 的資料保留限制或配額可能會套用至特徵資料來源,包括歷來特徵值。進一步瞭解 BigQuery 的配額和限制

配額與限制

Vertex AI 特徵儲存庫會強制實施配額和限制,協助您設定用量限制來管理資源,並預防使用量意外暴增的情況,進而保障Google Cloud 使用者社群的權益。如要有效使用 Vertex AI 特徵儲存庫資源,且不觸及這些限制,請查看 Vertex AI 特徵儲存庫配額和限制

定價

如要瞭解 Vertex AI 特徵儲存庫的資源使用量定價,請參閱「Vertex AI 特徵儲存庫定價」。

筆記本教學課程

請參閱下列範例和教學課程,進一步瞭解 Vertex AI 特徵儲存庫。

使用 Vertex AI 特徵儲存庫 Bigtable 線上服務,線上提供及擷取 BigQuery 資料

在本教學課程中,您將瞭解如何在 Vertex AI 特徵儲存庫中使用 Bigtable 線上服務,以便在 BigQuery 中線上服務及擷取特徵值。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

使用 Vertex AI 特徵儲存庫最佳化線上服務功能,線上提供及擷取 BigQuery 資料

本教學課程將說明如何在 Vertex AI 特徵儲存庫中使用最佳化線上服務功能,從 BigQuery 提供及擷取特徵值。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

使用 Vertex AI 特徵儲存庫,針對 BigQuery 資料提供線上特徵服務和向量擷取功能

在本教學課程中,您將瞭解如何使用 Vertex AI 特徵儲存庫,在 BigQuery 中進行線上服務和向量擷取特徵值。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

Vertex AI 特徵儲存庫特徵檢視畫面服務代理

在本教學課程中,您將瞭解如何啟用功能檢視服務代理,並授予每個功能檢視權限,以便存取所使用的特定來源資料。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

Vertex AI 特徵儲存庫為基礎的 LLM 基準教學課程

在本教學課程中,您將瞭解如何將使用者提供的資料分割成多個區塊,然後使用具備嵌入生成功能的大型語言模型 (LLM),為每個區塊產生嵌入向量。接著,您可以將產生的嵌入向量資料集載入 Vertex AI 特徵儲存庫,以便快速擷取特徵並有效地線上提供。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

使用 Vertex AI 特徵儲存庫和 BigQuery 建構 GenAI RAG 應用程式

在本教學課程中,您將瞭解如何使用 BigQuery 向量搜尋和 Vertex AI 特徵儲存庫,為生成式 AI 應用程式建構低延遲向量搜尋系統。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

在 Vertex AI 特徵儲存庫中設定身分與存取權管理政策

在這個教學課程中,您將瞭解如何設定 IAM 政策,以便控管 Vertex AI 特徵儲存庫中資源和資料的存取權。

在 Colab 中開啟  |  在 Colab Enterprise 中開啟  |  前往 GitHub 查看

後續步驟