來源資料條件

針對批次匯入作業,Vertex AI 特徵儲存庫 (舊版) 可從 BigQuery 的資料表或 Cloud Storage 中的檔案匯入資料。

  • 如果您需要匯入整個資料集,且不需要分區篩選器,請使用 BigQuery 資料表。

  • 如果您需要匯入資料集的特定子集,請使用 BigQuery 檢視畫面。這個選項可節省時間,讓您從整個資料集中匯入特定項目,包括從資料產生的多個資料表。

  • 從 Cloud Storage 匯入的檔案中所含資料必須為 AVRO 或 CSV 格式。

如要匯入串流,您必須在 API 要求中提供要匯入的特徵值。這些來源資料規定不適用於此。詳情請參閱 writeFeatureValues API 參考資料

每個項目 (或資料列) 都必須符合下列規定:

  • 您必須有實體 ID 資料欄,且值必須是 STRING 類型。這個資料欄包含特徵值所屬的實體 ID。

  • 來源資料值類型必須與 Featurestore 中目的地地圖項目的值類型相符。舉例來說,布林值必須匯入至 BOOL 類型特徵。

  • 所有資料欄的標題都必須是 STRING 類型。標頭名稱沒有任何限制。

    • 對於 BigQuery 資料表和 BigQuery 檢視,資料欄標題就是資料欄名稱。
    • 對於 AVRO,欄標題是由與二進位資料相關聯的 AVRO 架構定義。
    • 在 CSV 檔案中,第一列為資料欄標題。
  • 如果您提供特徵產生時間戳記的資料欄,請使用下列其中一種時間戳記格式:

    • 對於 BigQuery 資料表和 BigQuery 檢視表,時間戳記必須位於 TIMESTAMP 欄中。
    • 對於 Avro,時間戳記必須是 long 類型,且邏輯類型為 timestamp-micros。
    • 對於 CSV 檔案,時間戳記必須採用 RFC 3339 格式。
  • CSV 檔案不支援陣列資料類型。請改用 Avro 或 BigQuery。

  • 對於陣列類型,您無法在陣列中加入空值。不過,您可以加入空陣列。

特徵值時間戳記

對於批次匯入作業,Vertex AI 特徵儲存庫 (舊版) 需要使用者提供匯入特徵值的時間戳記。您可以為每個值指定特定時間戳記,也可以為所有值指定相同的時間戳記:

  • 如果特徵值的時間戳記不同,請在來源資料的資料欄中指定時間戳記。每個資料列都必須有專屬的時間戳記,指出特徵值產生的時間。在匯入要求中,您可以指定資料欄名稱來識別時間戳記欄。
  • 如果所有特徵值的時間戳記相同,您可以在匯入要求中將其指定為參數。您也可以在來源資料的資料欄中指定時間戳記,每個資料列都會顯示相同的時間戳記。

資料來源區域

如果來源資料位於 BigQuery 或 Cloud Storage,來源資料集或值區必須與特徵資料檔案位於相同的地區或多地區位置。舉例來說,us-central1 中的特徵儲存庫只能從位於 us-central1 或美國多地區位置的 Cloud Storage 值區或 BigQuery 資料集匯入資料。您無法匯入 us-east1 的資料。此外,系統不支援來自雙區域 bucket 的來源資料。

後續步驟