手動預先處理特徵
您可以搭配手動前處理函式,使用 CREATE MODEL
陳述式的 TRANSFORM
子句定義自訂資料前處理作業。您也可以在 TRANSFORM
子句以外使用這些手動前置處理函式。
如要將資料預先處理作業與模型訓練作業分離,可以使用 TRANSFORM
子句建立僅轉換模型,只執行資料轉換作業。
您可以使用 ML.TRANSFORM
函式,提高特徵前處理的透明度。這個函式可讓您從模型的 TRANSFORM
子句傳回預先處理的資料,以便查看模型訓練的實際訓練資料,以及模型服務的實際預測資料。
如要瞭解 BigQuery ML 的特徵預先處理支援,請參閱特徵預先處理總覽。
預先處理函式類型
手動預先處理函式分為以下幾種:
- 純量函式會在單一資料列上運作。例如:
ML.BUCKETIZE
。 - 資料表值函式會處理所有資料列,並輸出資料表。例如:
ML.FEATURES_AT_TIME
。 分析函式會對所有資料列執行運算,並根據所有資料列收集的統計資料,輸出每個資料列的結果。例如:
ML.QUANTILE_BUCKETIZE
。使用 ML 分析函式時,一律須搭配空白的
OVER()
子句。在訓練期間,如果您在
TRANSFORM
子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測中的輸入內容。
以下各節說明可用的前處理函式。
一般功能
對字串或數值運算式使用下列函式,即可清除資料:
數值函式
您可以在數值運算式中使用下列函式,將資料正規化:
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
類別函式
您可以使用下列函式分類資料:
文字函式
您可以在文字字串運算式中使用下列函式:
圖片功能
在圖片資料上使用下列函式:
已知限制
- BigQuery ML 支援模型匯出中的自動前處理和手動前處理。如要匯出使用 BigQuery ML
TRANSFORM
子句訓練的模型,請參閱支援的資料類型和函式。
後續步驟
如要進一步瞭解支援手動特徵前處理的模型適用的 SQL 陳述式和函式,請參閱下列文件: