本文件可協助您瞭解 Dataform 中的 SQL 工作流程架構和執行方式。
您可以使用 Dataform 開發、測試及版本控制 SQL 工作流程,並在 BigQuery 中執行這些工作流程,以便轉換資料進行分析。您可以使用 Dataform 核心,搭配 SQLX 檔案和選用的 JavaScript 檔案,或使用 JavaScript 開發 SQL 工作流程。
SQL 工作流程可包含下列物件:
- 資料來源宣告
- BigQuery 資料來源的宣告,可讓您在 Dataform 表格定義和 SQL 作業中參照這些資料來源。
- Tables
- 您在 Dataform 中根據宣告的資料來源或 SQL 工作流程中的其他資料表建立的資料表。Dataform 支援下列資料表類型:資料表、增量資料表、檢視畫面和物化檢視畫面。
- 斷言
- 可用來驗證資料表資料的資料品質測試查詢。Dataform 每次更新 SQL 工作流程時都會執行斷言,並在任何斷言失敗時發出警示。
- 自訂 SQL 作業
- Dataform 在 BigQuery 中執行的 SQL 陳述式,不經過修改。
- 包含
- JavaScript 檔案,其中包含可在 SQL 工作流程中重複使用的變數和函式定義。
SQL 工作流程的視覺化呈現
您可以查看以有向非循環圖 (DAG) 形式呈現的 SQL 工作流程。DAG 會顯示工作區中定義的 SQL 工作流程的所有物件,以及這些物件之間的關係。您可以放大或縮小畫面,並使用拖曳功能瀏覽 DAG。如果 SQL 工作流程中有編譯錯誤,Dataform 會顯示錯誤訊息,而非 DAG。
如要查看 SQL 工作流程的 DAG,請在工作區中按一下「已編譯的圖表」。
執行 SQL 工作流程
在開發工作區中,您可以手動觸發執行整個 SQL 工作流程、選取的動作或選取的標記。
您可以使用 Dataform 發布設定和工作流程設定排定執行作業。首先,請建立發布子設定,以便建立存放區的編譯結果。接著,請建立工作流程設定、選取版本設定、選取要執行的 SQL 工作流程動作,然後設定執行時程。
您也可以使用 Cloud Composer 或 Workflows 和 Cloud Scheduler 排定執行時間。
執行期間,Dataform 會依照 SQL 工作流程中的物件依附元件順序,在 BigQuery 中執行 SQL 查詢。執行完畢後,您就可以在 BigQuery 中,將定義的資料表和視圖用於所有分析用途。
執行設定選項
如要執行特定的 SQL 工作流程物件群組,您可以將 Dataform 執行標記新增至所選檔案。這樣一來,您就可以在手動觸發執行作業時,只執行標記為所選標記的檔案。
根據預設,Dataform 會使用 dataform.json
檔案中定義的執行設定來執行 SQL 工作流程。您可以使用編譯覆寫值覆寫這些執行設定。
您可以使用工作區編譯覆寫設定,將工作區轉換為獨立的執行環境。也就是說,當您在工作區中手動觸發執行作業時,Dataform 會在 BigQuery 的獨立位置執行輸出作業。
如要使用編譯覆寫值建立及執行單一編譯結果,您可以透過 Dataform API傳遞要求。
您可以使用版本設定,為整個存放區設定編譯覆寫值,以及使用套用設定建立編譯結果的頻率。
如要進一步瞭解如何在 Dataform 中設定編譯和程式碼生命週期,請參閱「Dataform 中的程式碼生命週期簡介」。
後續步驟
- 如要瞭解如何宣告資料來源,請參閱「宣告資料來源」。
- 如要瞭解如何宣告依附元件,以便在 SQL 工作流程中定義物件之間的關係,請參閱「設定依附元件」。
- 如要瞭解如何定義自訂 SQL 作業,請參閱「新增自訂 SQL 作業」。
- 如要瞭解如何在 SQL 工作流程中透過包含項目重複使用變數和函式,請參閱「透過包含項目在單一存放區重複使用程式碼」。