建立管道
本文件說明如何在 BigQuery 中建立管道。管道由 Dataform 提供動力。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
如何建立管道:
程式碼建立工具 (
roles/dataform.codeCreator
) -
如要編輯及執行管道,請按照下列步驟操作:
Dataform 編輯器 (
roles/dataform.editor
) 前往「BigQuery」頁面
在「Explorer」窗格中,找出已啟用程式碼資產的專案。
按一下專案旁的
「View actions」,然後點選「Change my default code region」。在「區域」中,選取要用於程式碼資產的區域。
按一下 [選取]。
前往「BigQuery」頁面
在編輯器窗格中的分頁列中,按一下「+」符號旁的
箭頭,然後點選「管道」。選用:如要重新命名管道,請按一下管道名稱,然後輸入新名稱。
按一下「立即開始」,然後前往「設定」分頁。
在「Authentication」部分,選擇使用 Google 帳戶使用者憑證或服務帳戶授權管道。
- 如要使用 Google 帳戶使用者憑證 (預覽),請選取「以我的使用者憑證執行」。
- 如要使用服務帳戶,請選取「以所選服務帳戶執行」,然後選取服務帳戶。
在「Location」部分,選取管道的處理區域。
- 如要選取特定區域,請選取「Region」,然後在「Region」選單中選取所需區域。
- 如要選取多區域,請選取「Multi-region」(多區域),然後在「Multi-region」(多區域) 選單中選取多區域。
管道處理區域不必與程式碼資產的預設儲存區域相符。
如果您打算在管道中新增筆記本,請在「Notebook options」(筆記本選項) 部分執行下列操作:
在「Runtime template」欄位中,接受預設的 Notebook 執行階段,或搜尋並選取現有的執行階段。
- 如要查看預設執行階段的規格,請按一下旁邊的箭頭。
- 如要建立新的執行階段,請參閱「建立執行階段範本」。
在「Cloud Storage bucket」欄位中,按一下「Browse」,然後選取或建立 Cloud Storage 值區,以便在管道中儲存 Notebook 的輸出內容。
請按照「將主體新增至值區層級政策」的說明,將自訂 Dataform 服務帳戶新增為主體,並將儲存空間管理員 (
roles/storage.admin
) 角色授予此主體,以便在 Cloud Storage 值區中儲存排程管線執行作業的輸出內容。所選自訂 Dataform 服務帳戶必須獲得所選值區的 Storage 管理員 IAM 角色。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
如要新增程式碼資產 (例如 SQL 查詢、Notebook 或資料準備作業),請按照下列步驟操作:
SQL 查詢
按一下「新增工作」,然後選取「查詢」。您可以建立新的查詢,也可以匯入現有查詢。
選用:在「查詢工作詳細資料」窗格中,選取「在下列工作之後執行」選單,選取要先執行的查詢工作。
查詢結果取決於先前的任務。
建立新的查詢
按一下「編輯查詢」旁的
箭頭選單,然後選取「在內容中」或「在新分頁中開啟」。搜尋現有查詢。
選取查詢名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用步驟:如要重新命名查詢,請按一下管道窗格中的查詢名稱,然後依序按一下「編輯查詢」和畫面頂端的現有查詢名稱,然後輸入新名稱。
匯入現有查詢
按一下「Edit Query」旁的
箭頭選單,然後點選「Import a copy」。搜尋要匯入的現有查詢,或從搜尋窗格中選取現有查詢。匯入查詢時,原始查詢不會變更,因為查詢的來源檔案會複製到管道中。
按一下「編輯」開啟匯入的查詢。
按一下 [儲存]。
筆記本
按一下「新增工作」,然後選取「Notebook」。你可以建立新記事本,也可以匯入現有記事本。如要變更筆記本執行階段範本的設定,請參閱筆記本選項。
選用步驟:在「Notebook task details」窗格中的「Run after」選單中,選取筆記本前執行的工作。
筆記本會根據先前的任務而定。
建立新的筆記本
按一下「編輯 Notebook」旁的
箭頭選單,然後選取「在內容中」或「在新分頁中」。搜尋現有筆記本。
選取筆記本名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名筆記本,請按一下管道窗格中的筆記本名稱,然後依序按一下「編輯筆記本」和畫面頂端的現有筆記本名稱,然後輸入新名稱。
匯入現有的筆記本
按一下「編輯筆記本」旁的
箭頭選單,然後點選「匯入副本」。搜尋要匯入的現有筆記本,或從搜尋窗格中選取現有筆記本。匯入筆記本時,原始筆記本不會有任何變更,因為筆記本的來源檔案會複製到管道中。
如要開啟已匯入的筆記本,請按一下「編輯」。
按一下 [儲存]。
資料準備
按一下「新增工作」,然後選取「資料準備」。您可以建立新的資料準備作業,也可以匯入現有作業。
選用:在「資料準備工作任務詳細資料」窗格中的「Run after」選單中,選取資料準備作業前要執行的工作。
資料準備作業取決於先前的任務。
建立新的資料準備作業
按一下「編輯資料準備」旁邊的
箭頭選單,然後選取「在內容中」或「在新的分頁中」。搜尋現有的資料準備作業。
選取資料準備作業名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名資料準備作業,請按一下管道窗格中的資料準備作業名稱,然後依序點選「編輯資料準備作業」和畫面頂端的名稱,輸入新名稱。
匯入現有的資料準備作業
按一下「編輯資料準備」旁的
箭頭下拉式選單,然後點選「匯入副本」。搜尋要匯入的現有資料準備,或從搜尋窗格中選取現有資料準備。匯入資料準備作業時,原始資料不會變更,因為資料準備作業的來源檔案會複製到管道中。
如要開啟已匯入的資料準備作業,請按一下「編輯」。
按一下 [儲存]。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
按一下所選工作。
如要變更前置工作,請在「Run after」選單中,選取要放在查詢或筆記本之前的工作。
如要編輯所選工作內容,請按一下「編輯」。
在開啟的新分頁中編輯工作內容,然後儲存工作變更。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
按一下所選工作。
在「工作詳細資料」窗格中,按一下「刪除」圖示。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
按一下「分享」,然後選取「管理權限」。
按一下「新增使用者/群組」。
在「新增主體」欄位中,輸入至少一位使用者或群組的名稱。
在「Assign Roles」(指派角色) 中,選取一個角色。
按一下 [儲存]。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
按一下「共用」,然後選取「分享連結」。管道的網址會複製到電腦的剪貼簿。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中展開專案和「Pipelines」資料夾,然後選取管道。
按一下「執行」。如果您選取「使用我的使用者憑證執行」做為驗證方式,則必須授權 Google 帳戶 (預先發布版)。
選用:如要檢查執行作業,請查看先前的手動執行作業。
- 前往 Google 帳戶頁面。
- 按一下「BigQuery 管道」。
- 按一下 [移除存取權]。
- 進一步瞭解 BigQuery 管道。
- 瞭解如何管理管道。
- 瞭解如何排定管道。
管道所需的角色
如要取得建立管道所需的權限,請要求管理員授予您專案的下列 IAM 角色:
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如要進一步瞭解 Dataform IAM,請參閱「使用 IAM 控管存取權」。
筆記本選項的必要角色
如要取得在 Notebook 選項中選取執行階段範本所需的權限,請要求管理員為您授予專案的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如果您沒有這個角色,可以選取預設的 Notebook 執行階段規格。
設定程式碼資產的預設區域
如果您是第一次建立程式碼資產,請為程式碼資產設定預設區域。建立程式碼資產後,就無法變更其地區。
BigQuery Studio 中的所有程式碼資產都會使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:
如需可用地區的清單,請參閱 BigQuery Studio 位置。
建立管道
如要建立管道,請按照下列步驟操作:
筆記本選項
新增管道工作
如要將工作新增至管道,請按照下列步驟操作:
編輯 pipeline 工作
如要編輯管道工作,請按照下列步驟操作:
刪除管道工作
如要從管道中刪除工作,請按照下列步驟操作:
分享管道
如要分享管道,請按照下列步驟操作:
分享管道連結
執行管道
如要手動執行目前版本的管道,請按照下列步驟操作:
授權給您的 Google 帳戶
如要使用 Google 帳戶使用者憑證驗證資源,您必須手動授予 BigQuery 管道權限,以便取得 Google 帳戶的存取金鑰,並代您存取來源資料。您可以透過 OAuth 對話方塊介面手動核准。
您只需要一次授予 BigQuery 管道權限。
如要撤銷已授予的權限,請按照下列步驟操作:
如果管道包含 Notebook,您也必須手動授予 Colab Enterprise 權限,讓系統取得您的 Google 帳戶存取權杖,並代您存取來源資料。您只需要授權一次。您可以在 Google 帳戶頁面中撤銷這項權限。