パイプラインを作成する
このドキュメントでは、BigQuery でパイプラインを作成する方法について説明します。パイプラインは Dataform を使用します。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- コードアセット管理を有効にするの手順に沿って、パイプラインなどのコードアセットのバージョンを保存、共有、管理します。
- コードアセットを初めて作成する場合は、コードアセットを保存するデフォルト リージョンを設定します。コードアセットのリージョンを作成後に変更することはできません。
パイプラインに必要なロール
パイプラインの作成に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
-
パイプラインを作成する: コード作成者(
roles/dataform.codeCreator
) - パイプラインを編集して実行する: Dataform 編集者(
roles/dataform.editor
)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Dataform IAM の詳細については、IAM でアクセスを制御するをご覧ください。
ノートブックのオプションに必要なロール
ノートブックのオプションでランタイム テンプレートを選択するために必要な権限を取得するには、プロジェクトに対するノートブック ランタイム ユーザー(roles/aiplatform.notebookRuntimeUser
)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
このロールがない場合は、デフォルトのノートブック ランタイム仕様を選択できます。
パイプラインを作成する
パイプラインを作成するには、次の操作を行います。
[BigQuery] ページに移動します。
エディタペインのタブバーで、+ 記号の横にある
矢印をクリックし、[パイプライン] をクリックします。省略可: パイプラインの名前を変更するには、パイプライン名をクリックして新しい名前を入力します。
[使ってみる] をクリックし、[設定] タブに移動します。
[サービス アカウント] フィールドで、Dataform サービス アカウントを選択します。
[ロケーション] セクションで、パイプラインの処理リージョンを選択します。
- 特定のリージョンを選択するには、[リージョン] を選択してから、[リージョン] メニューでリージョンを選択します。
- マルチリージョンを選択するには、[マルチリージョン] を選択してから、[マルチリージョン] メニューでマルチリージョンを選択します。
パイプラインの処理リージョンは、コードアセットのデフォルトのストレージ リージョンと一致する必要はありません。
ノートブックのオプション
パイプラインにノートブックを追加する場合は、[ノートブックのオプション] セクションで次の操作を行います。
[ランタイム テンプレート] フィールドで、デフォルトのノートブック ランタイムをそのまま使用するか、既存のランタイムを検索して選択します。
- デフォルトのランタイムの仕様を表示するには、隣接する矢印をクリックします。
- 新しいランタイムを作成するには、ランタイム テンプレートを作成するをご覧ください。
[Cloud Storage バケット] フィールドで、[参照] をクリックして、パイプラインにノートブックの出力を保存する Cloud Storage バケットを選択または作成します。
バケットレベルのポリシーにプリンシパルを追加するの手順に沿って、カスタム Dataform サービス アカウントをプリンシパルとして、スケジュール設定したパイプライン実行の出力を保存するために使用する Cloud Storage バケットに追加し、このプリンシパルにストレージ管理者(
roles/storage.admin
)のロールを付与します。選択したカスタム Dataform サービス アカウントには、選択したバケットに対するストレージ管理者の IAM ロールを付与する必要があります。
パイプライン タスクを追加する
パイプラインにタスクを追加するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
SQL クエリ、ノートブック、データ準備などのコードアセットを追加するには、次の操作を行います。
SQL クエリ
[タスクを追加] をクリックしてから、[クエリ] を選択します。 新しいクエリを作成することも、既存のクエリをインポートすることもできます。
省略可: [Query task details] ペインの [次の後に実行] メニューで、クエリの前に実行するタスクを選択します。
クエリは、前のタスクに依存します。
新規クエリを作成する
[クエリを編集] の横にある
矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。既存のクエリを検索します。
クエリ名を選択して Enter キーを押します。
[保存] をクリックします。
省略可: クエリの名前を変更するには、パイプライン ペインでクエリ名をクリックし、[クエリを編集] をクリックして、画面上部の既存のクエリ名をクリックし、新しい名前を入力します。
既存のクエリをインポートする
[クエリを編集] の横にある
矢印メニューをクリックし、[コピーをインポート] をクリックします。インポートする既存のクエリを検索するか、検索ペインから既存のクエリを選択します。クエリをインポートすると、クエリのソースファイルがパイプラインにコピーされるため、元のクエリは変更されません。
[編集] をクリックして、インポートしたクエリを開きます。
[保存] をクリックします。
ノートブック
[タスクを追加] をクリックし、[ノートブック] を選択します。 新しいノートブックを作成することも、既存のノートブックをインポートすることもできます。ノートブックのランタイム テンプレートの設定を変更するには、ノートブックのオプションをご覧ください。
省略可: [Notebook task details] ペインの [次の後に実行] メニューで、ノートブックの前に実行するタスクを選択します。
ノートブックは、前のタスクに依存します。
新しいノートブックを作成する
[ノートブックを編集] の横にある
矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。既存のノートブックを検索します。
ノートブック名を選択して Enter キーを押します。
[保存] をクリックします。
省略可: ノートブックの名前を変更するには、パイプライン ペインでノートブック名をクリックし、[ノートブックを編集] をクリックして、画面上部の既存のノートブック名をクリックし、新しい名前を入力します。
既存のノートブックをインポートする
[ノートブックを編集] の横にある
矢印メニューをクリックし、[コピーをインポート] をクリックします。インポートする既存のノートブックを検索するか、検索ペインから既存のノートブックを選択します。ノートブックをインポートすると、ノートブックのソースファイルがパイプラインにコピーされるため、元のファイルは変更されません。
インポートしたノートブックを開くには、[編集] をクリックします。
[保存] をクリックします。
データの準備
[タスクを追加] をクリックし、[データ準備] を選択します。新しいデータ準備を作成することも、既存のデータ準備をインポートすることもできます。
省略可: [Data preparation task details] ペインの [次の後に実行] メニューで、データ準備の前に実行するタスクを選択します。
データ準備は、前のタスクに依存します。
新しいデータ準備を作成する
[データ準備を編集] の横にある
矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。既存のデータ準備を検索します。
データ準備の名前を選択して Enter キーを押します。
[保存] をクリックします。
省略可: データ準備の名前を変更するには、パイプライン パネルでデータ準備の名前をクリックし、[データ準備を編集] をクリックして、画面上部の名前をクリックし、新しい名前を入力します。
既存のデータ準備をインポートする
[データ準備を編集] の横にある
矢印プルダウン メニューをクリックし、[コピーをインポート] をクリックします。インポートする既存のデータ準備を検索するか、検索ペインから既存のデータ準備を選択します。データ準備をインポートすると、データ準備のソースファイルがパイプラインにコピーされるため、元のファイルは変更されません。
インポートしたデータ準備を開くには、[編集] をクリックします。
[保存] をクリックします。
パイプライン タスクを編集する
パイプラインのタスクを編集するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
選択したタスクをクリックします。
前のタスクを変更するには、[次の後に実行] メニューで、クエリまたはノートブックの前に実行するタスクを選択します。
選択したタスクの内容を編集するには、[編集] をクリックします。
開いた新しいタブでタスクの内容を編集し、タスクの変更を保存します。
パイプライン タスクを削除する
パイプラインのタスクを削除するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
選択したタスクをクリックします。
[タスクの詳細] ペインで、削除削除アイコンをクリックします。
パイプラインを共有する
パイプラインを共有するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
[共有] をクリックし、[権限を管理] を選択します。
[ユーザー / グループを追加] をクリックします。
[新しいプリンシパル] フィールドに、少なくとも 1 人のユーザーまたはグループの名前を入力します。
[ロールを割り当てる] でロールを選択します。
[保存] をクリックします。
パイプラインへのリンクを共有する
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
[共有] をクリックし、[リンクを共有] を選択します。パイプラインの URL がパソコンのクリップボードにコピーされます。
パイプラインを実行する
パイプラインの現在のバージョンを手動で実行するには、次の操作を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
[実行] をクリックします。
省略可: 実行を検査するには、過去の手動実行を表示します。
次のステップ
- BigQuery パイプラインの詳細を確認する。
- パイプラインの管理方法を学ぶ。
- パイプラインのスケジュール設定方法を学ぶ。