パイプラインを作成する

このドキュメントでは、BigQuery でパイプラインを作成する方法について説明します。パイプラインは Dataform を使用します。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. コードアセット管理を有効にするの手順に沿って、パイプラインなどのコードアセットのバージョンを保存、共有、管理します。
  9. コードアセットを初めて作成する場合は、コードアセットを保存するデフォルト リージョンを設定します。コードアセットのリージョンを作成後に変更することはできません。

パイプラインに必要なロール

パイプラインの作成に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。

  • パイプラインを作成する: コード作成者roles/dataform.codeCreator
  • パイプラインを編集して実行する: Dataform 編集者roles/dataform.editor

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Dataform IAM の詳細については、IAM でアクセスを制御するをご覧ください。

ノートブックのオプションに必要なロール

ノートブックのオプションでランタイム テンプレートを選択するために必要な権限を取得するには、プロジェクトに対するノートブック ランタイム ユーザーroles/aiplatform.notebookRuntimeUser)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

このロールがない場合は、デフォルトのノートブック ランタイム仕様を選択できます。

パイプラインを作成する

パイプラインを作成するには、次の操作を行います。

  1. [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. エディタペインのタブバーで、+ 記号の横にある 矢印をクリックし、[パイプライン] をクリックします。

  3. 省略可: パイプラインの名前を変更するには、パイプライン名をクリックして新しい名前を入力します。

  4. [使ってみる] をクリックし、[設定] タブに移動します。

  5. [サービス アカウント] フィールドで、Dataform サービス アカウントを選択します。

  6. [ロケーション] セクションで、パイプラインの処理リージョンを選択します。

    1. 特定のリージョンを選択するには、[リージョン] を選択してから、[リージョン] メニューでリージョンを選択します。
    2. マルチリージョンを選択するには、[マルチリージョン] を選択してから、[マルチリージョン] メニューでマルチリージョンを選択します。

    パイプラインの処理リージョンは、コードアセットのデフォルトのストレージ リージョンと一致する必要はありません。

ノートブックのオプション

  1. パイプラインにノートブックを追加する場合は、[ノートブックのオプション] セクションで次の操作を行います。

    1. [ランタイム テンプレート] フィールドで、デフォルトのノートブック ランタイムをそのまま使用するか、既存のランタイムを検索して選択します。

    2. [Cloud Storage バケット] フィールドで、[参照] をクリックして、パイプラインにノートブックの出力を保存する Cloud Storage バケットを選択または作成します。

    3. バケットレベルのポリシーにプリンシパルを追加するの手順に沿って、カスタム Dataform サービス アカウントをプリンシパルとして、スケジュール設定したパイプライン実行の出力を保存するために使用する Cloud Storage バケットに追加し、このプリンシパルにストレージ管理者(roles/storage.admin)のロールを付与します。

      選択したカスタム Dataform サービス アカウントには、選択したバケットに対するストレージ管理者の IAM ロールを付与する必要があります。

パイプライン タスクを追加する

パイプラインにタスクを追加するには、次の操作を行います。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. SQL クエリ、ノートブック、データ準備などのコードアセットを追加するには、次の操作を行います。

    SQL クエリ

    1. [タスクを追加] をクリックしてから、[クエリ] を選択します。 新しいクエリを作成することも、既存のクエリをインポートすることもできます。

    2. 省略可: [Query task details] ペインの [次の後に実行] メニューで、クエリの前に実行するタスクを選択します。

      クエリは、前のタスクに依存します。

    新規クエリを作成する

    1. [クエリを編集] の横にある 矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。

    2. 既存のクエリを検索します。

    3. クエリ名を選択して Enter キーを押します。

    4. [保存] をクリックします。

    5. 省略可: クエリの名前を変更するには、パイプライン ペインでクエリ名をクリックし、[クエリを編集] をクリックして、画面上部の既存のクエリ名をクリックし、新しい名前を入力します。

    既存のクエリをインポートする

    1. [クエリを編集] の横にある 矢印メニューをクリックし、[コピーをインポート] をクリックします。

    2. インポートする既存のクエリを検索するか、検索ペインから既存のクエリを選択します。クエリをインポートすると、クエリのソースファイルがパイプラインにコピーされるため、元のクエリは変更されません。

    3. [編集] をクリックして、インポートしたクエリを開きます。

    4. [保存] をクリックします。

    ノートブック

    1. [タスクを追加] をクリックし、[ノートブック] を選択します。 新しいノートブックを作成することも、既存のノートブックをインポートすることもできます。ノートブックのランタイム テンプレートの設定を変更するには、ノートブックのオプションをご覧ください。

    2. 省略可: [Notebook task details] ペインの [次の後に実行] メニューで、ノートブックの前に実行するタスクを選択します。

      ノートブックは、前のタスクに依存します。

    新しいノートブックを作成する

    1. [ノートブックを編集] の横にある 矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。

    2. 既存のノートブックを検索します。

    3. ノートブック名を選択して Enter キーを押します。

    4. [保存] をクリックします。

    5. 省略可: ノートブックの名前を変更するには、パイプライン ペインでノートブック名をクリックし、[ノートブックを編集] をクリックして、画面上部の既存のノートブック名をクリックし、新しい名前を入力します。

    既存のノートブックをインポートする

    1. [ノートブックを編集] の横にある 矢印メニューをクリックし、[コピーをインポート] をクリックします。

    2. インポートする既存のノートブックを検索するか、検索ペインから既存のノートブックを選択します。ノートブックをインポートすると、ノートブックのソースファイルがパイプラインにコピーされるため、元のファイルは変更されません。

    3. インポートしたノートブックを開くには、[編集] をクリックします。

    4. [保存] をクリックします。

    データの準備

    1. [タスクを追加] をクリックし、[データ準備] を選択します。新しいデータ準備を作成することも、既存のデータ準備をインポートすることもできます。

    2. 省略可: [Data preparation task details] ペインの [次の後に実行] メニューで、データ準備の前に実行するタスクを選択します。

      データ準備は、前のタスクに依存します。

    新しいデータ準備を作成する

    1. [データ準備を編集] の横にある 矢印メニューをクリックし、[コンテキスト内] または [新しいタブ] を選択します。

    2. 既存のデータ準備を検索します。

    3. データ準備の名前を選択して Enter キーを押します。

    4. [保存] をクリックします。

    5. 省略可: データ準備の名前を変更するには、パイプライン パネルでデータ準備の名前をクリックし、[データ準備を編集] をクリックして、画面上部の名前をクリックし、新しい名前を入力します。

    既存のデータ準備をインポートする

    1. [データ準備を編集] の横にある 矢印プルダウン メニューをクリックし、[コピーをインポート] をクリックします。

    2. インポートする既存のデータ準備を検索するか、検索ペインから既存のデータ準備を選択します。データ準備をインポートすると、データ準備のソースファイルがパイプラインにコピーされるため、元のファイルは変更されません。

    3. インポートしたデータ準備を開くには、[編集] をクリックします。

    4. [保存] をクリックします。

パイプライン タスクを編集する

パイプラインのタスクを編集するには、次の操作を行います。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. 選択したタスクをクリックします。

  4. 前のタスクを変更するには、[次の後に実行] メニューで、クエリまたはノートブックの前に実行するタスクを選択します。

  5. 選択したタスクの内容を編集するには、[編集] をクリックします。

  6. 開いた新しいタブでタスクの内容を編集し、タスクの変更を保存します。

パイプライン タスクを削除する

パイプラインのタスクを削除するには、次の操作を行います。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. 選択したタスクをクリックします。

  4. [タスクの詳細] ペインで、削除削除アイコンをクリックします。

パイプラインを共有する

パイプラインを共有するには、次の操作を行います。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. [共有] をクリックし、[権限を管理] を選択します。

  4. [ユーザー / グループを追加] をクリックします。

  5. [新しいプリンシパル] フィールドに、少なくとも 1 人のユーザーまたはグループの名前を入力します。

  6. [ロールを割り当てる] でロールを選択します。

  7. [保存] をクリックします。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. [共有] をクリックし、[リンクを共有] を選択します。パイプラインの URL がパソコンのクリップボードにコピーされます。

パイプラインを実行する

パイプラインの現在のバージョンを手動で実行するには、次の操作を行います。

  1. Google Cloud コンソールで [BigQuery] ページに移動します。

    [BigQuery] に移動

  2. [エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。

  3. [実行] をクリックします。

  4. 省略可: 実行を検査するには、過去の手動実行を表示します。

次のステップ