パイプラインを管理する
このドキュメントでは、パイプラインのスケジュール設定と削除など、BigQuery パイプラインを管理する方法について説明します。
このドキュメントでは、Dataplex でパイプラインのメタデータを表示して管理する方法についても説明します。
パイプラインは Dataform を使用します。
始める前に
- BigQuery パイプラインを作成する。
- Dataplex でパイプラインのメタデータを管理するには、Google Cloud プロジェクトで Dataplex API が有効になっていることを確認します。
必要なロール
パイプラインの管理に必要な権限を取得するため、次の IAM ロールを付与するように管理者に依頼してください。
-
パイプラインを削除する:
パイプラインに対する Dataform 管理者(
roles/dataform.Admin
) -
パイプラインを表示して実行する:
プロジェクトに対する Dataform 閲覧者(
roles/dataform.Viewer
)
ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Dataplex でパイプラインのメタデータを管理するには、必要な Dataplex ロールがあることを確認します。
Dataform IAM の詳細については、IAM によるアクセス制御をご覧ください。
すべてのパイプラインを表示する
プロジェクト内のすべてのパイプラインのリストを表示するには、次の手順を行います。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで
をクリックし、[パイプライン] を開きます。
過去の手動実行を表示する
選択したパイプラインの過去の手動実行を表示する手順は次のとおりです。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
[実行] をクリックします。
省略可: 過去の実行のリストを更新するには、[更新] をクリックします。
失敗したパイプライン実行に対するアラートを構成する
各パイプラインには、対応する Dataform リポジトリ ID があります。BigQuery パイプラインの実行は、対応する Dataform リポジトリ ID を使用して Cloud Logging にロギングされます。Cloud Monitoring を使用して BigQuery パイプラインの実行の Cloud Logging ログの傾向を確認し、記述した条件の発生時に通知できます。
BigQuery パイプラインの実行が失敗したときにアラートを受け取るには、対応する Dataform リポジトリ ID のログベースのアラート ポリシーを作成します。手順については、失敗したワークフロー呼び出しに対するアラートを構成するをご覧ください。
パイプラインの Dataform リポジトリ ID を確認する手順は次のとおりです。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開き、パイプラインを選択します。
[設定] をクリックします。
パイプラインの Dataform リポジトリ ID は、[設定] タブの下部に表示されます。
パイプラインを削除する
パイプラインを完全に削除する手順は次のとおりです。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [パイプライン] フォルダを開きます。削除するパイプラインを見つけます。
パイプラインの横にある
アクションを表示をクリックし、[削除] をクリックします。[削除] をクリックします。
Dataplex でメタデータを管理する
Dataplex を使用すると、パイプラインのメタデータを保存して管理できます。パイプラインは、追加の設定をせずにデフォルトのまま Dataplex で使用できます。
Dataplex を使用すると、すべてのパイプラインのロケーションでパイプラインを管理できます。Dataplex でパイプラインを管理する場合は、Dataplex の割り当てと上限および Dataplex の料金が適用されます。
Dataplex は、パイプラインから次のメタデータを自動的に取得します。
- データアセット名
- データアセットの親
- データアセットのロケーション
- データアセットのタイプ
- 対応する Google Cloud プロジェクト
Dataplex は、パイプラインを次の値を持つエントリとしてログに記録します。
- システム エントリ グループ
- パイプラインのシステム エントリ グループは
@dataform
です。Dataplex でパイプライン エントリの詳細を表示するには、dataform
システム エントリ グループを表示する必要があります。エントリ グループ内のすべてのエントリのリストを表示する方法については、Dataplex のドキュメントのエントリ グループの詳細を表示するをご覧ください。 - システム エントリ タイプ
- パイプラインのシステム エントリ タイプは
dataform-code-asset
です。パイプラインの詳細を表示するには、dataform-code-asset
システム エントリ タイプを表示し、アスペクトベースのフィルタで結果をフィルタし、dataform-code-asset
アスペクト内のtype
フィールドをWORKFLOW
に設定する必要があります。次に、選択したパイプラインのエントリを選択します。選択したエントリタイプの詳細を表示する手順については、Dataplex ドキュメントのエントリタイプの詳細を表示するをご覧ください。選択したエントリの詳細を表示する手順については、Dataplex ドキュメントのエントリの詳細を表示するをご覧ください。 - システム アスペクト タイプ
- パイプラインのシステム アスペクト タイプは
dataform-code-asset
です。データ パイプライン エントリにアスペクトをアノテーションして、Dataplex のパイプラインにコンテキストを追加するには、dataform-code-asset
アスペクト タイプを表示して、アスペクトベースのフィルタで結果をフィルタし、dataform-code-asset
アスペクト内のtype
フィールドをWORKFLOW
に設定します。エントリにアスペクトをアノテーションする方法については、Dataplex ドキュメントのアスペクトを管理してメタデータを拡充するをご覧ください。 - タイプ
- データ キャンバスのタイプは
WORKFLOW
です。このタイプでは、アスペクトベースのフィルタでaspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW
クエリを使用して、dataform-code-asset
システム エントリ タイプとdataform-code-asset
アスペクト タイプのパイプラインをフィルタできます。
Dataplex でアセットを検索する方法については、Dataplex ドキュメントの Dataplex でデータアセットを検索するをご覧ください。
次のステップ
- BigQuery パイプラインの詳細を確認する。
- パイプラインを作成する方法を確認する。
- パイプラインのスケジュールを設定する方法を確認する。