メタデータを使用してデータリネージを確認する


このチュートリアルでは、Cloud Data Fusion を使用して、データリネージ(データの起源とその経緯)を調べる方法を説明します。

Cloud Data Fusion のデータリネージ

Cloud Data Fusion のデータリネージを使用すると、次のことができます。

  • 不正なデータイベントの根本原因を見つける。

  • データの変更を行う前に、影響分析を行う。

Dataplex でアセットリネージの統合を使用することをおすすめします。詳細については、Dataplex でリネージを表示するをご覧ください。

Cloud Data Fusion Studio の [Metadata] オプションを使用して、データセット レベルとフィールド レベルのリネージを表示することもできます。このオプションを使用すると、選択した期間のリネージが表示されます。

  • データセット レベルのリネージには、データセットとパイプラインの関係が表示されます。

  • フィールド レベルのリネージでは、ソース データセット内のフィールド セットに対して実行され、ターゲット データセット内に別のフィールド セットを生成するオペレーションが表示されます。

Cloud Data Fusion 6.9.2.4 以降では、Cloud Data Fusion でリネージを追跡しない場合は、patch メソッドを使用して、インスタンスでフィールドレベルのリネージ出力をオフにすることをおすすめします。

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

以下を置き換えます。

  • PROJECT_ID: Google Cloud プロジェクト ID
  • REGION: Google Cloud プロジェクトのロケーション
  • INSTANCE_ID: Cloud Data Fusion インスタンス ID

チュートリアルの事例

このチュートリアルでは、次の 2 つのパイプラインを使用します。

  • Shipment Data Cleansing パイプラインは、小さなサンプル データセットから未加工の配送データを読み取り、変換を適用してデータをクリーンアップします。

  • Delayed Shipments USA パイプラインは、クレンジングされた配送データを読み取り、分析して、しきい値を超えて遅延した米国内の配送を見つけます。

これらのチュートリアル パイプラインは、元データをクリーンアップしてから下流の処理へ送信する一般的なシナリオを示しています。元データから分析出力に対するクリーニングされた配送データまでのデータ証跡は、Cloud Data Fusion のリネージ機能を使用して探索できます。

目標

  • サンプル パイプラインを実行してリネージを生成する
  • データセット レベルとフィールド レベルのリネージを調べる
  • ハンドシェイク情報をアップストリーム パイプラインからダウンストリーム パイプラインに渡す方法を学ぶ

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Cloud Data Fusion インスタンスを作成します
  8. 次のリンクをクリックして、これらの小さなサンプル データセットをローカルマシンにダウンロードします。

Cloud Data Fusion UI を開く

Cloud Data Fusion を使用する際は、Google Cloud コンソールと個別の Cloud Data Fusion UI の両方を使用します。Google Cloud コンソールでは、Google Cloud プロジェクトの作成、Cloud Data Fusion インスタンスの作成と削除を行うことができます。Cloud Data Fusion UI では、さまざまなページ(リネージなど)を使用して、Cloud Data Fusion の機能にアクセスできます。

  1. Google Cloud コンソールで [インスタンス] ページを開きます。

    [インスタンス] ページを開く

  2. インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。新しいブラウザタブで Cloud Data Fusion UI が開きます。

  3. [統合] ペインで、[Studio] をクリックして Cloud Data Fusion の [Studio] ページを開きます。

パイプラインをデプロイして実行する

  1. 未加工の配送データをインポートします。[Studio] ページで、[インポート] をクリックするか、[+] > [パイプライン] > [インポート] をクリックしてから、始める前にでダウンロードした配送データ クレンジング パイプラインを選択してインポートします。

  2. パイプラインをデプロイします。[スタジオ] ページの右上にある [デプロイ] をクリックします。デプロイ後、[パイプライン] ページが開きます。

  3. パイプラインを実行します。[パイプライン] ページの中央上部にある [実行] をクリックします。

  4. 遅延配送データとパイプラインをインポート、デプロイ、実行します。配送データ クレンジングのステータスが [Succeeded] になった後、始める前にでダウンロードした、米国での遅延配送のデータに上述の手順を適用します。[Studio] ページに戻ってデータをインポートし、つづいて [Pipeline] ページからこの 2 つ目のパイプラインをデプロイして実行します。2 つ目のパイプラインが正常に完了したら、残りの手順に進みます。

データセットを検出する

リネージを調べる前に、データセットを検出する必要があります。Cloud Data Fusion UI の左側のナビゲーション パネルで [メタデータ] を選択し、メタデータの [検索] ページを開きます。配送データ クレンジング データセットは、参照データセットとして「Cleaned-Shipments」を指定しているため、検索ボックスに「shipment」を挿入します。検索結果にこのデータセットが含まれます。

タグを使用したデータセットを検出する

メタデータ検索では、Cloud Data Fusion パイプラインによって利用、処理、生成されたデータセットが検出されます。パイプラインは、テクニカル メタデータとオペレーション メタデータを生成して収集する構造化フレームワークで実行されます。テクニカル メタデータには、データセット名、タイプ、スキーマ、フィールド、作成時間、処理情報が含まれます。このテクニカル情報は、Cloud Data Fusion のメタデータ検索とリネージ機能で使用されます。

Cloud Data Fusion は、検索条件として使用できるタグや Key-Value プロパティなどのビジネス メタデータを含むデータセットのアノテーションもサポートしています。たとえば、未加工の配送データセットにビジネスタグ アノテーションを追加して検索するには、次を行います。

  1. 配送データ クレンジング パイプライン の 未加工の配送データノードの [プロパティ] ボタンをクリックして [Cloud Storage のプロパティ] ページを開きます。

  2. [メタデータを表示] をクリックして [検索] ページを開きます。

  3. [ビジネスタグ] で [+] をクリックし、タグ名(英数字とアンダースコアも使用可能)を入力して Enter キーを押します。

リネージを調べる

データセット レベルのリネージ

[検索] ページに表示されている [クリーンアップされた配送] のデータセット名をクリックし(データセットの検出から)、[Lineage] タブをクリックします。リネージグラフで、このデータセットが、Raw_Shipping_Data データセットを使用した配送データ クレンジング パイプラインによって生成されたことが示されます。

左右の矢印を使用すると、前後のデータセット リネージ間を移動できます。この例では、グラフに「クリーンアップされた配送」データセットの完全なリネージが表示されます。

フィールド レベルのリネージ

Cloud Data Fusion のフィールド レベルのリネージは、データセットのフィールドと、フィールド セットに実行して別のフィールド セットを生成する変換との間の関係を示します。データセット レベルのリネージと同様に、フィールド レベルのリネージには時間の制約があり、結果を時系列で変化します。

データセット レベルのリネージのステップから続けて、[クリーンアップされた配送] のデータセット レベルのリネージグラフの右上にある [フィールド レベルのリネージ] ボタンをクリックし、フィールド レベルのリネージグラフを表示します。

フィールド レベルのリネージグラフには、フィールド間の関係が表示されます。フィールドを選択して、そのリネージを表示できます。[表示] > [フィールドを固定] を選択して、そのフィールドのリネージのみを表示します。

[表示] > [影響を表示] を選択して、影響を分析します。

原因と影響を示すリンクでは、フィールドの両側で行われた変換が人間が読める台帳形式で表示されます。この情報は、レポートとガバナンスにおいて不可欠であることが考えられます。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

チュートリアルを完了したら、Google Cloud で作成したリソースをクリーンアップし、以後は課金されないようにします。次のセクションで、このようなリソースを削除または無効にする方法を説明します。

チュートリアル データセットを削除する

このチュートリアルでは、プロジェクトに複数のテーブルを含む logistics_demo データセットを作成します。

Google Cloud コンソールの BigQuery ウェブ UI からデータセットを削除できます。

Cloud Data Fusion インスタンスを削除する

Cloud Data Fusion インスタンスを削除する手順に従います。

プロジェクトを削除する

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

次のステップ