再利用可能なパイプラインを設計して作成する

このチュートリアルでは、Cloud Storage からデータを読み取り、データ品質検査を実行して、Cloud Storage に書き込む再利用可能なパイプラインを構築する方法を説明します。

再利用可能なパイプラインには正規のパイプライン構造がありますが、各パイプラインノードの構成は、HTTP サーバーによって提供される構成に基づいて変更できます。たとえば、静的パイプラインはデータを Cloud Storage から読み取り、変換を適用して、BigQuery 出力テーブルに書き込みます。パイプラインが読み取る Cloud Storage ファイルに基づいて変換と BigQuery 出力テーブルを変更する場合は、再利用可能なパイプラインを作成します。

目標

Cloud Storage Argument Setter プラグインを使用して、パイプラインが実行ごとに異なる入力を読み取ることができるようにします。
Cloud Storage Argument Setter プラグインを使用して、パイプラインが実行ごとに異なる品質検査を実行できるようにします。
実行ごとの出力データを Cloud Storage に書き込みます。

費用

このドキュメントでは、課金対象である次の Google Cloudコンポーネントを使用します。

Cloud Data Fusion
Cloud Storage

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。

新規の Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Cloud Data Fusion インスタンスを作成します。

Cloud Data Fusion ウェブインターフェースに移動する

Cloud Data Fusion を使用する際は、Google Cloud コンソールと個別の Cloud Data Fusion ウェブインターフェースの両方を使用します。 Google Cloud コンソールでは、Google Cloud コンソールプロジェクトを作成し、Cloud Data Fusion インスタンスを作成および削除できます。Cloud Data Fusion ウェブ　インターフェースでは、[Pipeline Studio] や [Wrangler] などのさまざまなページで Cloud Data Fusion の機能を使用できます。

Google Cloud コンソールで [インスタンス] ページを開きます。
[インスタンス] ページを開く
インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。Cloud Data Fusion のウェブインターフェースが新しいブラウザタブで開きます。

Cloud Storage Argument Setter プラグインをデプロイする

Cloud Data Fusion ウェブインターフェースで、[Studio] ページに移動します。
[アクション] メニューで [GCS 引数設定ツール] をクリックします。

Cloud Storage からの読み取り

Cloud Data Fusion ウェブインターフェースで、[Studio] ページに移動します。
[Source] をクリックし、[Cloud Storage] を選択します。Cloud Storage ソースのノードがパイプラインに表示されます。
[Cloud Storage] ノードで、[プロパティ] をクリックします。
[Reference name] フィールドに名前を入力します。
[Path] フィールドに「${input.path}」と入力します。このマクロは、異なるパイプラインの実行で使用する Cloud Storage 入力パスを制御します。
右側の [Output Schema] パネルで、オフセットフィールド行のゴミ箱アイコンをクリックして、出力スキーマの　[offset] フィールドを削除します。
[Validate] をクリックして、エラーに対処します。
[] をクリックして、[Properties] ダイアログを終了します。

データを変換する

Cloud Data Fusion ウェブインターフェースで、[Studio] ページのデータパイプラインに移動します。
[Transform] プルダウンメニューで、[Wrangler] を選択します。
Pipeline Studio キャンバスで、Cloud Storage ノードから Wrangler ノードに矢印をドラッグします。
パイプラインの Wrangler ノードに移動し、[プロパティ] をクリックします。
[Input field name] に「body」と入力します。
[Recipe] フィールドに「${directives}」と入力します。このマクロは、異なるパイプラインの実行で使用する変換ロジックを制御します。
[Validate] をクリックして、エラーに対処します。
[] をクリックして、[Properties] ダイアログを終了します。

Cloud Storage への書き込み

Cloud Data Fusion ウェブインターフェースで、[Studio] ページのデータパイプラインに移動します。
[Sink] プルダウンメニューで、[Cloud Storage] を選択します。
Pipeline Studio キャンバスで、Wrangler ノードから先ほど追加した Cloud Storage ノードに矢印をドラッグします。
パイプラインの Cloud Storage シンクノードに移動し、[Properties] をクリックします。
[Reference name] フィールドに名前を入力します。
[Path] フィールドに、パイプラインが出力ファイルを書き込むことができる、プロジェクトの Cloud Storage バケットのパスを入力します。Cloud Storage バケットがない場合は、1 つ作成します。
[Validate] をクリックして、エラーに対処します。
[] をクリックして、[Properties] ダイアログを終了します。

マクロ引数を設定する

Cloud Data Fusion ウェブインターフェースで、[Studio] ページのデータパイプラインに移動します。
[条件とアクション] プルダウンメニューで、[GCS 引数設定ツール] をクリックします。
Pipeline Studio キャンバスで、Cloud Storage Argument Setter ノードから Cloud Storage ソースノードに矢印をドラッグします。
パイプラインの Cloud Storage Argument Setter ノードに移動し、[プロパティ] をクリックします。
[URL] フィールドに、次のように入力します。
```
gs://reusable-pipeline-tutorial/args.json
```
この URL は、Cloud Storage 内の一般公開オブジェクトを示しており、次のコンテンツを含みます。
```
{
  "arguments" : [
    {
      "name": "input.path",
      "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
    },
    {
      "name": "directives",
      "value": "send-to-error !dq:isEmail(body)"
    }
  ]
}
```
2 つある引数のうち最初の引数は input.path の値です。パス gs://reusable-pipeline-tutorial/user-emails.txt は、Cloud Storage の一般公開オブジェクトで、これには次のテストデータが含まれています。
```
alice@example.com
bob@example.com
craig@invalid@example.com
```
2 番目の引数は directives の値です。値 send-to-error !dq:isEmail(body) は、有効なメールアドレスではない行を除外するように Wrangler を設定します。たとえば、craig@invalid@example.com は除外されます。
[検証] をクリックして、エラーがないことを確認します。
[] をクリックして、[Properties] ダイアログを終了します。

パイプラインをデプロイして実行する

[Pipeline Studio] ページの上部バーから [Name your pipeline] をクリックします。パイプラインに名前を付け、[保存] をクリックします。
[デプロイ] をクリックします。
ランタイム引数マクロ（ランタイム）を表示するinput.pathおよびdirectives引数を開くには、の横にあるプルダウン実行をクリックします。

値フィールドを空白のままにすると、パイプライン内の Cloud Storage Argument Sette ノードがランタイム中にこれらの引数の値を設定することを Cloud Data Fusion に通知します。
[実行] をクリックします。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

チュートリアルを完了したら、Google Cloud で作成したリソースをクリーンアップし、以後は課金されないようにします。次のセクションで、このようなリソースを削除または無効にする方法を説明します。

Cloud Data Fusion インスタンスを削除する

Cloud Data Fusion インスタンスを削除する手順に従います。

プロジェクトを削除する

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

次のステップ

入門ガイドを読む
別のチュートリアルを実行する

再利用可能なパイプラインを設計して作成する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

目標

費用

始める前に

Cloud Data Fusion ウェブ インターフェースに移動する

Cloud Storage Argument Setter プラグインをデプロイする

Cloud Storage からの読み取り

データを変換する

Cloud Storage への書き込み

マクロ引数を設定する

パイプラインをデプロイして実行する

クリーンアップ

Cloud Data Fusion インスタンスを削除する

プロジェクトを削除する

次のステップ

再利用可能なパイプラインを設計して作成する

Cloud Data Fusion ウェブインターフェースに移動する