Cloud Data Fusion の概要

Cloud Data Fusion はデータ パイプラインを素早く構築、管理できる、クラウドネイティブのフルマネージド エンタープライズ データ統合サービスです。Cloud Data Fusion ウェブ インターフェースを使用すると、スケーラブルなデータ統合ソリューションを構築できます。これにより、インフラストラクチャを管理することなく、さまざまなデータソースに接続し、データを変換して、さまざまな宛先システムに転送できます。

Cloud Data Fusion は、オープンソース プロジェクト CDAP の機能を利用しています。

Cloud Data Fusion を使ってみる

Cloud Data Fusion は数分で始めることができます。

Cloud Data Fusion について確認する

以下のセクションで、Cloud Data Fusion の主要コンポーネントについて説明します。

テナント プロジェクト

Cloud Data Fusion パイプラインのビルドとオーケストレートやパイプライン メタデータの保存に必要な一連のサービスは、テナンシー ユニット内のテナント プロジェクトでプロビジョニングされます。Cloud Data Fusion インスタンスがプロビジョニングされているユーザー プロジェクトごとに、別々のテナント プロジェクトが作成されます。テナント プロジェクトは、すべてのネットワーク構成とファイアウォール構成をユーザー プロジェクトから継承します。

Cloud Data Fusion: コンソール

Cloud Data Fusion コンソール(コントロール プレーンとも呼ばれる)は、API オペレーションと、インスタンスの作成、削除、再起動、更新など Cloud Data Fusion インスタンス自体を操作するウェブ インターフェースのセットです。

Cloud Data Fusion: Studio

Cloud Data Fusion Studio(データプレーンとも呼ばれる)は、REST API と、パイプラインと関連アーティファクトの作成、実行、管理を行う ウェブ インターフェース オペレーションのセットです。

コンセプト

このセクションでは、Cloud Data Fusion の基本コンセプトのいくつかを紹介します。

コンセプト 説明
Cloud Data Fusion インスタンス
  • Cloud Data Fusion インスタンスとは、Cloud Data Fusion 固有のデプロイメントのことです。Cloud Data Fusion の使用を開始するには、Google Cloud コンソールを使用して Cloud Data Fusion インスタンスを作成します。
  • 1 つの Google Cloud コンソール プロジェクト内に複数のインスタンスを作成できます。また、Cloud Data Fusion インスタンスを作成する Google Cloud リージョンを指定できます。
  • 要件と費用の制約に応じて、Developer、Basic、Enterprise インスタンスを作成できます。
  • Cloud Data Fusion インスタンスごとに、固有の独立した Cloud Data Fusion デプロイメントが 1 つ含まれます。このデプロイメントに、パイプラインのライフサイクル管理、オーケストレーション、調整とメタデータの管理を行う一連のサービスが含まれています。これらのサービスは、テナント プロジェクトの長時間実行リソースを使用して実行されます。
名前空間 名前空間とは、Cloud Data Fusion インスタンスのアプリケーション、データ、および関連するメタデータの論理グループのことです。名前空間は、インスタンスのパーティショニングであると考えることができます。1 つのインスタンスでは、1 つの名前空間が別の名前空間とは独立してエンティティのデータとメタデータを保存します。
パイプライン
  • パイプラインは、視覚的にデータを設計しフローを制御する手段です。パイプラインを使用して、オンプレミスやクラウドのさまざまなデータソースからデータを抽出、変換、ブレンド、集約、読み込みを行います。
  • パイプラインを構築すると、データの取り込み、統合、移行の問題を解決するのに役立つ、複雑なデータ処理ワークフローを作成できます。必要に応じて、Cloud Data Fusion を使用してバッチ パイプラインとリアルタイム パイプラインのどちらでも構築できます。
  • パイプラインを使用すると、データの論理フローを使用してデータ処理ワークフローを表現でき、一方、実行環境で物理的に実行するために必要となるすべての機能は Cloud Data Fusion で対処できます。
パイプライン ノード
  • Cloud Data Fusion ウェブ インターフェースの [Studio] ページでは、パイプラインが有向非巡回グラフ(DAG)に配置された一連のノードとして表され、一方向のフローを形成します。
  • ノードは、ソースからの読み取り、データ変換の実行、シンクへの出力の書き込みなど、パイプラインで実行できるさまざまなアクションを表します。ソース、変換、シンクなどのノードを接続することで、Cloud Data Fusion ウェブ インターフェースでデータ パイプラインを開発することができます。
プラグイン
  • プラグインとは、Cloud Data Fusion の機能を拡張するために使用できる、カスタマイズ可能なモジュールのことです。
  • Cloud Data Fusion には、ソース、変換、集計、シンク、エラーコレクタ、アラート パブリッシャー、アクション、実行後アクション用のプラグインが用意されています。
  • プラグインはノードと呼ばれることもあります。Cloud Data Fusion ウェブ インターフェースのコンテキストでは一般的にノードと呼ばれます。
  • 人気のある Cloud Data Fusion プラグインを探してアクセスするには、Cloud Data Fusion のプラグインをご覧ください。
Hub Cloud Data Fusion ウェブ インターフェースで、プラグイン、サンプル パイプライン、その他の統合を参照するには、[Hub] をクリックします。新しいバージョンのプラグインがリリースされると、互換性のある任意のインスタンス内で Hub に表示されます。これは、プラグインのリリース前にインスタンスが作成された場合でも適用されます。
パイプライン プレビュー
  • Cloud Data Fusion Studio では、データのサブセットに対してプレビューを使用して、パイプライン設計の精度をテストできます。
  • プレビュー内のパイプラインはテナント プロジェクトで実行されます。
パイプラインの実行
  • Cloud Data Fusion は、パイプラインを実行する一時的な実行環境を作成します。
  • Cloud Data Fusion は、実行環境として Dataproc をサポートしています。
  • Cloud Data Fusion は、パイプラインの実行開始時にお客様のプロジェクトにエフェメラル Dataproc クラスタをプロビジョニングし、そのクラスタで Spark を使用してパイプラインを実行します。パイプラインの実行が完了すると、クラスタを削除します。
  • または、Terraform などのテクノロジーを使用して、制御された環境で Dataproc クラスタを管理する場合、クラスタをプロビジョニングしないように Cloud Data Fusion を構成することもできます。このような環境では、既存の Dataproc クラスタに対してパイプラインを実行できます。
コンピューティング プロファイル
  • コンピューティング プロファイルは、パイプラインを実行する方法と場所を指定します。プロファイルは、パイプラインの物理的な実行環境の設定と削除に必要な情報をカプセル化したものです。
  • たとえば、コンピューティング プロファイルには次のものが含まれます。
    • 実行プロビジョナー
    • リソース(メモリと CPU)
    • 最小ノード数と最大ノード数
    • その他の値
  • プロファイルは名前で識別されます。プロファイルにはプロビジョナーと関連する構成を割り当てる必要があります。プロファイルは、Cloud Data Fusion インスタンス レベルまたは名前空間レベルのどちらかに存在しています。
  • Cloud Data Fusion のデフォルトのコンピューティング プロファイルは自動スケーリングです。
再利用可能なパイプライン
  • Cloud Data Fusion の再利用可能なデータ パイプラインを使用すると、さまざまなユースケースとデータセットにデータ統合パターンを適用できる単一のパイプラインを作成できます。
  • 再利用可能なパイプラインでは、設計時にハードコードするのではなく、実行時にパイプラインの構成のほとんどを設定するため、管理性が向上します。
トリガー
  • Cloud Data Fusion では、データ パイプライン(ダウンストリーム パイプライン)でトリガーを作成して、1 つ以上の異なるパイプラインの完了時に(アップストリーム パイプライン)実行されるように設定できます。ダウンストリーム パイプラインを実行するタイミングを、アップストリーム パイプラインの実行の成功、失敗、停止時、またはこれらの組み合わせなどに基づき選択します。
  • トリガーは次のような場合に有用です。
    • データをクレンジングし、それから複数のダウンストリーム パイプラインで利用できるようにする。
    • ランタイム引数やプラグイン構成などの情報をパイプライン間で共有する。これをペイロード構成といいます。
    • 実行ごとに更新する必要のある静的パイプラインを使用する代わりに、時間、日、週、月のデータを使用して実行できる一連の動的パイプラインを備えている。

Cloud Data Fusion のリソース

Cloud Data Fusion のリソースについて確認します。

次のステップ