このページは Cloud Translation API によって翻訳されました。

Cloud Data Fusion の概要

Cloud Data Fusion はデータパイプラインを素早く構築、管理できる、クラウドネイティブのフルマネージドエンタープライズデータ統合サービスです。Cloud Data Fusion ウェブインターフェースを使用すると、スケーラブルなデータ統合ソリューションを構築できます。これにより、インフラストラクチャを管理することなく、さまざまなデータソースに接続し、データを変換して、さまざまな宛先システムに転送できます。

Cloud Data Fusion は、オープンソースプロジェクト CDAP の機能を利用しています。

Cloud Data Fusion を使ってみる

Cloud Data Fusion は数分で始めることができます。

Cloud Data Fusion インスタンスを作成する: Cloud Data Fusion インスタンスを作成することから始めてみましょう。
費用: 始める前に、Cloud Data Fusion の費用を確認してください。
コンセプト: Cloud Data Fusion で使用される主な用語を理解します。
クイックスタート: 最初のパイプラインを作成して、Cloud Data Fusion を体験します。

Cloud Data Fusion について確認する

以下のセクションで、Cloud Data Fusion の主要コンポーネントについて説明します。

テナントプロジェクト

Cloud Data Fusion パイプラインのビルドとオーケストレートやパイプラインメタデータの保存に必要な一連のサービスは、テナンシーユニット内のテナントプロジェクトでプロビジョニングされます。Cloud Data Fusion インスタンスがプロビジョニングされているユーザープロジェクトごとに、別々のテナントプロジェクトが作成されます。テナントプロジェクトは、すべてのネットワーク構成とファイアウォール構成をユーザープロジェクトから継承します。

Cloud Data Fusion: コンソール

Cloud Data Fusion コンソール（コントロールプレーンとも呼ばれる）は、API オペレーションと、インスタンスの作成、削除、再起動、更新など Cloud Data Fusion インスタンス自体を操作するウェブインターフェースのセットです。

Cloud Data Fusion: Studio

Cloud Data Fusion Studio（データプレーンとも呼ばれる）は、REST API と、パイプラインと関連アーティファクトの作成、実行、管理を行うウェブインターフェースオペレーションのセットです。

コンセプト

このセクションでは、Cloud Data Fusion の基本コンセプトのいくつかを紹介します。

コンセプト	説明
Cloud Data Fusion インスタンス	Cloud Data Fusion インスタンスとは、Cloud Data Fusion 固有のデプロイメントのことです。Cloud Data Fusion の使用を開始するには、 Google Cloud コンソールを使用して Cloud Data Fusion インスタンスを作成します。 1 つのコンソールプロジェクト内に複数のインスタンスを作成できます。また、Cloud Data Fusion インスタンスを作成する Google Cloud リージョンを指定できます。 Google Cloud 要件と費用の制約に応じて、Developer、Basic、Enterprise インスタンスを作成できます。 Cloud Data Fusion インスタンスごとに、固有の独立した Cloud Data Fusion デプロイメントが 1 つ含まれます。このデプロイメントに、パイプラインのライフサイクル管理、オーケストレーション、調整とメタデータの管理を行う一連のサービスが含まれています。これらのサービスは、テナントプロジェクトの長時間実行リソースを使用して実行されます。
名前空間	名前空間とは、Cloud Data Fusion インスタンスのアプリケーション、データ、および関連するメタデータの論理グループのことです。名前空間は、インスタンスのパーティショニングであると考えることができます。1 つのインスタンスで、1 つの名前空間がエンティティのデータとメタデータを他の名前空間とは別に保存します。
パイプライン	パイプラインは、視覚的にデータを設計しフローを制御する手段です。パイプラインを使用して、オンプレミスやクラウドのさまざまなデータソースからデータを抽出、変換、ブレンド、集約、読み込みを行います。パイプラインを構築すると、データの取り込み、統合、移行の問題を解決するのに役立つ、複雑なデータ処理ワークフローを作成できます。必要に応じて、Cloud Data Fusion を使用してバッチパイプラインとリアルタイムパイプラインのどちらでも構築できます。パイプラインを使用すると、データの論理フローを使用してデータ処理ワークフローを表現でき、一方、実行環境で物理的に実行するために必要となるすべての機能は Cloud Data Fusion で対処できます。
パイプラインノード	Cloud Data Fusion ウェブインターフェースの [Studio] ページでは、パイプラインが有向非巡回グラフ（DAG）に配置された一連のノードとして表され、一方向のフローを形成します。ノードは、ソースからの読み取り、データ変換の実行、シンクへの出力の書き込みなど、パイプラインで実行できるさまざまなアクションを表します。ソース、変換、シンクなどのノードを接続することで、Cloud Data Fusion ウェブインターフェースでデータパイプラインを開発することができます。
プラグイン	プラグインとは、Cloud Data Fusion の機能を拡張するために使用できる、カスタマイズ可能なモジュールのことです。 Cloud Data Fusion には、ソース、変換、集計、シンク、エラーコレクタ、アラートパブリッシャー、アクション、実行後アクション用のプラグインが用意されています。プラグインはノードと呼ばれることもあります。Cloud Data Fusion ウェブインターフェースのコンテキストでは一般的にノードと呼ばれます。人気のある Cloud Data Fusion プラグインを探してアクセスするには、Cloud Data Fusion のプラグインをご覧ください。
Hub	Cloud Data Fusion ウェブインターフェースで、プラグイン、サンプルパイプライン、その他の統合を参照するには、[Hub] をクリックします。新しいバージョンのプラグインがリリースされると、互換性のある任意のインスタンス内で Hub に表示されます。これは、プラグインのリリース前にインスタンスが作成された場合でも当てはまります。
パイプラインプレビュー	Cloud Data Fusion Studio では、データのサブセットに対してプレビューを使用して、パイプライン設計の精度をテストできます。プレビュー内のパイプラインはテナントプロジェクトで実行されます。
パイプラインの実行	Cloud Data Fusion は、パイプラインを実行する一時的な実行環境を作成します。 Cloud Data Fusion は、実行環境として Dataproc をサポートしています。 Cloud Data Fusion は、パイプラインの実行開始時にお客様のプロジェクトにエフェメラル Dataproc クラスタをプロビジョニングし、そのクラスタで Spark を使用してパイプラインを実行します。パイプラインの実行が完了すると、クラスタを削除します。または、Terraform などのテクノロジーを使用して、制御された環境で Dataproc クラスタを管理する場合、クラスタをプロビジョニングしないように Cloud Data Fusion を構成することもできます。このような環境では、既存の Dataproc クラスタに対してパイプラインを実行できます。
コンピューティングプロファイル	コンピューティングプロファイルは、パイプラインを実行する方法と場所を指定します。プロファイルは、パイプラインの物理的な実行環境の設定と削除に必要な情報をカプセル化したものです。たとえば、コンピューティングプロファイルには次のものが含まれます。実行プロビジョナーリソース（メモリと CPU）最小ノード数と最大ノード数その他の値プロファイルは名前で識別されます。プロファイルにはプロビジョナーと関連する構成を割り当てる必要があります。プロファイルは、Cloud Data Fusion インスタンスレベルまたは名前空間レベルのどちらかに存在しています。 Cloud Data Fusion のデフォルトのコンピューティングプロファイルは Autoscaling です。
再利用可能なパイプライン	Cloud Data Fusion の再利用可能なデータパイプラインによって、さまざまなユースケースとデータセットにデータ統合パターンを適用できる単一のパイプラインを作成できます。再利用可能なパイプラインは、設計時にハードコードするのではなく、実行時にパイプラインの構成のほとんどを設定することで、管理性を向上させます。
トリガー	Cloud Data Fusion では、データパイプライン（ダウンストリームパイプライン）でトリガーを作成して、1 つ以上の異なるパイプラインの完了時に（アップストリームパイプライン）実行されるように設定できます。ダウンストリームパイプラインを実行するタイミングを、アップストリームパイプラインの実行の成功、失敗、停止時、またはこれらの組み合わせなどに基づき選択します。トリガーは次のような場合に有用です。データをクレンジングし、それから複数のダウンストリームパイプラインで利用できるようにする。ランタイム引数やプラグイン構成などの情報をパイプライン間で共有する。これをペイロード構成といいます。実行ごとに更新する必要のある静的パイプラインを使用する代わりに、時間、日、週、月のデータを使用して実行できる一連の動的パイプラインを備えている。

Cloud Data Fusion のリソース

Cloud Data Fusion のリソースについて確認します。

リリースノートに機能、変更、非推奨の変更履歴が記載されています。
Cloud Data Fusion の料金
Cloud Data Fusion のサポートされているリージョン
API とリファレンス

次のステップ

Cloud Data Fusion のユースケースを確認する。
Cloud Data Fusion インスタンスを作成する
チュートリアルに取り組む。