Dataplex Universal Catalog のデータ品質タスクによって、BigQuery と Cloud Storage のテーブル間でデータ品質チェックを定義して実行できます。また、Dataplex Universal Catalog のデータ品質タスクでは、BigQuery 環境で通常のデータ管理を適用することもできます。
Dataplex Universal Catalog データ品質タスクを作成するタイミング
Dataplex Universal Catalog のデータ品質タスクは、次のことに役立ちます。
- データ生成パイプラインの一部としてデータを検証します。
- データセットの品質を定期的にモニタリングします。
- 規制要件に関するデータ品質レポートを作成します。
利点
- カスタマイズ可能な仕様。柔軟性の高い YAML 構文を使用して、データ品質ルールを宣言できます。
- サーバーレス実装。Dataplex Universal Catalog では、インフラストラクチャの設定は必要ありません。
- ゼロコピーと自動 push。YAML チェックは SQL に変換されて BigQuery に push されるため、データコピーは行われません。
- スケジュール可能なデータ品質チェック。Dataplex Universal Catalog でサーバーレス スケジューラを使用してデータ品質チェックのスケジュールを設定できます。また、Cloud Composer などの外部スケジューラを通じて Dataplex API を使用してパイプラインに統合することもできます。
- マネージド エクスペリエンス。Dataplex Universal Catalog は、オープンソースのデータ品質エンジンである CloudDQ を使用してデータ品質チェックを実行します。ただし、Dataplex Universal Catalog は、データ品質チェックを実行するためのシームレスなマネージド エクスペリエンスを提供します。
データ品質タスクの仕組み
次の図は、Dataplex Universal Catalog のデータ品質タスクの仕組みを示しています。
- ユーザーからの入力
- YAML 仕様: 仕様の構文に基づいてデータ品質ルールを定義する、1 つ以上の YAML ファイルのセット。YAML ファイルはプロジェクトの Cloud Storage バケットに保存します。ユーザーは複数のルールを同時に実行でき、さまざまなデータセットや Google Cloudプロジェクトにまたがるテーブルなど、さまざまな BigQuery テーブルにそれらのルールを適用できます。この仕様は、新しいデータを検証するだけの増分実行をサポートしています。YAML 仕様を作成するには、仕様ファイルを作成するをご覧ください。
- BigQuery 結果テーブル: データ品質検証の結果が保存される、ユーザー指定のテーブル。このテーブルが存在するプロジェクトは、Dataplex Universal Catalog データ品質タスクが使用される Google Cloud プロジェクトとは異なる場合があります。
- 検証するテーブル
- YAML 仕様には、ルールに対して検証するテーブルを指定する必要があります。これはルール バインディングとも呼ばれます。テーブルは、BigQuery ネイティブ テーブルまたは Cloud Storage 内の BigQuery 外部テーブルです。YAML 仕様では、Dataplex Universal Catalog ゾーンの内部または外部のテーブルを指定できます。
- 単一の実行で検証される BigQuery と Cloud Storage のテーブルは、異なるプロジェクトに属すことができます。
- Dataplex Universal Catalog データ品質タスク: Dataplex Universal Catalog データ品質タスクは、事前に構築されて維持されている CloudDQ PySpark バイナリで構成され、YAML 仕様と BigQuery 結果テーブルを入力として使用します。他の Dataplex Universal Catalog タスクと同様に、Dataplex Universal Catalog データ品質タスクはサーバーレス Spark 環境で実行され、YAML 仕様を BigQuery クエリに変換してから、これらのクエリを、仕様ファイルで定義されたテーブルに対して実行します。
料金
Dataplex Universal Catalog のデータ品質タスクを実行すると、BigQuery と Dataproc Serverless(バッチ)の使用量に応じて課金されます。
Dataplex Universal Catalog データ品質タスクは、仕様ファイルを BigQuery クエリに変換し、ユーザー プロジェクトで実行します。BigQuery の料金をご覧ください。
Dataplex Universal Catalog は、Spark を使用して、事前に構築された Google が管理するオープンソース CloudDQ ドライバ プログラムを実行し、ユーザーの仕様を BigQuery クエリに変換します。Dataproc Serverless の料金をご覧ください。
Dataplex Universal Catalog を使用してデータを整理したり、Dataplex Universal Catalog でサーバーレス スケジューラを使用してデータ品質の確認をスケジュールしたりするのに料金はかかりません。Dataplex Universal Catalog の料金をご覧ください。