Dataplex Universal Catalog の概要

Dataplex Universal Catalog は、 Google Cloudのデータと AI アセット向けの統合されたインテリジェントなガバナンス ソリューションです。Dataplex Universal Catalog では、AI を使用してデータクエリ、品質保証、ビジネス分析情報を簡単に利用できます。

Dataplex Universal Catalog は、大規模なガバナンスを行います。たとえば、Cloud Storage、Spanner、Pub/Sub に保存される大量の販売データ、在庫データ、顧客データを生成するグローバル小売企業の場合を考えます。データがシステム間で分散されている場合、ガバナンスの管理、品質の確保、コンプライアンスの維持は複雑で時間がかかります。Dataplex Universal Catalog は、組織のデータアセットのリネージの検出、プロファイリング、検証、追跡、アクセス制御を一元的なビューで提供することで、このプロセスを簡素化します。

Dataplex Universal Catalog を使用する理由

Dataplex Universal Catalog は、次の機能を使用してデータを管理します。

  • メタデータのカタログ化。 Google Cloud リソース(BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 内)や Dataplex Universal Catalog にインポートするサードパーティ リソースのメタデータを取得して、データアセットのスナップショットを取得します。
  • データの検出。Cloud Storage バケット内の構造化データと非構造化データをスキャンして、メタデータを抽出してカタログ化します。
  • データ分析情報。AI を使用してデータに関する自然言語の質問を生成し、パターンの検出、データ品質の評価、統計分析を行います。
  • データのプロファイリング。BigQuery テーブル内の列データの一般的な特性(一般的なデータ値、データ分散、NULL 数など)を特定します。これにより、データ分類と品質保証の情報が得られます。
  • データ品質。組織のポリシーと照らし合わせてデータを検証し、データが品質基準を満たしていない場合はアラートをログに記録することにより、BigQuery テーブル内のデータの品質を定義して測定します。
  • ビジネス用語集。ビジネス関連の用語と定義を組織全体で管理し、テーブルの列に用語を関連付けることで、データの使用を常に把握できるようにします。
  • データリネージ。データがシステム内をどのように移動するか、つまりデータがどこから来て、どこに渡され、どのような変換がデータに適用されるかを追跡します。

Dataplex Universal Catalog は、分散検出からビジネス分析情報まで、エンドツーエンドのデータ ライフサイクルをサポートします。ガバナンス機能は BigQuery からも利用できます。

次のステップ