Dataplex Universal Catalog は、 Google Cloudのデータと AI アセット向けの統合されたインテリジェントなガバナンス ソリューションです。Dataplex Universal Catalog では、AI を使用してデータクエリ、品質保証、ビジネス分析情報を簡単に利用できます。
Dataplex Universal Catalog は、大規模なガバナンスを行います。たとえば、Cloud Storage、Spanner、Pub/Sub に保存される大量の販売データ、在庫データ、顧客データを生成するグローバル小売企業の場合を考えます。データがシステム間で分散されている場合、ガバナンスの管理、品質の確保、コンプライアンスの維持は複雑で時間がかかります。Dataplex Universal Catalog は、組織のデータアセットのリネージの検出、プロファイリング、検証、追跡、アクセス制御を一元的なビューで提供することで、このプロセスを簡素化します。
Dataplex Universal Catalog を使用する理由
Dataplex Universal Catalog は、次の機能を使用してデータを管理します。
- メタデータのカタログ化。 Google Cloud リソース(BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 内)や Dataplex Universal Catalog にインポートするサードパーティ リソースのメタデータを取得して、データアセットのスナップショットを取得します。
- データの検出。Cloud Storage バケット内の構造化データと非構造化データをスキャンして、メタデータを抽出してカタログ化します。
- データ分析情報。AI を使用してデータに関する自然言語の質問を生成し、パターンの検出、データ品質の評価、統計分析を行います。
- データのプロファイリング。BigQuery テーブル内の列データの一般的な特性(一般的なデータ値、データ分散、NULL 数など)を特定します。これにより、データ分類と品質保証の情報が得られます。
- データ品質。組織のポリシーと照らし合わせてデータを検証し、データが品質基準を満たしていない場合はアラートをログに記録することにより、BigQuery テーブル内のデータの品質を定義して測定します。
- ビジネス用語集。ビジネス関連の用語と定義を組織全体で管理し、テーブルの列に用語を関連付けることで、データの使用を常に把握できるようにします。
- データリネージ。データがシステム内をどのように移動するか、つまりデータがどこから来て、どこに渡され、どのような変換がデータに適用されるかを追跡します。
Dataplex Universal Catalog は、分散検出からビジネス分析情報まで、エンドツーエンドのデータ ライフサイクルをサポートします。ガバナンス機能は BigQuery からも利用できます。
次のステップ
- Dataplex Universal Catalog のメタデータ管理の詳細を確認する。
- Dataplex Universal Catalog でデータアセットを検索する方法を確認する。
- エントリの管理方法とカスタムソースを取り込む方法を確認する。
- Dataplex Universal Catalog にメタデータをインポートする方法を確認する。
- BigQuery のガバナンスの詳細を確認する。