データカタログの概要

Dataplex の Data Catalog 機能は、組織のデータアセットの統合インベントリです。Data Catalog は、BigQuery、Vertex AI、Pub/Sub、Spanner、Bigtable などの Google Cloud ソースからのメタデータを自動的にカタログ化します。Data Catalog は、検出によって Cloud Storage のテーブルとファイルセットのメタデータのインデックス登録も行います。

Dataplex の管理された組織全体のメタデータ検索機能を使用すると、データを簡単に検出できます。重要なビジネス コンテキストでメタデータをさらに拡充し、リネージ追跡、データ プロファイリング、データ品質チェック、アクセス制御の機能を有効にすることができます。

Data Catalog を使用すると、組織はデータ検出、メタデータ管理、ガバナンスを改善できます。

Data Catalog が必要な理由

ほとんどの組織は、増え続ける膨大な数のデータアセットを扱っています。組織内のデータ関係者(利用者、製作者、管理者)は、次のような複数の課題に直面しています。

  • 知見をもたらすデータを検索する:

    • データ利用者は、どのデータがどこに存在するのかわかりません。ユーザーは、データの「スワンプ」を移動することを必要とします。
    • ほとんどのデータは十分に文書化されておらず、文書化されていても適切に管理されていないため、分析情報を得るためにどのデータを使用する必要があるのかがわかりません。
    • データがもっぱらユーザーの記憶に依存した管理をされてると、データが見つからない可能性があり、多くの場合に失われます。
  • データについて:

    • データが最新、クリーン、検証済み、本番環境での使用に対して承認済みであるか。
    • 重複している複数のデータセットのうち、関連性があり最新の状態になっているデータセットはどれか。
    • データセット同士の関連性
    • データを使用しているのは誰であり、誰が所有者であるか。
    • データを変換するユーザーとプロセス。
  • データの有効活用:

    • データ制作者には、利用者のためのデータを効率的に転送する手段がありません。セルフサービスが存在しない場合には、プロデューサーには利用者からの要求によって処理が不可能な負荷がかかる可能性があります。数人のデータ エンジニアが、数千人ものデータ アナリストにデータを手動で提供することはできません。

    • データ利用者がデータアクセスのリクエスト方法を探し、定められた応答時間なしで待機してから、エスカレーションして再度待機しなければならない場合、貴重な時間が失われます。

適切なツールがなければ、この課題はデータを効率的に使用するうえで大きな障害となります。Data Catalog は、組織が次の目的を達成するための統合リポジトリを提供します。

  • 統合ビューを取得して、適切なデータを検索する手間を省く。
  • テクニカル メタデータとビジネス メタデータでデータを拡充することで、データドリブンの意思決定を支援し、分析情報の取得時間を短縮する。
  • データ管理を改善し、運用の効率性と生産性の向上を実現する。
  • データに対する所有権を取得し、データの信頼と信用を高める。

Data Catalog の機能

Data Catalog は、3 つの主な機能を提供します。

  • アクセス可能なデータエントリの検索
  • メタデータでのデータエントリのタグ付け
  • BigQuery テーブルに対する列レベルのセキュリティの提供

さらに、機密データの保護のスキャン結果に基づいて Data Catalog を構築し、Data Catalog 内でタグ テンプレートの形式で直接センシティブ データを識別できます。

Data Catalog の仕組み

Data Catalog は、さまざまな Google Cloud システムのアセット メタデータをカタログ化できます。

Data Catalog API を使用して、カスタム データソースと統合することもできます。

データをカタログ化したら、タグを使用してこれらのアセットに独自のメタデータを追加できます。

Data Catalog は、BigQuery、Pub/Sub、Dataproc Metastore、Cloud Storage などの Google Cloud データソース、および Hive や Oracle などのクラウド以外のデータソースからのメタデータを検出します。
図 1: Data Catalog では、Google Cloud サービスとカスタム データソースからメタデータを読み取ります。

Data Catalog メタデータ

Data Catalog は、テクニカル メタデータビジネス メタデータの 2 種類のメタデータを処理します。メタデータの詳細については、Data Catalog メタデータをご覧ください。

検索と検出

Data Catalog は、データエントリに関連するテクニカル メタデータとビジネス メタデータを検索するための述語ベースの強力な検索エクスペリエンスを提供します。メタデータに検索と見つけやすさを適用できるようにするには、データエントリのメタデータを読み取る権限が必要です。Data Catalog は、データエントリ内のデータをインデックスに登録するわけではありません。Data Catalog は、アセットを説明するメタデータのみをインデックスに登録します。

Data Catalog は、一部のメタデータ(ユーザー生成タグなど)を制御します。Data Catalog は、基盤となるストレージ システムが参照元となるすべてのメタデータについて、基盤となるストレージ システムから提供されるメタデータと権限を反映する読み取り専用サービスです。基盤となるストレージ システムで編集して、データエントリのメタデータを追加、更新、削除できます。

Data Catalog 検索の詳細については、Data Catalog でデータアセットを検索するをご覧ください。

アセットの自動カタログ化

Data Catalog は、特定のプロジェクトに対して、次の Google Cloud アセットを自動的にカタログ化します。

  • Analytics Hub にリンクされたデータセット。
  • BigQuery のデータセット、テーブル、モデル、ルーティン、接続
  • Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
  • Dataplex のレイク、ゾーン、テーブル、ファイルセット
  • Dataproc Metastore のサービス、データベース、テーブル
  • Pub/Sub トピック
  • Spanner のインスタンス、データベース、テーブル、ビュー
  • Vertex AI モデルデータセットVertex AI Feature Store リソース

Data Catalog は、メタデータにアクセスできるプロジェクト ID 内のアセットをカタログ化する以外にも、一般公開データセットを含む BigQuery プロジェクトに格納されているデータもカタログ化できます。

Google Cloud 外のアセットのカタログ化

組織内の Google Cloud 以外のシステムからメタデータをカタログ化するには、以下を使用します。

Data Catalog にアクセスする

Data Catalog の機能にアクセスするには、以下を使用します。

次のステップ