このドキュメントでは、メタデータを保存、管理し、アクセスするためのプラットフォームを備えた Dataplex Catalog について説明します。
Dataplex Catalog は、BigQuery などの Google Cloud リソースと、オンプレミス リソースなどの他のリソースの統合インベントリを備えています。Google Cloud リソースのメタデータは自動的に収集され、サードパーティ リソースのメタデータは Dataplex Catalog に取り込まれます。
Dataplex Catalog を使用すると、ビジネス メタデータとテクニカル メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識を取得できます。Dataplex Catalog によって、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にできます。
ユースケース
Dataplex Catalog を使用すると、次のことができます。
データを検出して把握する。Dataplex Catalog は、組織全体のデータリソースを可視化できます。それにより、データ使用ニーズに関連するリソースを見つけることができます。データリソースのコンテキストを提供します。これにより、データ利用者のニーズに対するデータリソースの適合性を把握できます。
データ ガバナンスとデータ管理を有効にする。Dataplex Catalog が提供するメタデータによって、データ ガバナンスとデータ管理機能に情報を付与して強化することが可能です。
メタデータ用に拡張可能で包括的なリポジトリを維持する。Dataplex Catalog は、Google Cloud リソースから自動的に収集されたメタデータを保存し、メタデータへのアクセスを提供します。Google Cloud 以外のシステムから独自のメタデータを統合できます。ビジネス メタデータとテクニカル メタデータのアノテーションを追加することで、すべてのメタデータを拡充できます。
Dataplex Catalog の仕組み
Dataplex Catalog は、次のコンセプトに基づいています。
エントリ: エントリはデータアセットを表します。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のエントリと類似しています。詳細については、エントリをご覧ください。
アスペクト: アスペクトは、エントリ内の関連する一連のメタデータ フィールドです。アスペクトは、エントリの構成要素、またはエントリに追加するメタデータとして解釈できます。これは Data Catalog のタグに似ていますが、アスペクトはエントリ内に保存され、スタンドアロン リソースとして保存されません。詳細については、アスペクトをご覧ください。
アスペクト タイプ: アスペクト タイプは、アスペクトに再利用可能なテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに類似しています。詳細については、アスペクト タイプをご覧ください。
エントリ グループ: エントリ グループは、エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの IAM アクセス制御、プロジェクトの帰属、ロケーションを構成します。これは、Data Catalog のエントリ グループに類似しています。詳細については、エントリ グループをご覧ください。
エントリタイプ: エントリタイプは、エントリを作成するためのテンプレートです。必須のメタデータ要素が設定され、このタイプのエントリに必要なアスペクトのリストとして概要が示されます。詳細については、エントリタイプをご覧ください。
Dataplex Catalog のユースケースの一部を以下に示します。
- データ アナリストまたはビジネス アナリストは、組織全体のエントリを検索し、エントリに関連付けられているメタデータを調査できます。詳細については、データアセットを検索するをご覧ください。
- データ オーナーまたはデータ ガバナーは、エントリにアスペクトによる注釈を付けることで、技術メタデータとビジネス メタデータを追加でキャプチャできます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データオーナーまたはデータガバナーは、注釈(アスペクト タイプを使用)とカスタム エントリ(エントリタイプを使用)の標準を定義することで、メタデータに整合性をもたらすことができます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データ エンジニアは、Google Cloud リソースやサードパーティ システムのリソースなど、リソースの統合インベントリを利用できます。Google Cloud リソースは Dataplex Catalog によって自動的に収集され、Google Cloud 以外のリソースはユーザーが収集します。詳細については、エントリを管理してカスタムソースを取り込むをご覧ください。
Data Catalog をすでに使用している場合は、次の点に注意してください。
- Data Catalog で作成したカスタム エントリ、概要コンテキスト、エントリ グループは、Dataplex Catalog で使用できます。
- Data Catalog で作成したタグとタグ テンプレートは、Dataplex Catalog では使用できません。
- Dataplex Catalog でデータアセットを検索すると、Dataplex Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Catalog に移行されたメタデータの両方が含まれます。
- Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが含まれます。
- Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Catalog では 1,024 文字に切り捨てられます。
Dataplex Catalog と Data Catalog の比較
Dataplex Catalog には、Dataplex でメタデータを管理する機能が用意されています。個別のメタデータ ストレージと、Dataplex API に統合された新しい API メソッドのセットが用意されています。
Dataplex Catalog の主な機能は次のとおりです。
より堅牢なメタモデル
- 入力されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
- カスタム エントリ用のユーザー構成可能なメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
- リスト、マップ、配列などのネスト構造のサポートなど、より多様で複雑なメタデータをサポート。
単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータ注釈を取得する機能など、スケーラビリティが向上しました。
次の表は、Dataplex Catalog と Data Catalog の機能を比較したものです。
機能 | Dataplex Catalog | Data Catalog |
---|---|---|
サポートされている Google Cloud ソース | このドキュメントのサポートされている Google Cloud ソースのセクションで説明されているすべてのソース。 | エントリとエントリ グループで説明されているすべてのソース。 |
カスタムソースの取り込み | エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。 Data Catalog のカスタム エントリとエントリ グループは、Dataplex Catalog の | 汎用カスタム エントリへの取り込み。 |
メタデータ拡張 | エントリのメタデータ コンテキストは、アスペクトとアスペクト タイプを使用してキャプチャされます。 | エントリのメタデータ コンテキストは、タグとタグ テンプレートを使用してキャプチャされます。 |
検索 | 検索は次の対象に対して実行されます。
検索結果には、検索が実行されるプロジェクトと同じ VPC-SC 境界に属するリソースのみが含まれます。Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。 エントリを検索するには、検索に使用されるプロジェクトで少なくとも 1 つの Dataplex Catalog IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。 |
検索は次の対象に対して実行されます。
|
次の表に、Dataplex Catalog リソースと Data Catalog リソースの関係を示します。
Dataplex Catalog リソース | Data Catalog リソース | 説明 |
---|---|---|
アスペクト タイプ(global ) |
公開タグ テンプレート | タグ テンプレートはリージョン リソースです。ただし、リージョン間でタグを作成できます。タグ テンプレートは、Dataplex Catalog の global アスペクト タイプに対応しています。 |
オプションのアスペクト | 公開タグ | Data Catalog の公開タグは、Dataplex Catalog のオプションのアスペクトに対応しています。 |
エントリ グループ | エントリ グループ | Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Catalog でプロジェクトごとに設定されます。 |
カスタム エントリの必須アスペクト | カスタム エントリ | Data Catalog と Dataplex Catalog は、カスタム エントリに関して類似のコンセプトを共有しています。 標準エントリ プロパティは、Dataplex Catalog で必須のアスペクトとしてモデル化されます。 |
システム エントリの必須アスペクト | システム(Google Cloud)のエントリ | BigQuery テーブルの Schema など、組み込みエンティティを記述するメタデータは、システム定義の側面タイプの必須の側面でキャプチャされます。 |
Data Catalog で使用できて Dataplex Catalog でサポートされていない機能の詳細については、このドキュメントのDataplex Catalog でサポートされていない機能をご覧ください。
サポート対象のソース
次の Google Cloud ソースのメタデータは、Dataplex Catalog に自動的に取り込まれます。
- Analytics Hub のエクスチェンジとリスティング
- BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
- Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
- Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL 統合を有効にするをご覧ください。
- Dataproc Metastore のサービス、データベース、テーブル
- Pub/Sub トピック
- Spanner のインスタンス、データベース、テーブル、ビュー
- Vertex AI モデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス
サードパーティ ソースから Dataplex Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。
プロジェクトとロケーションの制約
Dataplex Catalog リソースは、さまざまなプロジェクトとロケーションに格納されます。次の制限が適用されます。
ロケーション:
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
global
である必要があります。 - エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが
global
である必要があります。 - エントリタイプは、エントリタイプと同じ場所に保存されているアスペクト タイプで構成する必要があります。
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
プロジェクト:
- エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーションとプロジェクトに存在する必要があります。
Dataplex Catalog でサポートされていない機能
Data Catalog で利用可能な次の機能は、Dataplex Catalog ではサポートされていません。
- 非公開アスペクトとアスペクト タイプの概念は、Dataplex Catalog ではサポートされていません。アスペクトへのアクセスは、アスペクトを含むエントリに関連付けられている権限によって制御されます。詳細については、Dataplex IAM ロールをご覧ください。
- Dataplex Catalog 検索ではポリシータグの検索はサポートされていません。そのため、Dataplex Catalog 検索では述語
policytag
とpolicytagid
は機能しません。 - Dataplex Catalog に取り込まれる Data Catalog カスタム エントリの場合、現在のメタデータの既存の IAM 権限は、コピーされたメタデータに自動的に伝播されません。コピーしたメタデータを使用前に、IAM 権限を明示的に構成する必要があります。
- 機密データの保護ジョブの結果を Dataplex Catalog に送信することはできません。
- API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
- ビジネス用語集の用語を Dataplex エントリの列にアタッチすることはできません。
- エントリタイプの作成後に、エントリタイプの必須アスペクト タイプのリストを変更することはできません。
- Dataplex カタログで直接作成されたエントリの場合、データリネージは Google Cloud コンソールにリネージ イベントを表示しますが、ソース、ターゲット、プロセスに関する詳細情報は表示しません。また、データリネージでは、Google Cloud コンソールのエントリのアスペクトは表示されません。
料金
Dataplex は、メタデータ ストレージ SKU を使用してメタデータ ストレージの料金を課金します。詳細については、Dataplex の料金をご覧ください。
以下の機能の使用に対して料金は発生しません。
- Dataplex Catalog リソースの作成と管理
- Dataplex Catalog の Search API 呼び出し
- Google Cloud コンソールの Dataplex Catalog ページで実行される検索クエリ
次のステップ
- Dataplex Catalog でデータアセットを検索する方法を学習する。
- アセットを管理してメタデータを拡充する方法を確認する。
- エントリを管理してカスタムソースを取り込む方法を確認する。