Dataplex Universal Catalog は、メタデータを保存、管理、アクセスするための一元的なプラットフォームを提供します。このドキュメントでは、Dataplex Universal Catalog のメタデータ管理機能について説明します。
Dataplex Universal Catalog は、Google Cloud リソースとオンプレミス リソースの統合インベントリを提供します。 Google Cloud リソースのメタデータは、Dataplex Universal Catalog によって自動的に取得され、保存されます。サードパーティ リソースの独自のメタデータを Dataplex Universal Catalog に取り込むこともできます。
ビジネス メタデータとテクニカル メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識を取得できます。また、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にすることもできます。
デフォルトのカタログ エクスペリエンスを Dataplex Universal Catalog に設定できます。Data Catalog を使用している場合は、スタンドアロンの Data Catalog のコンテンツと使用状況を Dataplex Universal Catalog に移行します。詳細については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
ユースケース
Dataplex Universal Catalog を使用すると、次のことができます。
データを検出して把握する。Dataplex Universal Catalog を使用すると、組織全体のデータリソースを可視化できます。これにより、データ消費ニーズに関連したリソースを見つけることができます。データリソースのコンテキストが提供されるため、データ利用者のニーズに対するデータリソースの適合性を把握できます。
データ ガバナンスとデータ マネジメントを有効にする。Dataplex Universal Catalog が提供するメタデータによって、データ ガバナンス機能とデータ マネジメント機能への情報の付与と強化が可能です。
メタデータ用に拡張可能で包括的なリポジトリを維持する。Dataplex Universal Catalog により、 Google Cloud リソースから自動的に収集されたメタデータが保存され、メタデータへのアクセスが可能になります。Google Cloud 以外のシステムのユーザー独自のメタデータを統合できます。ビジネス メタデータとテクニカル メタデータの追加アノテーションを使用して、すべてのメタデータを拡充できます。
Dataplex Universal Catalog のメタデータ管理の仕組み
Dataplex Universal Catalog のメタデータ管理機能は、次のコンセプトに基づいています。
エントリ: データアセットを表します。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のエントリと類似しています。詳細については、エントリをご覧ください。
アスペクト: エントリ内の関連する一連のメタデータ フィールドです。アスペクトは、エントリの構成要素、またはエントリに追加するメタデータとして解釈できます。Data Catalog のタグに似ていますが、アスペクトはスタンドアロン リソースとしてではなく、エントリ内に保存されます。詳細については、アスペクトをご覧ください。
アスペクト タイプ: アスペクトに再利用できるテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに似ています。詳細については、アスペクト タイプをご覧ください。
エントリ グループ: エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの Identity and Access Management アクセス制御、プロジェクトのアトリビューション、ロケーションを構成します。これは、Data Catalog のエントリ グループに似ています。詳細については、エントリ グループをご覧ください。
エントリタイプ: エントリを作成するためのテンプレートです。必須のメタデータ要素が設定されます。この要素は、このタイプのエントリの必須アスペクトのリストとして概説されます。詳細については、エントリタイプをご覧ください。
図 1. エントリとエントリ グループ 図 2. アスペクト タイプとエントリタイプ
Dataplex Universal Catalog のメタデータ管理機能のユースケースの一部を以下に示します。
- データ アナリストやビジネス アナリストは、組織全体のエントリを検索し、エントリに関連付けられているメタデータを調査できます。詳細については、データアセットを検索するをご覧ください。
- データオーナーまたはデータガバナーは、エントリにアスペクトによるアノテーションを付けることで、技術メタデータとビジネス メタデータを追加でキャプチャできます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データオーナーまたはデータガバナーは、アノテーション(アスペクト タイプを使用)とカスタム エントリ(エントリタイプを使用)の標準を定義することで、メタデータに整合性をもたらすことができます。詳細については、アスペクトを管理してメタデータを拡充するをご覧ください。
- データ エンジニアは、 Google Cloud リソースやサードパーティ システムのリソースといったリソースの統合インベントリを利用できます。Google Cloud リソースは Dataplex Universal Catalog によって自動的に収集され、Google Cloud 以外のリソースはユーザーが収集します。詳細については、エントリを管理してカスタムソースを取り込むをご覧ください。
既存の Data Catalog ユーザーの場合
Data Catalog をすでに使用している場合は、次の点に注意してください。
- Data Catalog で作成したカスタム エントリ、概要のコンテキスト、エントリ グループは、Dataplex Universal Catalog で使用できます。
- 管理者は、Data Catalog のタグ テンプレートとタグのコンテンツを Dataplex Universal Catalog で同時に利用できるように選択できます。詳細については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
- Dataplex Universal Catalog でデータアセットを検索すると、Dataplex Universal Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Universal Catalog に移行されたメタデータの両方が結果に含まれます。
- Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが結果に含まれます。
- Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Universal Catalog では 1,024 文字に切り捨てられます。
スタンドアロンの Data Catalog のコンテンツと使用状況を Dataplex Universal Catalog に移行する方法については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
Dataplex Universal Catalog と Data Catalog
Dataplex Universal Catalog には、メタデータを管理するための統合機能が用意されています。メタデータのストレージと API メソッドは Dataplex API に統合されています。
Dataplex Universal Catalog の主なメタデータ管理機能は次のとおりです。
より堅牢なメタモデル
- タイプ化されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
- ユーザーが構成可能なカスタム エントリ用のメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
- リスト、マップ、配列などのネスト構造のサポートといったより多様で複雑なメタデータをサポートします。
単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータのアノテーションを取得する機能など、スケーラビリティが向上しました。
次の表は、Dataplex Universal Catalog と Data Catalog のメタデータ管理機能を比較したものです。
機能 | Dataplex Universal Catalog | Data Catalog |
---|---|---|
サポートされている Google Cloud ソース | このドキュメントのサポートされている Google Cloud ソースのセクションに記載されているすべてのソース。 | エントリとエントリ グループで説明されているすべてのソース |
カスタムソースの取り込み | エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。 Data Catalog のカスタム エントリとエントリ グループは、Dataplex Universal Catalog の | 汎用カスタム エントリへの取り込み。 |
メタデータ拡張 | エントリのメタデータ コンテキストは、ビジネス用語集、アスペクト、アスペクト タイプを使用してキャプチャされます。 | エントリのメタデータ コンテキストは、ビジネス用語集、タグ、タグ テンプレートを使用してキャプチャされます。 |
検索 | 検索は次の対象に対して実行されます。
検索結果には、検索が実行されるプロジェクトと同じ組織と同じ VPC-SC 境界に属するリソースのみが含まれます。 Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。 エントリを検索するには、検索に使用されるプロジェクトで、Dataplex Catalog 管理者、Dataplex Catalog 編集者、または Dataplex Catalog 閲覧者のいずれかの IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。 |
検索は次の対象に対して実行されます。
|
データリネージ |
データリネージは、Dataplex API を使用してアセットノードのエントリの詳細を取得します。 Google Cloud コンソールに、アタッチされたアスペクトが表示されます。 |
データリネージは、Data Catalog API を使用してアセットノードのエントリの詳細を取得します。 Google Cloud コンソールに、アタッチされたタグと用語集の用語が表示されます。 |
次の表に示すのは、Dataplex Universal Catalog のリソースと Data Catalog リソースの関係です。
Dataplex Universal Catalog リソース | Data Catalog リソース | 説明 |
---|---|---|
アスペクト タイプ(global ) |
公開タグ テンプレート | タグ テンプレートはリージョン リソースです。ただし、タグ テンプレートを使用してリージョン間でタグを作成できます。タグ テンプレートは、Dataplex Universal Catalog の global アスペクト タイプに対応しています。 |
オプションのアスペクト | 公開タグ | Data Catalog の公開タグは、Dataplex Universal Catalog のオプションのアスペクトに対応しています。 |
エントリ グループ | エントリ グループ | Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Universal Catalog でプロジェクトごとに設定されます。 |
カスタム エントリの必須アスペクト | カスタム エントリ | Data Catalog と Dataplex Universal Catalog では、カスタム エントリのコンセプトが似ています。 標準エントリ プロパティは、Dataplex Universal Catalog で必須アスペクトとしてモデル化されます。 |
システム エントリの必須アスペクト | システム(Google Cloud)のエントリ | BigQuery テーブルの Schema など、組み込みエンティティを記述するメタデータは、システム定義のアスペクト タイプの必須アスペクトでキャプチャされます。 |
Data Catalog で使用できるが Dataplex Universal Catalog ではサポートされていない機能の詳細については、このドキュメントのDataplex Universal Catalog でサポートされていないメタデータ管理機能をご覧ください。
サポート対象のソース
- Cloud Storage データの自動検出
- 次の Google Cloud ソースのメタデータは、Dataplex Universal Catalog に自動的に取り込まれます。
- BigQuery Sharing(旧 Analytics Hub)のエクスチェンジとリスティング
- BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
- Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
- Dataform リポジトリとコードアセット
- Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL の統合を有効にするをご覧ください。
- Dataproc Metastore のサービス、データベース、テーブル
- Pub/Sub トピック
- Spanner のインスタンス、データベース、テーブル、ビュー
- Vertex AI のモデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス
サードパーティ ソースから Dataplex Universal Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。
プロジェクトとロケーションの制約
Dataplex Universal Catalog のカタログ リソースは、さまざまなプロジェクトとロケーションに保存されます。次の制限が適用されます。
ロケーション:
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
global
である必要があります。 - エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが
global
である必要があります。 - エントリタイプは、エントリタイプと同じロケーションに保存されているアスペクト タイプで構成する必要があります。
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
プロジェクト:
- エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーション、同じプロジェクトに存在する必要があります。
Dataplex Universal Catalog でサポートされていないメタデータ管理機能
Data Catalog で利用可能な次の機能は、Dataplex Universal Catalog ではサポートされていません。
- 非公開アスペクトと非公開アスペクト タイプ(Data Catalog の非公開タグと非公開タグ テンプレートの類似物)のコンセプトは、Dataplex Universal Catalog にはありません。
- Dataplex Universal Catalog の検索ではポリシータグの検索はサポートされていないため、述語
policytag
とpolicytagid
は機能しません。 - Data Catalog のカスタム エントリ グループ、カスタム エントリ、タグ テンプレート、タグをユ Dataplex Universal Catalog に移行しても、元の権限は引き継がれません。コピーしたメタデータを使用する前に、IAM 権限を明示的に構成する必要があります。
- アスペクトとカスタム エントリの管理に対する Terraform のサポートは利用できません。代わりに、マネージド接続パイプラインまたはメタデータ インポート API メソッドを使用して、カスタム メタデータをプログラムで大規模に管理できます(エントリ グループ、エントリタイプ、アスペクト タイプの Terraform サポートを利用できます。Terraform で Dataplex Universal Catalog リソースをプロビジョニングするをご覧ください)。
- Sensitive Data Protection の検査結果を Dataplex Universal Catalog のカタログに直接送信することはできません。代わりに、Sensitive Data Protection の検査結果を Data Catalog に送信してから、結果を Dataplex Universal Catalog に移行できます。
- API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
- ビジネス用語集(プレビュー版)の用語をユ Dataplex Universal Catalog のエントリの列にアタッチすることはできません。
- レイク、ゾーン、アセット、エンティティを Dataplex Universal Catalog のエントリとして登録することはできません。つまり、レイク、ゾーン、アセット、エンティティにアタッチされている Data Catalog メタデータは、Dataplex Universal Catalog のカタログに引き継がれません。また、Dataplex Universal Catalog の検索を使用する場合、ゾーンとエンティティの検索はサポートされていません。また、レイクとゾーンによるフィルタリングもサポートされていません。レイクとゾーンは、Dataplex Universal Catalog のカタログとは別に使用できます。
- 完全な再現率を保証する管理者検索はサポートされていません。代わりに、メタデータを Cloud Storage にエクスポートし、BigQuery からクエリできます。
Dataplex Universal Catalog と Data Catalog の両方でサポートされている機能とリソースの比較については、このドキュメントの Dataplex Universal Catalog と Data Catalog をご覧ください。
料金
Dataplex Universal Catalog では、メタデータ ストレージ SKU に基づいてメタデータ ストレージの料金が請求されます。詳細については、Dataplex Universal Catalog の料金をご覧ください。
以下の機能を使用しても、料金は発生しません。
- Dataplex Universal Catalog でのカタログ リソースの作成と管理
- Dataplex Universal Catalog での検索 API 呼び出し
- Google Cloud コンソールの [Dataplex Universal Catalog] ページを使用した検索クエリ
次のステップ
- Dataplex Universal Catalog でリソースを検索する方法を確認する。
- アセットを管理してメタデータを拡充する方法を確認する。
- エントリの管理方法とカスタムソースを取り込む方法を確認する。
- Data Catalog から Dataplex Universal Catalog への移行の詳細を確認する。