このページは Cloud Translation API によって翻訳されました。

エンタープライズデータ管理と分析のプラットフォームをデプロイする

Last reviewed 2025-04-04 UTC

エンタープライズデータ管理および分析プラットフォームは、セキュリティ管理を維持しながら機密情報を保存、分析、操作できるエンクレーブを提供します。エンタープライズデータメッシュアーキテクチャを使用して、データ管理と分析用のプラットフォームを Google Cloud にデプロイできます。このアーキテクチャは、コンポーネントが既存のオンプレミスコンポーネントと運用プロセスとやり取りするハイブリッド環境で動作するように設計されています。 Google Cloud

エンタープライズデータメッシュアーキテクチャには、次のものが含まれます。

次のものを構築するための Terraform 構成、スクリプト、コードのセットが含まれている GitHub リポジトリ。
- Google の Cloud Data Management Capabilities（CDMS）キーコントロールフレームワークの実装を使用できるガバナンスプロジェクト。
- インタラクティブワークフローと本番環境ワークフローをサポートするデータプラットフォームの例。
- 複数のデータドメインをサポートするデータプラットフォーム内のプロデューサー環境。データドメインは、データ要素の論理グループです。
- 複数のコンシューマプロジェクトをサポートするデータプラットフォーム内のコンシューマ環境。
- Workload Identity Federation と Tink 暗号化ライブラリを使用して、 Google Cloud にデータを安全に転送できるデータ転送サービス。
- 取り込みプロジェクト、非機密プロジェクト、機密プロジェクトを含むデータドメインの例。
- データ利用者がデータセットへのアクセスをリクエストし、データオーナーがそれらのデータセットへのアクセスを許可できるデータアクセスシステムの例。この例には、それらのデータセットの IAM 権限を適宜変更するワークフローマネージャーも含まれています。
このアーキテクチャを使用して実装するアーキテクチャ、設計、セキュリティ管理、運用プロセスのガイド（このドキュメント）。

エンタープライズデータメッシュアーキテクチャは、エンタープライズ基盤ブループリントとの互換性を確保できるように設計されています。エンタープライズ基盤ブループリントは、VPC ネットワークやロギングなど、このアーキテクチャが依存する多くの基本レベルのサービスを提供します。Google Cloud 環境に必要な機能が提供されている場合は、エンタープライズ基盤ブループリントをデプロイせずに、このアーキテクチャをデプロイできます。

このドキュメントは、このアーキテクチャを使用して Google Cloudに包括的なデータサービスを構築してデプロイできるクラウドアーキテクト、データサイエンティスト、データエンジニア、セキュリティアーキテクトを対象としています。このドキュメントは、データメッシュ、 Google Cloudデータサービス、CDMC フレームワークの実装の概念に精通していることを前提としています。 Google Cloud

アーキテクチャ

エンタープライズデータメッシュアーキテクチャは、階層型のアプローチで、データの取り込み、データ処理、ガバナンスを可能にする機能を提供します。このアーキテクチャは、CI/CD ワークフローを通じてデプロイおよび制御することを前提としています。次の図は、このアーキテクチャによってデプロイされたデータレイヤが環境内の他のレイヤとどのように関連しているかを示しています。

データメッシュアーキテクチャ。

この図には次のものが含まれています。

Google Cloud インフラストラクチャは、保存データの暗号化や転送中データの暗号化などのセキュリティ機能とともに、コンピューティングやストレージなどの基本的な構成要素を備えています。
エンタープライズ基盤は、ID、ネットワーキング、ロギング、モニタリング、デプロイシステムといった、データワークロードに Google Cloud を導入するための一連の基本リソースを備えています。
データレイヤは、データの取り込み、データの保存、データアクセス制御、データガバナンス、データモニタリング、データ共有などのさまざまな機能を提供します。
アプリケーションレイヤは、データレイヤアセットを使用するさまざまなアプリケーションを表します。
CI/CD には、インフラストラクチャ、ワークフロー、ソフトウェアコンポーネントのプロビジョニング、構成、管理、デプロイを自動化するツールが用意されています。これらのコンポーネントにより、デプロイの一貫性、信頼性、監査可能性を保証し、手作業による誤りを最小限に抑えて、全体的な開発サイクルを加速できます。

データ環境の使用方法を示すために、このアーキテクチャにはサンプルデータワークフローが含まれています。サンプルデータワークフローは、データガバナンス、データの取り込み、データ処理、データ共有、データ使用のプロセスを説明します。

アーキテクチャに関する重要な決定事項

次の表に、アーキテクチャに関する大まかな決定事項を示します。

決定分野	決定
Google Cloud アーキテクチャ
リソース階層	このアーキテクチャでは、エンタープライズ基盤ブループリントのリソース階層を使用します。
ネットワーキング	このアーキテクチャには、Workload Identity 連携と Tink ライブラリを使用するデータ転送サービスの例が含まれています。
ロールと IAM 権限	このアーキテクチャには、セグメント化されたデータプロデューサーのロール、データコンシューマのロール、データガバナンスのロール、データプラットフォームのロールが含まれます。
共通データサービス
メタデータ	このアーキテクチャでは、Data Catalog を使用してデータメタデータを管理します。
一元的なポリシー管理	ポリシーを管理するために、このアーキテクチャでは Google Cloudの CDMC フレームワークの実装を使用します。
データアクセス管理	データへのアクセスを制御するために、このアーキテクチャには、データ利用者がデータオーナーからデータアセットへのアクセス権をリクエストする必要がある独立したプロセスが含まれています。
データ品質	このアーキテクチャでは、Cloud Data Quality Engine を使用して、指定されたテーブル列でデータ品質ルールを定義して実行し、正確性や完全性などの指標に基づいてデータ品質を測定します。
データセキュリティ	このアーキテクチャでは、タグ付け、暗号化、マスキング、トークン化、IAM コントロールを使用してデータのセキュリティを確保します。
データドメイン
データ環境	このアーキテクチャには、3 つの環境が含まれています。2 つの環境（非本番環境と本番環境）は、パイプラインによって駆動される運用環境です。1 つの環境（開発）はインタラクティブな環境です。
データオーナー	データオーナーは、データアセットを取り込み、処理、公開し、アクセス権を付与します。
データコンシューマ	データコンシューマがデータアセットへのアクセスをリクエストします。
オンボーディングと運用
パイプライン	このアーキテクチャでは、次のパイプラインを使用してリソースをデプロイします。基盤パイプラインインフラストラクチャパイプラインアーティファクトパイプラインサービスカタログパイプライン
リポジトリ	各パイプラインは個別のリポジトリを使用して、責任の分離を可能にします。
プロセスの流れ	このプロセスでは、本番環境への変更に送信者と承認者が含まれる必要があります。
Cloud Operations
データプロダクトのスコアカード	レポートエンジンは、データプロダクトのスコアカードを生成します。
Cloud Logging	このアーキテクチャでは、エンタープライズ基盤ブループリントのロギングインフラストラクチャを使用します。
Cloud Monitoring	このアーキテクチャでは、エンタープライズ基盤ブループリントのモニタリングインフラストラクチャを使用します。

ID: ロールをグループにマッピングする

データメッシュは、エンタープライズ基盤のブループリントの既存の ID ライフサイクル管理、認可、認証アーキテクチャを活用します。ユーザーにはロールが直接割り当てられません。代わりに、グループが IAM でロールと権限を割り当てる主な方法となります。IAM のロールと権限は、プロジェクトの作成時に基盤パイプラインを通じて割り当てられます。

データメッシュは、グループを 4 つの主要な領域（インフラストラクチャ、データガバナンス、ドメインベースのデータプロデューサー、ドメインベースのコンシューマ）のいずれかに関連付けます。

これらのグループの権限スコープは次のとおりです。

インフラストラクチャグループの権限スコープは、データメッシュ全体です。
データガバナンスグループの権限スコープは、データガバナンスプロジェクトです。
ドメインベースのプロデューサーとコンシューマの権限は、データドメインに限定されます。

次の表に、このデータメッシュの実装で使用されるさまざまなロールと、それらに関連付けられた権限を示します。

インフラストラクチャ

グループ	説明	ロール
`data-mesh-ops@example.com`	データメッシュの全体管理者	`roles/owner`（データプラットフォーム）

データガバナンス

グループ	説明	ロール
`gcp-dm-governance-admins@example.com`	データガバナンスプロジェクトの管理者	データガバナンスプロジェクトの `roles/owner`
`gcp-dm-governance-developers@example.com`	データガバナンスコンポーネントを構築して維持するデベロッパー	データガバナンスプロジェクトの複数のロール（`roles/viewer`、BigQuery ロール、Data Catalog ロールなど）
`gcp-dm-governance-data-readers@example.com`	データガバナンス情報の読者	`roles/viewer`
`gcp-dm-governance-security-administrator@example.com`	ガバナンスプロジェクトのセキュリティ管理者	`roles/orgpolicy.policyAdmin` と `roles/iam.securityReviewer`。
`gcp-dm-governance-tag-template-users@example.com`	タグテンプレートの使用権限を持つグループ	`roles/datacatalog.tagTemplateUser`
`gcp-dm-governance-tag-users@example.com`	タグテンプレートの使用とタグの追加の権限を持つグループ	`roles/datacatalog.tagTemplateUser` と `roles/datacatalog.tagEditor`。
`gcp-dm-governance-scc-notifications@example.com`	Security Command Center 通知のサービスアカウントグループ	なし。これはメンバーシップのグループであり、この名前のサービスアカウントが作成され、必要な権限が付与されます。

ドメインベースのデータプロデューサー

グループ	説明	ロール
`gcp-dm-{data_domain_name}-admins@example.com`	特定のデータドメインの管理者	データドメインプロジェクトに対する `roles/owner`
`gcp-dm-{data_domain_name}-developers@example.com`	データドメイン内でデータプロダクトを構築して維持するデベロッパー	データドメインプロジェクトに対する複数のロール（`roles/viewer`、BigQuery ロール、Cloud Storage ロールなど）
`gcp-dm-{data_domain_name}-data-readers@example.com`	データドメイン情報の読み取り元	`roles/viewer`
`gcp-dm-{data_domain_name}-metadata-editors@{var.domain}`	Data Catalog エントリの編集者	Data Catalog エントリを編集するためのロール
`gcp-dm-{data_domain_name}-data-stewards@example.com`	データドメインのデータスチュワード	メタデータとデータガバナンスの側面を管理するロール

ドメインベースのデータコンシューマ

グループ	説明	ロール
`gcp-dm-consumer-{project_name}-admins@example.com`	特定のコンシューマプロジェクトの管理者	コンシューマプロジェクトに対する `roles/owner`
`gcp-dm-consumer-{project_name}-developers@example.com`	コンシューマープロジェクト内で作業するデベロッパー	コンシューマプロジェクトの複数のロール（`roles/viewer` ロールや BigQuery ロールなど）
`gcp-dm-consumer-{project_name}-data-readers@example.com`	コンシューマープロジェクト情報の読み取り	`roles/viewer`

組織構造

本番環境のオペレーションと本番環境のデータを区別するため、このアーキテクチャでは、異なる環境を使用してワークフローを開発してリリースします。本番環境オペレーションには、ワークフローのガバナンス、トレーサビリティ、再現性、ワークフローの結果の監査可能性が含まれます。本番環境データとは、組織の運営に必要な機密性の高いデータのことです。すべての環境は、データを取り込んで操作できるようにセキュリティ管理ができるように設計されています。

データサイエンティストとエンジニアを支援するために、このアーキテクチャにはインタラクティブ環境が含まれています。この環境では、デベロッパーは環境を直接操作し、キュレートされたソリューションカタログからサービスを追加できます。運用環境は、アーキテクチャと構成をコード化したパイプラインによって駆動されます。

このアーキテクチャでは、データワークロードのデプロイの基盤として、エンタープライズ基盤ブループリントの組織構造を使用します。次の図は、エンタープライズデータメッシュアーキテクチャで使用されるトップレベルのフォルダとプロジェクトを示しています。

データメッシュの組織構造。

次の表に、アーキテクチャに含まれる最上位のフォルダとプロジェクトを示します。

フォルダ	コンポーネント	説明
`common`	`prj-c-artifact-pipeline`	アーキテクチャのコードアーティファクトの構築に使用されるデプロイパイプラインが含まれています。
	`prj-c-service-catalog`	インタラクティブ環境にリソースをデプロイするためにサービスカタログで使用されるインフラストラクチャが含まれています。
	`prj-c-datagovernance`	Google Cloudの CDMC フレームワークの実装で使用されるすべてのリソースが含まれています。
`development`	`fldr-d-dataplatform`	インタラクティブモードでユースケースを開発するためのデータプラットフォームのプロジェクトとリソースが含まれています。
`non-production`	`fldr-n-dataplatform`	運用環境にデプロイするユースケースをテストするためのデータプラットフォームのプロジェクトとリソースが含まれます。
`production`	`fldr-p-dataplatform`	本番環境にデプロイするデータプラットフォームのプロジェクトとリソースが含まれています。

データプラットフォームフォルダ

データプラットフォームフォルダには、すべてのデータプレーンコンポーネントと一部の CDMC リソースが含まれています。また、データプラットフォームフォルダとデータガバナンスプロジェクトには CDMC リソースが含まれています。次の図は、データプラットフォームフォルダにデプロイされるフォルダとプロジェクトを示しています。

データプラットフォームフォルダ

各データプラットフォームフォルダには、環境フォルダ（本番環境、非本番環境、開発環境）が含まれています。次の表に、各データプラットフォームフォルダ内のフォルダを示します。

フォルダ	説明
Producers	データドメインが含まれます。
一般ユーザー	コンシューマプロジェクトが含まれます。
データドメイン	特定のドメインに関連付けられたプロジェクトが含まれています。

プロデューサーフォルダ

各プロデューサーフォルダには 1 つ以上のデータドメインが含まれます。データドメインとは、共通の意味、目的、ビジネスコンテキストを共有するデータ要素の論理的なグループ化を指します。データドメインを使用すると、組織内のデータを分類して整理できます。次の図は、データドメインの構造を示しています。このアーキテクチャでは、環境ごとにデータプラットフォームフォルダにプロジェクトがデプロイされます。

producers フォルダ。

次の表に、各環境のデータプラットフォームフォルダにデプロイされるプロジェクトを示します。

プロジェクト	説明
取り込み	取り込みプロジェクトは、データドメインにデータを取り込みます。このアーキテクチャは、BigQuery、Cloud Storage、Pub/Sub にデータをストリーミングする方法の例を示しています。取り込みプロジェクトには、取り込まれたデータの変換と移動をオーケストレートするために使用できる Dataflow と Cloud Composer の例も含まれています。
非機密	機密性のないプロジェクトには、匿名化されたデータが含まれています。データのマスキング、コンテナ化、暗号化、トークン化、難読化を行うことができます。ポリシータグを使用して、データの表示方法を制御します。
社外秘	機密プロジェクトには平文データが含まれています。アクセスは IAM 権限で制御できます。

コンシューマフォルダ

コンシューマフォルダには、コンシューマプロジェクトが含まれています。コンシューマプロジェクトは、必要な信頼境界に基づいてデータユーザーをセグメント化するメカニズムを提供します。各プロジェクトは個別のユーザーグループに割り当てられ、グループにはプロジェクトごとに必要なデータアセットへのアクセス権が割り当てられます。コンシューマプロジェクトを使用して、グループのデータを収集、分析、拡張できます。

共通フォルダ

common フォルダには、さまざまな環境とプロジェクトで使用されるサービスが含まれています。このセクションでは、エンタープライズデータメッシュを有効にするために共通フォルダに追加される機能について説明します。

CDMC アーキテクチャ

このアーキテクチャでは、データガバナンスに CDMC アーキテクチャを使用しています。データガバナンス関数は、共通フォルダのデータガバナンスプロジェクトにあります。次の図は、CDMC アーキテクチャのコンポーネントを示しています。図中の番号は、 Google Cloudサービスが対応しているキーコントロールを表しています。

CDMC アーキテクチャ。

次の表に、エンタープライズデータメッシュアーキテクチャで使用する CDMC アーキテクチャのコンポーネントを示します。

CDMC コンポーネント	Google Cloud サービス	説明
アクセスとライフサイクルのコンポーネント
鍵管理	Cloud KMS	機密データを保護する暗号鍵を安全に管理するサービス。
レコードマネージャー	Cloud Run	データ処理アクティビティの包括的なログとレコードを維持するアプリケーション。これにより、組織はデータ使用状況を追跡して監査できます。
アーカイブポリシー	BigQuery	データのストレージポリシーを含む BigQuery テーブル。
利用資格	BigQuery	機密データにアクセスできるユーザーに関する情報を保存する BigQuery テーブル。このテーブルにより、承認されたユーザーのみが、ロールと権限に基づいて特定のデータにアクセスできるようになります。
スキャンコンポーネント
データ損失	Sensitive Data Protection	アセットに機密データが含まれていないか検査するために使用されるサービス。
DLP の検出結果	BigQuery	データプラットフォーム内のデータ分類をカタログ化する BigQuery テーブル。
ポリシー	BigQuery	一貫したデータガバナンスプラクティス（データアクセスタイプなど）を含む BigQuery テーブル。
課金データのエクスポート	BigQuery	Cloud Billing からエクスポートされた費用情報を格納するテーブル。データアセットに関連付けられた費用指標の分析を可能にします。
Cloud Data Quality Engine	Cloud Run	テーブルと列のデータ品質チェックを実行するアプリケーション。
データ品質の検出結果	BigQuery	定義されたデータ品質ルールとデータアセットの実際の品質の間で検出された不一致を記録する BigQuery テーブル。
レポートコンポーネント
スケジューラ	Cloud Scheduler	Cloud Data Quality Engine の実行タイミングと Sensitive Data Protection の検査のタイミングを制御するサービス。
レポートエンジン	Cloud Run	CDMC フレームワークのコントロールへの準拠の追跡と測定に役立つレポートを生成するアプリケーション。
検出結果とアセット	BigQuery と Pub/Sub	タグの欠落、分類の誤り、コンプライアンス違反のストレージロケーションなど、データ管理制御の不一致や不整合に関する BigQuery レポート。
タグのエクスポート	BigQuery	Data Catalog から抽出されたタグ情報が含まれる BigQuery テーブル。
その他のコンポーネント
ポリシー管理	組織ポリシーサービス	データが地理的に保存できる場所に制限を定義して適用するサービス。
属性ベースのアクセスポリシー	Access Context Manager	属性ベースの詳細なアクセスポリシーを定義して適用するサービス。これにより、許可されたロケーションとデバイスの承認済みユーザーのみが機密情報にアクセスできるようになります。
メタデータ	Data Catalog	データメッシュで使用されているテーブルに関するメタデータ情報を保存するサービス。
Engine のタグ設定	Cloud Run	BigQuery テーブルのデータにタグを追加するアプリケーション。
CDMC レポート	Looker Studio	アナリストが CDMC アーキテクチャエンジンによって生成されたレポートを表示できるダッシュボード。

CDMC の実装

次の表に、アーキテクチャが CDMC フレームワークでキーコントロールを実装する方法を示します。

CDMC コントロール要件	実装
データ管理のコンプライアンス	Report Engine は、コンプライアンス違反のデータアセットを検出し、検出結果を Pub/Sub トピックにパブリッシュします。これらの検出結果は、Looker Studio を使用したレポート作成のために BigQuery にも読み込まれます。
移行データとクラウド生成データの両方にデータの所有権が確立している	Data Catalog は、BigQuery からテクニカルメタデータを自動的にキャプチャします。Tag Engine は、参照テーブルからオーナー名や機密性レベルなどのビジネスメタデータタグを適用します。これにより、コンプライアンスを確保するために、すべての機密データにオーナー情報のタグが付けられます。この自動タグ付けプロセスは、機密データを特定して適切な所有者情報でラベル付けすることで、データガバナンスとコンプライアンスを実現します。
データのソーシングと利用が統制され、自動化によってサポートされている	Data Catalog は、信頼できるソースであるデータアセットに `is_authoritative` フラグをタグ付けして、データアセットを分類します。Data Catalog は、この情報とテクニカルメタデータを自動的にデータレジストリに保存します。Report Engine と Tag Engine は、Pub/Sub を使用して信頼できるソースのデータレジストリを検証してレポートできます。
データ主権と境界を越えるデータの移動が管理されている	組織のポリシーサービスは、データアセットに許可されるストレージリージョンを定義し、Access Context Manager はユーザーのロケーションに基づいてアクセスを制限します。Data Catalog は、承認されたストレージのロケーションをメタデータタグとして保存します。Report Engine は、これらのタグを BigQuery 内のデータアセットの実際の場所と比較し、不一致があれば Pub/Sub を使用して検出結果として公開します。Security Command Center は、定義されたポリシーの外部にデータが保存またはアクセスされた場合に脆弱性の検出結果を生成することで、追加のモニタリングレイヤを提供します。
データカタログが実装、使用され、相互運用されている	Data Catalog は、すべての BigQuery データアセットのテクニカルメタデータを保存して更新し、継続的に同期された Data Catalog を効果的に作成します。Data Catalog では、新しいテーブルや変更されたテーブルとビューがカタログにすぐに追加され、データアセットの最新のインベントリが維持されます。
データ分類が定義され、使用されている	Sensitive Data Protection は、BigQuery データを検査して機密情報の種類を特定します。これらの検出結果は、分類参照表に基づいてランク付けされ、最も高い機密性レベルが Data Catalog の列レベルとテーブルレベルでタグとして割り当てられます。Tag Engine は、新しいデータアセットが追加されたときや既存のデータアセットが変更されたときに、機密性タグを使用してデータカタログを更新することで、このプロセスを管理します。このプロセスにより、機密性に基づいてデータの分類が常に更新されます。この分類は、Pub/Sub と統合されたレポート作成ツールを使用してモニタリングおよびレポートできます。
データの利用資格が管理、適用、追跡されている	BigQuery のポリシータグは、機密データへのアクセスを列レベルで制御します。これにより、割り当てられたポリシータグに基づいて、承認されたユーザーのみが特定のデータにアクセスできるようになります。IAM はデータウェアハウスへの全体的なアクセスを管理し、Data Catalog は機密性分類を保存します。定期的なチェックが実行され、すべての機密データに対応するポリシータグが付与されていることを確認します。不一致がある場合は、Pub/Sub を使用して報告され、修正されます。
データの倫理的アクセス、使用、結果が管理されている	プロバイダとコンシューマの両方のデータ共有契約は、専用の BigQuery データウェアハウスに保存され、使用目的を制御します。Data Catalog は、データアセットにプロバイダの契約情報をラベル付けします。一方、コンシューマの契約は、アクセス制御用の IAM バインディングにリンクされます。クエリラベルは利用目的を適用するため、利用者は機密データをクエリするときに有効な目的を指定する必要があります。この目的は、BigQuery の利用資格と照合されます。BigQuery の監査証跡は、すべてのデータアクセスを追跡し、データ共有契約に準拠していることを確認します。
データが保護され、コントロールが証明されている	Google のデフォルトの保存データの暗号化は、ディスクに保存されているデータを保護します。Cloud KMS は、鍵管理を強化するために顧客管理の暗号鍵（CMEK）をサポートしています。BigQuery は、匿名化のために列レベルの動的データマスキングを実装し、データの取り込み中にアプリケーションレベルの匿名化をサポートしています。Data Catalog は、データアセットに適用される暗号化と匿名化の手法のメタデータタグを保存します。自動チェックにより、暗号化と匿名化の方法が事前定義されたセキュリティポリシーと一致していることが確認され、不一致があれば Pub/Sub を使用して検出結果として報告されます。
データプライバシーフレームワークが定義され、運用されている	Data Catalog は、機密データアセットに、影響評価に関連する情報（被写体の位置情報や評価レポートのリンクなど）のタグを設定します。Tag Engine は、データの機密性と BigQuery のポリシーテーブルに基づいてこれらのタグを適用します。このテーブルには、データと被写体の所在地に基づく評価要件が定義されています。この自動タグ付けプロセスにより、影響評価の要件に対するコンプライアンスの継続的なモニタリングとレポートが可能になり、必要に応じてデータ保護影響評価（DPIA）または保護影響評価（PIA）が実施されます。
データライフサイクルが計画され、管理されている	Data Catalog は、保持期間と有効期限アクション（アーカイブやパージなど）を指定して、保持ポリシーでデータアセットにラベルを付けます。Record Manager は、定義されたタグに基づいて BigQuery テーブルをパージまたはアーカイブすることで、これらのポリシーの適用を自動化します。この適用により、データライフサイクルポリシーに準拠し、データ保持要件に準拠した状態を維持できます。不一致は Pub/Sub を使用して検出および報告されます。
データ品質が管理されている	Cloud Data Quality Engine は、指定されたテーブル列に対してデータ品質ルールを定義して実行し、正確性や完全性などの指標に基づいてデータ品質を測定します。これらのチェックの結果（成功率やしきい値など）は、タグとして Data Catalog に保存されます。これらの結果を保存することで、データ品質の継続的なモニタリングとレポートが可能になり、問題や許容しきい値からの逸脱は Pub/Sub を使用して検出結果として公開されます。
費用管理の原則が確立され、適用されている	Data Catalog には、クエリ費用、ストレージ費用、データ下り（外向き）費用など、データアセットの費用関連の指標が保存されます。これらの指標は、Cloud Billing から BigQuery にエクスポートされた課金情報を使用して計算されます。費用関連の指標を保存すると、費用の包括的な追跡と分析が可能になり、費用ポリシーの遵守とリソースの効率的な使用が確保されます。異常は Pub/Sub を使用して報告されます。
データの来歴と系列が理解されている	Data Catalog の組み込みのデータリネージ機能は、データアセットの来歴とリネージを追跡し、データフローを視覚的に表します。さらに、データ取り込みスクリプトは、Data Catalog でデータの元のソースを識別してタグ付けし、データの元へのトレーサビリティを強化します。

データアクセス管理

このアーキテクチャのデータへのアクセスは、運用管理（Dataflow ジョブの実行など）とデータアクセス制御を分離する独立したプロセスによって制御されます。ユーザーによるサービスへのアクセスは、環境または運用上の懸念事項によって定義され、クラウドエンジニアリンググループによってプロビジョニングおよび承認されます。 Google Cloud ユーザーによる Google Cloud データアセット（BigQuery テーブルなど）へのアクセスは、プライバシー、規制、ガバナンスに関する懸念事項であり、生成側と使用側の間のアクセス契約の対象となり、次のプロセスで制御されます。次の図は、さまざまなソフトウェアコンポーネントの相互作用によってデータアクセスがプロビジョニングされる方法を示しています。

データアクセス管理

上の図に示すように、データアクセスのオンボーディングは次のプロセスによって処理されます。

Cloud データアセットは、Data Catalog によって収集され、インベントリに登録されます。
ワークフローマネージャーは、Data Catalog からデータアセットを取得します。
データオーナーがワークフローマネージャーにオンボーディングされます。

データアクセス管理のオペレーションは次のとおりです。

データコンシューマが特定のアセットをリクエストします。
アセットのデータオーナーにリクエストが通知されます。
データオーナーがリクエストを承認または拒否します。
リクエストが承認されると、ワークフローマネージャーはグループ、アセット、関連タグを IAM マッパーに渡します。
IAM マッパーは、ワークフローマネージャーのタグを IAM 権限に変換し、指定されたグループにデータアセットに対する IAM 権限を付与します。
ユーザーがデータアセットにアクセスしようとすると、IAM はグループの権限に基づいてアセットへのアクセスを評価します。 Google Cloud
許可されている場合、ユーザーはデータアセットにアクセスします。

ネットワーキング

データセキュリティプロセスは、送信元アプリケーションで開始されます。このアプリケーションは、オンプレミスまたはターゲットGoogle Cloud プロジェクトの外部にある別の環境に存在する場合があります。このアプリケーションは、ネットワーク転送が行われる前に、Workload Identity 連携を使用して Google Cloud APIs に対して安全に認証を行います。これらの認証情報を使用して Cloud KMS とやり取りし、必要な鍵を取得またはラップします。次に、Tink ライブラリを使用して、事前定義されたテンプレートに基づいて機密データペイロードの初期暗号化と匿名化を行います。

データペイロードを保護したら、ペイロードを Google Cloud 取り込みプロジェクトに安全に転送する必要があります。オンプレミスアプリケーションの場合は、Cloud Interconnect または Cloud VPN を使用できます。Google Cloud ネットワーク内で、Private Service Connect を使用して、ターゲットプロジェクトの VPC ネットワーク内の取り込みエンドポイントにデータを転送します。Private Service Connect を使用すると、ソースアプリケーションはプライベート IP アドレスを使用して Google API に接続できるため、トラフィックがインターネットに公開されることはありません。

ネットワークパス全体と、取り込みプロジェクト内のターゲット取り込みサービス（Cloud Storage、BigQuery、Pub/Sub）は、VPC Service Controls の境界で保護されます。この境界はセキュリティ境界を適用し、ソースから取得された保護されたデータを、その特定のプロジェクト内の承認済みのGoogle Cloud サービスにのみ取り込むようにします。

ロギング

このアーキテクチャでは、エンタープライズ基盤ブループリントによって提供される Cloud Logging の機能を使用します。

パイプライン

エンタープライズデータメッシュアーキテクチャでは、一連のパイプラインを使用して、インフラストラクチャ、オーケストレーション、データセット、データパイプライン、アプリケーションコンポーネントをプロビジョニングします。このアーキテクチャのリソースのデプロイパイプラインは、Infrastructure as Code（IaC）ツールとして Terraform を使用し、CI/CD サービスとして Cloud Build を使用して、Terraform 構成をアーキテクチャ環境にデプロイします。次の図は、パイプラインの関係を示しています。

パイプラインの関係

基盤パイプラインとインフラストラクチャパイプラインは、エンタープライズ基盤ブループリントの一部です。次の表に、パイプラインの目的と、プロビジョニングするリソースを示します。

パイプライン	プロビジョニング元	リソース
基盤パイプライン	ブートストラップ	データプラットフォームのフォルダとサブフォルダ共通プロジェクトインフラストラクチャパイプラインのサービスアカウント Infrastructure パイプラインの Cloud Build トリガー共有 VPC VPC Service Controls 境界
インフラストラクチャパイプライン	基盤パイプライン	コンシューマプロジェクト Service Catalog サービスアカウント Service Catalog パイプラインの Cloud Build トリガーアーティファクトパイプラインサービスアカウントアーティファクトパイプラインの Cloud Build トリガー
サービスカタログパイプライン	インフラストラクチャパイプライン	Service Catalog バケットにデプロイされたリソース
アーティファクトパイプライン	インフラストラクチャパイプライン	アーティファクトパイプラインは、データメッシュで使用されるコードベースのさまざまなコンテナやその他のコンポーネントを生成します。

各パイプラインには、コードと構成ファイルを pull する独自のリポジトリセットがあります。各リポジトリには、運用コードのデプロイの送信者と承認が異なるグループの責任である職務分担があります。

サービスカタログによるインタラクティブなデプロイ

インタラクティブ環境は、アーキテクチャ内の開発環境であり、development フォルダにあります。インタラクティブ環境の主なインターフェースはサービスカタログです。これにより、デベロッパーは事前構成されたテンプレートを使用して Google サービスをインスタンス化できます。これらの事前構成済みテンプレートは、サービステンプレートと呼ばれます。サービステンプレートを使用すると、CEMK 暗号化の必須化など、セキュリティ対策を強化できます。また、ユーザーが Google API に直接アクセスするのを防ぐこともできます。

次の図は、インタラクティブ環境のコンポーネントと、データサイエンティストがリソースをデプロイする方法を示しています。

Service Catalog を使用したインタラクティブな環境。

Service Catalog を使用してリソースをデプロイする手順は次のとおりです。

MLOps エンジニアが Terraform リソーステンプレートを Git リポジトリに配置します。 Google Cloud
Git Commit コマンドは、Cloud Build パイプラインをトリガーします。
Cloud Build がテンプレートと関連構成ファイルを Cloud Storage にコピーする。
MLOps エンジニアがサービスカタログソリューションとサービスカタログを手動で設定する。エンジニアがインタラクティブ環境でサービスカタログをサービスプロジェクトと共有する。
データサイエンティストがサービスカタログからリソースを選択する。
サービスカタログはテンプレートをインタラクティブ環境にデプロイする。
リソースが必要な構成スクリプトを pull する。
データサイエンティストがリソースを操作する。

アーティファクトパイプライン

データ取り込みプロセスでは、Cloud Composer と Dataflow を使用して、データドメイン内のデータの移動と変換をオーケストレートします。アーティファクトパイプラインは、データ取り込みに必要なすべてのリソースをビルドし、サービスがアクセスできるように適切な場所にリソースを移動します。アーティファクトパイプラインは、オーケストレーターが使用するコンテナアーティファクトを作成します。

セキュリティ管理

エンタープライズデータメッシュアーキテクチャでは、エンタープライズ基盤ブループリントによって構成されたデフォルト機能、サービス、セキュリティ機能を使用した多層防御のセキュリティモデルを採用しています。 Google Cloud Google Cloud次の図は、アーキテクチャのさまざまなセキュリティ管理のレイヤを示しています。

データメッシュアーキテクチャのセキュリティ管理。

次の表に、各レイヤのリソースに関連付けられているセキュリティ対策を示します。

層	リソース	セキュリティ対策
CDMC フレームワーク	Google Cloud CDMC の実装	データアセットの保護、管理、制御に役立つガバナンスフレームワークを提供します。詳細については、CDMC キーコントロールフレームワークをご覧ください。
デプロイ	インフラストラクチャパイプライン	インフラストラクチャのデプロイ、コンテナのビルド、データパイプラインの作成を行う一連のパイプラインを提供します。パイプラインを使用することで、監査可能性、トレーサビリティ、再現性を確保できます。
	アーティファクトパイプライン	インフラストラクチャパイプラインによってデプロイされないさまざまなコンポーネントをデプロイします。
	Terraform テンプレート	システムインフラストラクチャを構築します。
	Open Policy Agent	プラットフォームが選択したポリシーに準拠していることを確認できます。
ネットワーク	Private Service Connect	API レイヤと IP レイヤでアーキテクチャリソースのデータの引き出しを保護します。プライベート IP アドレスを使用して Google Cloud APIs と通信できるため、インターネットへのトラフィックの漏洩を回避できます。
	プライベート IP アドレスを割り当てられた VPC ネットワーク	インターネットに接続する脅威への露出を軽減できます。
	VPC Service Controls	機密リソースをデータの引き出しから保護します。
	ファイアウォール	VPC ネットワークを不正アクセスから保護します。
アクセス管理	Access Context Manager	誰がどのリソースにアクセスできるかを制御し、リソースの不正使用を防止します。
	Workload Identity 連携	オンプレミス環境からプラットフォームにデータを転送するために外部認証情報を使用する必要がなくなります。
	Data Catalog	ユーザーが利用できるアセットのインデックスを提供します。
	IAM	きめ細かいアクセスを提供します。
暗号化	Cloud KMS	暗号鍵とシークレットを管理し、保存データの暗号化と転送データの暗号化によってデータを保護できます。
	Secret Manager	IAM によって制御されるパイプラインのシークレットストアを提供します。
	保存時の暗号化	デフォルトでは、 Google Cloud は保存データを暗号化します。
	転送データの暗号化	デフォルトでは、 Google Cloud は転送中のデータを暗号化します。
検出	Security Command Center	組織内の構成ミスや悪意のあるアクティビティを検出できます。 Google Cloud
	継続的アーキテクチャ	ユーザーが定義した一連の OPA ポリシーとの照合により、 Google Cloud 組織を継続的に確認します。
	IAM Recommender	ユーザー権限を分析し、最小権限の原則を適用するために権限の削減に関する提案を行います。
	ファイアウォールインサイト	全体的なセキュリティポスチャーを強化するため、ファイアウォールルールを分析し、過度に制限の緩いファイアウォールルールを特定して、より制限の厳しいファイアウォールを提案します。
	Cloud Logging	システムの活動を可視化して、異常や悪意のある活動の検出を実現します。
	Cloud Monitoring	不審な活動の特定に役立つ重要なシグナルとイベントを追跡します。
予防	組織ポリシー	組織内のアクションを制御、制限できます。 Google Cloud

Workflows

次のセクションでは、データプロデューサーワークフローとデータコンシューマワークフローの概要を説明します。データの機密性とユーザーロールに基づいて適切なアクセス制御を確保します。

データプロデューサーのワークフロー

次の図は、BigQuery に転送されるデータの保護方法を示しています。

データプロデューサーのワークフロー

データ転送のワークフローは次のとおりです。

Workload Identity 連携と統合されたアプリケーションは、Cloud KMS を使用してラップされた暗号鍵を復号します。
アプリケーションは Tink ライブラリを使用して、テンプレートを使用してデータの匿名化または暗号化を行います。
アプリケーションは、 Google Cloudの取り込みプロジェクトにデータを転送します。
データは Cloud Storage、BigQuery、または Pub/Sub に届きます。
取り込みプロジェクトでは、テンプレートを使用してデータが復号または再識別されます。
復号されたデータは、別の匿名化テンプレートに基づいて暗号化またはマスク処理され、機密性のないプロジェクトに配置されます。タグは、タグ設定エンジンによって適宜適用されます。
機密性のないプロジェクトのデータが機密プロジェクトに転送され、再識別されます。

次のデータアクセスが許可されます。

機密プロジェクトにアクセスできるユーザーは、すべての未加工のプレーンテキストデータにアクセスできます。
非機密プロジェクトにアクセスできるユーザーは、データに関連付けられたタグとその権限に基づいて、マスクされたデータ、トークン化されたデータ、暗号化されたデータにアクセスできます。

データコンシューマのワークフロー

次の手順では、コンシューマが BigQuery に保存されているデータにアクセスする方法について説明します。

データコンシューマは Data Catalog を使用してデータアセットを検索します。
コンシューマが目的のアセットを見つけたら、データコンシューマはデータアセットへのアクセスをリクエストします。
データオーナーは、アセットへのアクセスを許可するかどうかを決定します。
コンシューマがアクセス権を取得すると、ノートブックとソリューションカタログを使用して、データアセットを分析して変換できる環境を作成できます。

まとめ

GitHub リポジトリには、エンタープライズ基盤をデプロイした後にGoogle Cloud にデータメッシュをデプロイする詳細な手順が記載されています。このアーキテクチャをデプロイするプロセスでは、既存のインフラストラクチャリポジトリを変更し、新しいデータメッシュ固有のコンポーネントをデプロイします。

次の手順に沿って操作します。

次の前提条件をすべて満たす。
1. Google Cloud CLI、Terraform、Tink、Java、Go をインストールします。
2. エンタープライズ基盤ブループリント（v4.1）をデプロイします。
3. 次のローカルリポジトリを維持します。
  - gcp-data-mesh-foundations
  - gcp-bootstrap
  - gcp-environments
  - gcp-networks
  - gcp-org
  - gcp-projects
既存の基盤ブループリントを変更してから、データメッシュアプリケーションをデプロイします。アイテムごとに、次の操作を行います。
1. ターゲットリポジトリで、Plan ブランチをチェックアウトします。
2. データメッシュコンポーネントを追加するには、関連するファイルとディレクトリを gcp-data-mesh-foundations から適切な基盤ディレクトリにコピーします。必要に応じてファイルを上書きします。
3. Terraform ファイルのデータメッシュ変数、ロール、設定（*.tfvars や *.tf など）を更新します。GitHub トークンを環境変数として設定します。
4. 各リポジトリに対して Terraform の初期化、プランニング、適用オペレーションを実行します。
5. 変更を commit し、コードをリモートリポジトリに push します。pull リクエストを作成し、開発環境、非本番環境、本番環境にマージします。

エンタープライズ データ管理と分析のプラットフォームをデプロイする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

アーキテクチャ

アーキテクチャに関する重要な決定事項

ID: ロールをグループにマッピングする

インフラストラクチャ

データ ガバナンス

ドメインベースのデータ プロデューサー

ドメインベースのデータ コンシューマ

組織構造

データ プラットフォーム フォルダ

プロデューサー フォルダ

コンシューマ フォルダ

共通フォルダ

CDMC アーキテクチャ

CDMC の実装

データアクセス管理

ネットワーキング

ロギング

パイプライン

サービス カタログによるインタラクティブなデプロイ

アーティファクト パイプライン

セキュリティ管理

Workflows

データ プロデューサーのワークフロー

データ コンシューマのワークフロー

まとめ

次のステップ

エンタープライズデータ管理と分析のプラットフォームをデプロイする

データガバナンス

ドメインベースのデータプロデューサー

ドメインベースのデータコンシューマ

データプラットフォームフォルダ

プロデューサーフォルダ

コンシューマフォルダ

サービスカタログによるインタラクティブなデプロイ

アーティファクトパイプライン

データプロデューサーのワークフロー

データコンシューマのワークフロー