Men-deploy platform analisis dan pengelolaan data perusahaan

Platform analisis dan pengelolaan data perusahaan menyediakan enklave tempat Anda dapat menyimpan, menganalisis, dan memanipulasi informasi sensitif sekaligus mempertahankan kontrol keamanan. Anda dapat menggunakan arsitektur mesh data perusahaan untuk men-deploy platform di Google Cloud untuk pengelolaan dan analisis data. Arsitektur ini dirancang untuk berfungsi di lingkungan campuran, tempat komponen Google Cloud berinteraksi dengan komponen dan proses operasi on-premise yang ada.

Arsitektur mesh data perusahaan mencakup hal berikut:

  • Repositori GitHub yang berisi kumpulan konfigurasi, skrip, dan kode Terraform untuk mem-build hal berikut:
    • Project tata kelola yang memungkinkan Anda menggunakan penerapan Framework Kontrol Utama Kemampuan Pengelolaan Data Cloud (CDMS) Google.
    • Contoh platform data yang mendukung alur kerja interaktif dan produksi.
    • Lingkungan produsen dalam platform data yang mendukung beberapa domain data. Domain data adalah pengelompokan logis elemen data.
    • Lingkungan konsumen dalam platform data yang mendukung beberapa project konsumen.
    • Layanan transfer data yang menggunakan Workload Identity Federation dan library enkripsi Tink untuk membantu Anda mentransfer data ke Google Cloud secara aman.
    • Contoh domain data yang berisi project penyerapan, non-rahasia, dan rahasia.
    • Contoh sistem akses data yang memungkinkan konsumen data meminta akses ke set data dan pemilik data memberikan akses ke set data tersebut. Contoh ini juga mencakup pengelola alur kerja yang mengubah izin IAM set data tersebut.
  • Panduan untuk arsitektur, desain, kontrol keamanan, dan proses operasional yang akan Anda terapkan menggunakan arsitektur ini (dokumen ini).

Arsitektur mesh data perusahaan dirancang agar kompatibel dengan cetakan dasar perusahaan. Blueprint foundation perusahaan menyediakan sejumlah layanan tingkat dasar yang diandalkan arsitektur ini, seperti jaringan VPC dan logging. Anda dapat men-deploy arsitektur ini tanpa men-deploy blueprint fondasi perusahaan jika lingkunganGoogle Cloud Anda menyediakan fungsi yang diperlukan.

Dokumen ini ditujukan untuk arsitek cloud, data scientist, data engineer, dan arsitek keamanan yang dapat menggunakan arsitektur untuk membuat dan men-deploy layanan data yang komprehensif di Google Cloud. Dokumen ini mengasumsikan bahwa Anda sudah memahami konsep mesh data, Google Cloud layanan data, dan Google Cloud penerapan framework CDMC.

Arsitektur

Arsitektur mesh data perusahaan menggunakan pendekatan berlapis untuk menyediakan kemampuan yang memungkinkan penyerapan data, pemrosesan data, dan tata kelola. Arsitektur ini ditujukan untuk di-deploy dan dikontrol melalui alur kerja CI/CD. Diagram berikut menunjukkan hubungan antara lapisan data yang di-deploy oleh arsitektur ini dengan lapisan lain di lingkungan Anda.

Arsitektur mesh data.

Diagram ini mencakup hal berikut:

  • InfrastrukturGoogle Cloud menyediakan kemampuan keamanan seperti enkripsi dalam penyimpanan dan enkripsi dalam transmisi, serta blok penyusun dasar seperti komputasi dan penyimpanan.
  • Fondasi perusahaan menyediakan dasar pengukuran resource seperti sistem identitas, jaringan, logging, pemantauan, dan deployment yang memungkinkan Anda mengadopsi Google Cloud untuk workload data Anda.
  • Lapisan data menyediakan berbagai kemampuan seperti penyerapan data, penyimpanan data, kontrol akses data, tata kelola data, pemantauan data, dan berbagi data.
  • Lapisan aplikasi mewakili berbagai aplikasi yang menggunakan aset lapisan data.
  • CI/CD menyediakan alat untuk mengotomatiskan penyediaan, konfigurasi, pengelolaan, dan deployment infrastruktur, alur kerja, dan komponen software. Komponen ini membantu Anda memastikan deployment yang konsisten, andal, dan dapat diaudit; meminimalkan error manual; dan mempercepat keseluruhan siklus pengembangan.

Untuk menunjukkan cara penggunaan lingkungan data, arsitektur menyertakan contoh alur kerja data. Alur kerja data contoh akan memandu Anda melalui proses berikut: tata kelola data, penyerapan data, pemrosesan data, pembagian data, dan konsumsi data.

Keputusan arsitektur penting

Tabel berikut merangkum keputusan tingkat tinggi arsitektur.

Area keputusan keputusan
Google Cloud arsitektur

Hierarki resource

Arsitektur ini menggunakan hierarki resource dari blueprint dasar-dasar perusahaan.

Jaringan

Arsitektur ini menyertakan contoh layanan transfer data yang menggunakan Workload Identity Federation dan library Tink.

Peran dan izin IAM

Arsitektur ini mencakup peran produsen data yang tersegmentasi, peran konsumen data, peran tata kelola data, dan peran platform data.

Layanan data umum

Metadata

Arsitektur ini menggunakan Data Catalog untuk mengelola metadata data.

Pengelolaan kebijakan terpusat

Untuk mengelola kebijakan, arsitektur menggunakan penerapan framework CDMC oleh Google Cloud.

Pengelolaan akses data

Untuk mengontrol akses ke data, arsitektur menyertakan proses independen yang mengharuskan konsumen data meminta akses ke aset data dari pemilik data.

Kualitas data

Arsitektur ini menggunakan Cloud Data Quality Engine untuk menentukan dan menjalankan aturan kualitas data pada kolom tabel tertentu, yang mengukur kualitas data berdasarkan metrik seperti ketepatan dan keterlengkapan.

Keamanan data

Arsitektur ini menggunakan pemberian tag, enkripsi, masking, tokenisasi, dan kontrol IAM untuk memberikan keamanan data.

Domain data

Lingkungan data

Arsitektur ini mencakup tiga lingkungan. Dua lingkungan (non-produksi dan produksi) adalah lingkungan operasional yang didorong oleh pipeline. Satu lingkungan (pengembangan) adalah lingkungan interaktif.

Pemilik data

Pemilik data menyerap, memproses, mengekspos, dan memberikan akses ke aset data.

Konsumen data

Konsumen data meminta akses ke aset data.

Orientasi dan operasi

Pipeline

Arsitektur ini menggunakan pipeline berikut untuk men-deploy resource:

  • Pipeline fondasi
  • Pipeline infrastruktur
  • Pipeline artefak
  • Pipeline Katalog Layanan

Repositori

Setiap pipeline menggunakan repositori terpisah untuk memungkinkan pemisahan tanggung jawab.

Alur proses

Proses ini mengharuskan perubahan pada lingkungan produksi menyertakan pengirim dan pemberi persetujuan.

Operasi cloud

Kartu skor produk data

Report Engine menghasilkan kartu skor produk data.

Cloud Logging

Arsitektur ini menggunakan infrastruktur logging dari blueprint fondasi perusahaan.

Cloud Monitoring

Arsitektur ini menggunakan infrastruktur pemantauan dari blueprint fondasi perusahaan.

Identitas: Memetakan peran ke grup

Mesh data memanfaatkan arsitektur autentikasi, otorisasi, dan pengelolaan siklus proses identitas yang ada di blueprint fondasi perusahaan. Pengguna tidak diberi peran secara langsung; sebagai gantinya, grup adalah metode utama untuk menetapkan peran dan izin di IAM. Peran dan izin IAM ditetapkan selama pembuatan project melalui pipeline fondasi.

Mesh data mengaitkan grup dengan salah satu dari empat area utama: infrastruktur, tata kelola data, produser data berbasis domain, dan konsumen berbasis domain.

Cakupan izin untuk grup ini adalah sebagai berikut:

  • Cakupan izin grup infrastruktur adalah mesh data secara keseluruhan.
  • Cakupan izin grup tata kelola data adalah project tata kelola data.
  • Izin produsen dan konsumen berbasis domain dicakupkan ke domain data mereka.

Tabel berikut menunjukkan berbagai peran yang digunakan dalam penerapan data mesh ini dan izin terkaitnya.

Infrastruktur

Grup Deskripsi Peran

data-mesh-ops@example.com

Administrator keseluruhan mesh data

roles/owner (platform data)

Tata kelola data

Grup Deskripsi Peran

gcp-dm-governance-admins@example.com

Administrator project tata kelola data

roles/owner di project tata kelola data

gcp-dm-governance-developers@example.com

Developer yang membuat dan mengelola komponen tata kelola data

Beberapa peran di project tata kelola data, termasuk roles/viewer, peran BigQuery, dan peran Data Catalog

gcp-dm-governance-data-readers@example.com

Pembaca informasi tata kelola data

roles/viewer

gcp-dm-governance-security-administrator@example.com

Administrator keamanan project tata kelola

roles/orgpolicy.policyAdmin dan roles/iam.securityReviewer

gcp-dm-governance-tag-template-users@example.com

Grup dengan izin untuk menggunakan template tag

roles/datacatalog.tagTemplateUser

gcp-dm-governance-tag-users@example.com

Grup dengan izin untuk menggunakan template tag dan menambahkan tag

roles/datacatalog.tagTemplateUser dan roles/datacatalog.tagEditor

gcp-dm-governance-scc-notifications@example.com

Grup akun layanan untuk notifikasi Security Command Center

Tidak ada. Ini adalah grup untuk keanggotaan, dan akun layanan dibuat dengan nama ini, yang memiliki izin yang diperlukan.

Produsen data berbasis domain

Grup Deskripsi Peran

gcp-dm-{data_domain_name}-admins@example.com

Administrator domain data tertentu

roles/owner pada project domain data

gcp-dm-{data_domain_name}-developers@example.com

Developer yang membuat dan mengelola produk data dalam domain data

Beberapa peran di project domain data, termasuk peran roles/viewer, BigQuery, dan Cloud Storage

gcp-dm-{data_domain_name}-data-readers@example.com

Pembaca informasi domain data

roles/viewer

gcp-dm-{data_domain_name}-metadata-editors@{var.domain}

Editor entri Data Catalog

Peran untuk mengedit entri Data Catalog

gcp-dm-{data_domain_name}-data-stewards@example.com

Pengelola data untuk domain data

Peran untuk mengelola metadata dan aspek tata kelola data

Konsumen data berbasis domain

Grup Deskripsi Peran

gcp-dm-consumer-{project_name}-admins@example.com

Administrator project konsumen tertentu

roles/owner pada project konsumen

gcp-dm-consumer-{project_name}-developers@example.com

Developer yang bekerja dalam project konsumen

Beberapa peran di project konsumen, termasuk peran roles/viewer dan BigQuery

gcp-dm-consumer-{project_name}-data-readers@example.com

Pembaca informasi project konsumen

roles/viewer

Struktur organisasi

Untuk membedakan antara operasi produksi dan data produksi, arsitektur menggunakan lingkungan yang berbeda untuk mengembangkan dan merilis alur kerja. Operasi produksi mencakup tata kelola, ketertelusurannya, dan pengulangan alur kerja serta auditabilitas hasil alur kerja. Data produksi mengacu pada data yang mungkin sensitif yang Anda perlukan untuk menjalankan organisasi. Semua lingkungan dirancang untuk memiliki kontrol keamanan yang memungkinkan Anda menyerap dan mengoperasikan data.

Untuk membantu data scientist dan engineer, arsitektur ini menyertakan lingkungan interaktif, tempat developer dapat menggunakan lingkungan secara langsung dan menambahkan layanan melalui katalog solusi yang diseleksi. Lingkungan operasional didorong melalui pipeline yang telah mengkodifikasi arsitektur dan konfigurasi.

Arsitektur ini menggunakan struktur organisasi blueprint fondasi perusahaan sebagai dasar untuk men-deploy beban kerja data. Diagram berikut menunjukkan folder dan project tingkat teratas yang digunakan dalam arsitektur mesh data perusahaan.

Struktur organisasi mesh data.

Tabel berikut menjelaskan folder dan project tingkat teratas yang merupakan bagian dari arsitektur.

Folder Komponen Deskripsi

common

prj-c-artifact-pipeline

Berisi pipeline deployment yang digunakan untuk mem-build artefak kode arsitektur.

prj-c-service-catalog

Berisi infrastruktur yang digunakan oleh Katalog Layanan untuk men-deploy resource di lingkungan interaktif.

prj-c-datagovernance

Berisi semua resource yang digunakan oleh penerapan framework CDMC Google Cloud.

development

fldr-d-dataplatform

Berisi project dan resource platform data untuk mengembangkan kasus penggunaan dalam mode interaktif.

non-production

fldr-n-dataplatform

Berisi project dan resource platform data untuk menguji kasus penggunaan yang ingin Anda deploy di lingkungan operasional.

production

fldr-p-dataplatform

Berisi project dan resource platform data untuk deployment ke produksi.

Folder platform data

Folder platform data berisi semua komponen bidang data dan beberapa resource CDMC. Selain itu, folder platform data dan project tata kelola data berisi resource CDMC. Diagram berikut menunjukkan folder dan project yang di-deploy di folder platform data.

Folder platform data

Setiap folder platform data menyertakan folder lingkungan (produksi, non-produksi, dan pengembangan). Tabel berikut menjelaskan folder dalam setiap folder platform data.

Folder Deskripsi

Produser

Berisi domain data.

Konsumen

Berisi project konsumen.

Domain data

Berisi project yang terkait dengan domain tertentu.

Folder produsen

Setiap folder produsen menyertakan satu atau beberapa domain data. Domain data mengacu pada pengelompokan logis elemen data yang memiliki makna, tujuan, atau konteks bisnis yang sama. Domain data memungkinkan Anda mengategorikan dan mengatur aset data dalam organisasi. Diagram berikut menunjukkan struktur domain data. Arsitektur men-deploy project di folder platform data untuk setiap lingkungan.

Folder produsen.

Tabel berikut menjelaskan project yang di-deploy di folder platform data untuk setiap lingkungan.

Project Deskripsi

Penyerapan

Project penyerapan menyerap data ke dalam domain data. Arsitektur ini memberikan contoh cara melakukan streaming data ke BigQuery, Cloud Storage, dan Pub/Sub. Project penyerapan juga berisi contoh Dataflow dan Cloud Composer yang dapat Anda gunakan untuk mengatur transformasi dan pergerakan data yang diserap.

Tidak rahasia

Project non-rahasia berisi data yang telah dide-identifikasi. Anda dapat menyamarkan, membuat penampung, mengenkripsi, membuat token, atau mengaburkan data. Gunakan tag kebijakan untuk mengontrol cara data ditampilkan.

Rahasia

Project rahasia berisi data teks biasa. Anda dapat mengontrol akses melalui izin IAM.

Folder konsumen

Folder konsumen berisi project konsumen. Project konsumen menyediakan mekanisme untuk menyegmentasikan pengguna data berdasarkan batas kepercayaan yang diperlukan. Setiap project ditetapkan ke grup pengguna terpisah dan grup tersebut diberi akses ke aset data yang diperlukan berdasarkan project per project. Anda dapat menggunakan project konsumen untuk mengumpulkan, menganalisis, dan meningkatkan data untuk grup.

Folder umum

Folder umum berisi layanan yang digunakan oleh lingkungan dan project yang berbeda. Bagian ini menjelaskan kemampuan yang ditambahkan ke folder umum untuk mengaktifkan mesh data perusahaan.

Arsitektur CDMC

Arsitektur ini menggunakan arsitektur CDMC untuk tata kelola data. Fungsi tata kelola data berada di project tata kelola data di folder umum. Diagram berikut menunjukkan komponen arsitektur CDMC. Angka-angka dalam diagram menunjukkan kontrol utama yang ditangani dengan layanan Google Cloud.

Arsitektur CDMC.

Tabel berikut menjelaskan komponen arsitektur CDMC yang digunakan oleh arsitektur data mesh perusahaan.

Komponen CDMC LayananGoogle Cloud Deskripsi
Komponen akses dan siklus proses

Pengelolaan kunci

Cloud KMS

Layanan yang mengelola kunci enkripsi dengan aman yang melindungi data sensitif.

Pengelola Data

Cloud Run

Aplikasi yang mengelola log dan catatan aktivitas pemrosesan data yang komprehensif, sehingga memastikan organisasi dapat melacak dan mengaudit penggunaan data.

Kebijakan pengarsipan

BigQuery

Tabel BigQuery yang berisi kebijakan penyimpanan untuk data.

Hak

BigQuery

Tabel BigQuery yang menyimpan informasi tentang siapa yang dapat mengakses data sensitif. Tabel ini memastikan bahwa hanya pengguna yang diberi otorisasi yang dapat mengakses data tertentu berdasarkan peran dan hak istimewa mereka.

Komponen pemindaian

Kehilangan data

Sensitive Data Protection

Layanan yang digunakan untuk memeriksa aset guna menemukan data sensitif.

Temuan DLP

BigQuery

Tabel BigQuery yang membuat katalog klasifikasi data dalam platform data.

Kebijakan

BigQuery

Tabel BigQuery yang berisi praktik tata kelola data yang konsisten (misalnya, jenis akses data).

Ekspor penagihan

BigQuery

Tabel yang menyimpan informasi biaya yang diekspor dari Penagihan Cloud untuk memungkinkan analisis metrik biaya yang dikaitkan dengan aset data.

Cloud Data Quality Engine

Cloud Run

Aplikasi yang menjalankan pemeriksaan kualitas data untuk tabel dan kolom.

Temuan kualitas data

BigQuery

Tabel BigQuery yang mencatat perbedaan yang diidentifikasi antara aturan kualitas data yang ditentukan dan kualitas aktual dari aset data.

Komponen pelaporan

Scheduler

Cloud Scheduler

Layanan yang mengontrol kapan Cloud Data Quality Engine berjalan dan kapan pemeriksaan Perlindungan Data Sensitif terjadi.

Report Engine

Cloud Run

Aplikasi yang menghasilkan laporan yang membantu melacak dan mengukur kepatuhan terhadap kontrol framework CDMC.

Temuan dan aset

BigQuery dan Pub/Sub

Laporan BigQuery tentang perbedaan atau inkonsistensi dalam kontrol pengelolaan data, seperti tag yang tidak ada, klasifikasi yang salah, atau lokasi penyimpanan yang tidak mematuhi kebijakan.

Ekspor tag

BigQuery

Tabel BigQuery yang berisi informasi tag yang diekstrak dari Data Catalog.

Komponen lainnya

Manajemen kebijakan

Organization Policy Service

Layanan yang menentukan dan menerapkan batasan tempat data dapat disimpan secara geografis.

Kebijakan akses berbasis atribut

Access Context Manager

Layanan yang menentukan dan menerapkan kebijakan akses terperinci berbasis atribut sehingga hanya pengguna yang diberi otorisasi dari lokasi dan perangkat yang diizinkan yang dapat mengakses informasi sensitif.

Metadata

Data Catalog

Layanan yang menyimpan informasi metadata tentang tabel yang digunakan di data mesh.

Tag Engine

Cloud Run

Aplikasi yang menambahkan tag ke data dalam tabel BigQuery.

Laporan CDMC

Looker Studio

Dasbor yang memungkinkan analis Anda melihat laporan yang dihasilkan oleh mesin arsitektur CDMC.

Penerapan CDMC

Tabel berikut menjelaskan cara arsitektur menerapkan kontrol utama dalam framework CDMC.

Persyaratan kontrol CDMC Penerapan

Kepatuhan kontrol data

Report Engine mendeteksi aset data yang tidak mematuhi kebijakan dan memublikasikan temuan ke topik Pub/Sub. Temuan ini juga dimuat ke dalam BigQuery untuk pelaporan menggunakan Looker Studio.

Kepemilikan data ditetapkan untuk data yang dimigrasikan dan yang dihasilkan cloud

Data Catalog secara otomatis mengambil metadata teknis dari BigQuery. Tag Engine menerapkan tag metadata bisnis seperti nama pemilik dan tingkat sensitivitas dari tabel referensi, yang membantu memastikan bahwa semua data sensitif diberi tag dengan informasi pemilik untuk kepatuhan. Proses pemberian tag otomatis ini membantu memberikan tata kelola dan kepatuhan data dengan mengidentifikasi dan memberi label pada data sensitif dengan informasi pemilik yang sesuai.

Sumber dan konsumsi data diatur dan didukung oleh otomatisasi

Data Catalog mengklasifikasikan aset data dengan memberinya tag tanda is_authoritative jika aset tersebut merupakan sumber yang kredibel. Data Catalog otomatis menyimpan informasi, beserta metadata teknis, dalam register data. Report Engine dan Tag Engine dapat memvalidasi dan melaporkan register data dari sumber tepercaya menggunakan Pub/Sub.

Kedaulatan data dan pergerakan data lintas batas dikelola

Layanan Kebijakan Organisasi menentukan region penyimpanan yang diizinkan untuk aset data dan Access Context Manager membatasi akses berdasarkan lokasi pengguna. Data Catalog menyimpan lokasi penyimpanan yang disetujui sebagai tag metadata. Report Engine membandingkan tag ini dengan lokasi sebenarnya dari aset data di BigQuery dan memublikasikan perbedaan apa pun sebagai temuan menggunakan Pub/Sub. Security Command Center menyediakan lapisan pemantauan tambahan dengan menghasilkan temuan kerentanan jika data disimpan atau diakses di luar kebijakan yang ditentukan.

Katalog data diterapkan, digunakan, dan dapat dioperasikan

Data Catalog menyimpan dan memperbarui metadata teknis untuk semua aset data BigQuery, sehingga secara efektif membuat Data Catalog yang terus disinkronkan. Katalog Data memastikan bahwa tabel dan tampilan baru atau yang diubah segera ditambahkan ke katalog, sehingga mempertahankan inventaris aset data yang terbaru.

Klasifikasi data ditetapkan dan digunakan

Perlindungan Data Sensitif memeriksa data BigQuery dan mengidentifikasi jenis informasi sensitif. Temuan ini kemudian diberi peringkat berdasarkan tabel referensi klasifikasi, dan tingkat sensitivitas tertinggi ditetapkan sebagai tag di Data Catalog pada tingkat kolom dan tabel. Tag Engine mengelola proses ini dengan memperbarui Katalog Data dengan tag sensitivitas setiap kali aset data baru ditambahkan atau aset data yang ada diubah. Proses ini memastikan klasifikasi data yang terus diperbarui berdasarkan sensitivitas, yang dapat Anda monitor dan laporkan menggunakan Pub/Sub dan alat pelaporan terpadu.

Hak kepemilikan data dikelola, diterapkan, dan dilacak

Tag kebijakan BigQuery mengontrol akses ke data sensitif di tingkat kolom, sehingga memastikan hanya pengguna yang diberi otorisasi yang dapat mengakses data tertentu berdasarkan tag kebijakan yang ditetapkan. IAM mengelola akses secara keseluruhan ke data warehouse, sedangkan Data Catalog menyimpan klasifikasi sensitivitas. Pemeriksaan rutin dilakukan untuk memastikan semua data sensitif memiliki tag kebijakan yang sesuai, dengan perbedaan apa pun yang dilaporkan menggunakan Pub/Sub untuk perbaikan.

Akses, penggunaan, dan hasil data yang etis dikelola

Perjanjian berbagi data untuk penyedia dan konsumen disimpan di data warehouse BigQuery khusus untuk mengontrol tujuan konsumsi. Data Catalog memberi label pada aset data dengan informasi perjanjian penyedia, sedangkan perjanjian konsumen ditautkan ke binding IAM untuk kontrol akses. Label kueri menerapkan tujuan konsumsi, yang mengharuskan konsumen menentukan tujuan yang valid saat membuat kueri data sensitif, yang divalidasi berdasarkan hak mereka di BigQuery. Jejak audit di BigQuery melacak semua akses data dan memastikan kepatuhan terhadap perjanjian berbagi data.

Data aman, dan kontrol dibuktikan

Enkripsi dalam penyimpanan default Google membantu melindungi data yang disimpan di disk. Cloud KMS mendukung kunci enkripsi yang dikelola pelanggan (CMEK) untuk pengelolaan kunci yang ditingkatkan. BigQuery menerapkan penyamaran data dinamis tingkat kolom untuk de-identifikasi dan mendukung de-identifikasi tingkat aplikasi selama penyerapan data. Data Catalog menyimpan tag metadata untuk teknik enkripsi dan de-identifikasi yang diterapkan ke aset data. Pemeriksaan otomatis memastikan bahwa metode enkripsi dan de-identifikasi sesuai dengan kebijakan keamanan yang telah ditetapkan sebelumnya, dengan perbedaan apa pun yang dilaporkan sebagai temuan menggunakan Pub/Sub.

Framework privasi data ditetapkan dan beroperasi

Data Catalog memberi tag pada aset data sensitif dengan informasi yang relevan untuk penilaian dampak, seperti lokasi subjek dan link laporan penilaian. Tag Engine menerapkan tag ini berdasarkan sensitivitas data dan tabel kebijakan di BigQuery, yang menentukan persyaratan penilaian berdasarkan data dan tempat tinggal subjek. Proses pemberian tag otomatis ini memungkinkan pemantauan dan pelaporan berkelanjutan terhadap kepatuhan terhadap persyaratan penilaian dampak, sehingga memastikan bahwa penilaian dampak perlindungan data (DPIA) atau penilaian dampak perlindungan (PIA) dilakukan jika diperlukan.

Siklus proses data direncanakan dan dikelola

Data Catalog memberi label aset data dengan kebijakan retensi, yang menentukan periode retensi dan tindakan habis masa berlaku (seperti mengarsipkan atau menghapus). Record Manager mengotomatiskan penerapan kebijakan ini dengan menghapus permanen atau mengarsipkan tabel BigQuery berdasarkan tag yang ditentukan. Penerapan ini memastikan kepatuhan terhadap kebijakan siklus proses data dan mempertahankan kepatuhan terhadap persyaratan retensi data, dengan setiap perbedaan yang terdeteksi dan dilaporkan menggunakan Pub/Sub.

Kualitas data dikelola

Cloud Data Quality Engine menentukan dan menjalankan aturan kualitas data pada kolom tabel yang ditentukan, yang mengukur kualitas data berdasarkan metrik seperti kebenaran dan kelengkapan. Hasil dari pemeriksaan ini, termasuk persentase dan nilai minimum keberhasilan, disimpan sebagai tag di Data Catalog. Menyimpan hasil ini memungkinkan pemantauan dan pelaporan kualitas data yang berkelanjutan, dengan masalah atau penyimpangan dari nilai minimum yang dapat diterima yang dipublikasikan sebagai temuan menggunakan Pub/Sub.

Prinsip pengelolaan biaya ditetapkan dan diterapkan

Katalog Data menyimpan metrik terkait biaya untuk aset data, seperti biaya kueri, biaya penyimpanan, dan biaya keluar data, yang dihitung menggunakan informasi penagihan yang diekspor dari Penagihan Cloud ke BigQuery. Menyimpan metrik terkait biaya memungkinkan pelacakan dan analisis biaya yang komprehensif, memastikan kepatuhan terhadap kebijakan biaya dan penggunaan resource yang efisien, dengan anomali apa pun yang dilaporkan menggunakan Pub/Sub.

Asal dan silsilah data dipahami

Fitur silsilah data bawaan Data Catalog melacak asal dan silsilah aset data, yang secara visual merepresentasikan alur data. Selain itu, skrip penyerapan data mengidentifikasi dan memberi tag pada sumber asli data di Data Catalog, sehingga meningkatkan ketertelusurannya kembali ke asalnya.

Pengelolaan akses data

Akses arsitektur ke data dikontrol melalui proses independen yang memisahkan kontrol operasional (misalnya, menjalankan tugas Dataflow) dari kontrol akses data. Akses pengguna ke layanan Google Cloud ditentukan oleh masalah lingkungan atau operasional, serta disediakan dan disetujui oleh grup engineering cloud. Akses pengguna ke Google Cloud aset data (misalnya, tabel BigQuery) adalah masalah privasi, peraturan, atau tata kelola dan tunduk pada perjanjian akses antara pihak pembuat dan pengguna serta dikontrol melalui proses berikut. Diagram berikut menunjukkan cara akses data disediakan melalui interaksi berbagai komponen software.

Pengelolaan akses data

Seperti yang ditunjukkan pada diagram sebelumnya, aktivasi akses data ditangani oleh proses berikut:

  • Aset data cloud dikumpulkan dan diinventarisasikan oleh Data Catalog.
  • Pengelola alur kerja mengambil aset data dari Data Catalog.
  • Pemilik data diaktifkan di pengelola alur kerja.

Operasi pengelolaan akses data adalah sebagai berikut:

  1. Konsumen data membuat permintaan untuk aset tertentu.
  2. Pemilik data aset akan diberi tahu tentang permintaan tersebut.
  3. Pemilik data menyetujui atau menolak permintaan tersebut.
  4. Jika permintaan disetujui, pengelola alur kerja akan meneruskan grup, aset, dan tag terkait ke pemetaan IAM.
  5. Pemetaan IAM menerjemahkan tag pengelola alur kerja menjadi izin IAM, dan memberikan izin IAM grup yang ditentukan untuk aset data.
  6. Saat pengguna ingin mengakses aset data, IAM mengevaluasi akses ke aset Google Cloud berdasarkan izin grup.
  7. Jika diizinkan, pengguna akan mengakses aset data.

Jaringan

Proses keamanan data dimulai di aplikasi sumber, yang mungkin berada di lokal atau di lingkungan lain yang bersifat eksternal terhadap project Google Cloud target. Sebelum transfer jaringan terjadi, aplikasi ini menggunakan Workload Identity Federation untuk mengautentikasi dirinya dengan aman ke Google Cloud API. Dengan kredensial ini, aplikasi berinteraksi dengan Cloud KMS untuk mendapatkan atau menggabungkan kunci yang diperlukan, lalu menggunakan library Tink untuk melakukan enkripsi awal dan penghapusan identitas pada payload data sensitif sesuai dengan template yang telah ditentukan.

Setelah payload data dilindungi, payload harus ditransfer dengan aman ke dalam Google Cloud project transfer. Untuk aplikasi lokal, Anda dapat menggunakan Cloud Interconnect atau mungkin Cloud VPN. Dalam jaringanGoogle Cloud , gunakan Private Service Connect untuk merutekan data ke endpoint penyerapan dalam jaringan VPC project target. Private Service Connect memungkinkan aplikasi sumber terhubung ke Google API menggunakan alamat IP pribadi, sehingga memastikan traffic tidak terekspos ke internet.

Seluruh jalur jaringan dan layanan transfer data target (Cloud Storage, BigQuery, dan Pub/Sub) dalam project transfer data diamankan oleh perimeter Kontrol Layanan VPC. Perimeter ini menerapkan batas keamanan, yang memastikan bahwa data yang dilindungi yang berasal dari sumber hanya dapat diserap ke dalam layanan Google Cloud yang diotorisasi dalam project tertentu tersebut.

Logging

Arsitektur ini menggunakan kemampuan Cloud Logging yang disediakan oleh blueprint dasar-dasar perusahaan.

Pipeline

Arsitektur mesh data perusahaan menggunakan serangkaian pipeline untuk menyediakan infrastruktur, orkestrasi, set data, pipeline data, dan komponen aplikasi. Pipeline deployment resource arsitektur menggunakan Terraform sebagai alat infrastruktur sebagai kode (IaC) dan Cloud Build sebagai layanan CI/CD untuk men-deploy konfigurasi Terraform ke lingkungan arsitektur. Diagram berikut menunjukkan hubungan antara pipeline.

Hubungan pipeline

Pipeline fondasi dan pipeline infrastruktur adalah bagian dari cetak biru fondasi perusahaan. Tabel berikut menjelaskan tujuan pipeline dan resource yang disediakannya.

Pipeline Disediakan oleh Resource

Pipeline fondasi

Bootstrap

  • Folder dan subfolder platform data
  • Project umum
  • Akun layanan pipeline infrastruktur
  • Pemicu Cloud Build untuk pipeline Infrastruktur
  • VPC Bersama
  • Perimeter Kontrol Layanan VPC

Pipeline infrastruktur

Pipeline fondasi

  • Project konsumen
  • Akun layanan Katalog Layanan
  • Pemicu Cloud Build untuk pipeline Service Catalog
  • Akun layanan pipeline artefak
  • Pemicu Cloud Build untuk pipeline artefak

Pipeline Katalog Layanan

Pipeline infrastruktur

  • Resource yang di-deploy di bucket Katalog Layanan

Pipeline artefak

Pipeline infrastruktur

Pipeline artefak menghasilkan berbagai penampung dan komponen lain dari codebase yang digunakan oleh data mesh.

Setiap pipeline memiliki kumpulan repositorinya sendiri yang digunakan untuk mengambil kode dan file konfigurasi. Setiap repositori memiliki pemisahan tugas, dengan pengirim dan persetujuan deployment kode operasional adalah tanggung jawab grup yang berbeda.

Deployment interaktif melalui Katalog Layanan

Lingkungan interaktif adalah lingkungan pengembangan dalam arsitektur dan berada di folder pengembangan. Antarmuka utama untuk lingkungan interaktif adalah Katalog Layanan, yang memungkinkan developer menggunakan template yang telah dikonfigurasi sebelumnya untuk membuat instance layanan Google. Template yang telah dikonfigurasi sebelumnya ini dikenal sebagai template layanan. Template layanan membantu Anda menerapkan postur keamanan, seperti mewajibkan enkripsi CMEK, dan juga mencegah pengguna Anda memiliki akses langsung ke Google API.

Diagram berikut menunjukkan komponen lingkungan interaktif dan cara data scientist men-deploy resource.

Lingkungan interaktif dengan Katalog Layanan.

Untuk men-deploy resource menggunakan Service Catalog, langkah-langkah berikut akan terjadi:

  1. Engineer MLOps menempatkan template resource Terraform untuk Google Cloud ke dalam repositori Git.
  2. Perintah Git Commit memicu pipeline Cloud Build.
  3. Cloud Build menyalin template dan file konfigurasi terkait ke Cloud Storage.
  4. Engineer MLOps menyiapkan solusi Katalog Layanan dan Katalog Layanan secara manual. Engineer kemudian membagikan Katalog Layanan dengan project layanan di lingkungan interaktif.
  5. Data scientist memilih resource dari Service Catalog.
  6. Katalog Layanan men-deploy template ke lingkungan interaktif.
  7. Resource ini mengambil skrip konfigurasi yang diperlukan.
  8. Data scientist berinteraksi dengan resource.

Pipeline artefak

Proses penyerapan data menggunakan Cloud Composer dan Dataflow untuk mengatur pergerakan dan transformasi data dalam domain data. Pipeline artefak membuat semua resource yang diperlukan untuk penyerapan data dan memindahkan resource ke lokasi yang sesuai agar layanan dapat mengaksesnya. Pipeline artefak membuat artefak penampung yang digunakan orkestrator.

Kontrol keamanan

Arsitektur data mesh perusahaan menggunakan model keamanan defense-in-depth berlapis yang mencakup kemampuan Google Cloud , Google Cloud layanan, dan kemampuan keamanan default yang dikonfigurasi melalui blueprint fondasi perusahaan. Diagram berikut menunjukkan lapisan berbagai kontrol keamanan untuk arsitektur.

Kontrol keamanan dalam arsitektur mesh data.

Tabel berikut menjelaskan kontrol keamanan yang terkait dengan resource di setiap lapisan.

Lapisan. Resource Kontrol keamanan

Framework CDMC

Google Cloud Penerapan CDMC

Memberikan framework tata kelola yang membantu mengamankan, mengelola, dan mengontrol aset data Anda. Lihat Framework Kontrol Kunci CDMC untuk mengetahui informasi selengkapnya.

Deployment

Pipeline infrastruktur

Menyediakan serangkaian pipeline yang men-deploy infrastruktur, membuat penampung, dan membuat pipeline data. Penggunaan pipeline memungkinkan audit, keterlacakan, dan pengulangan.

Pipeline artefak

Men-deploy berbagai komponen yang tidak di-deploy oleh pipeline infrastruktur.

Template Terraform

Membuat infrastruktur sistem.

Agen Kebijakan Terbuka

Membantu memastikan bahwa platform mematuhi kebijakan yang dipilih.

Network

Private Service Connect

Memberikan perlindungan eksfiltrasi data di sekitar resource arsitektur di lapisan API dan lapisan IP. Memungkinkan Anda berkomunikasi dengan Google Cloud API menggunakan alamat IP pribadi sehingga Anda dapat menghindari eksposur traffic ke internet.

Jaringan VPC dengan alamat IP pribadi

Membantu menghilangkan eksposur terhadap ancaman yang terhubung ke internet.

Kontrol Layanan VPC

Membantu melindungi resource sensitif dari pemindahan data yang tidak sah.

Firewall

Membantu melindungi jaringan VPC dari akses yang tidak sah.

Pengelolaan Akses

Access Context Manager

Mengontrol siapa yang dapat mengakses resource apa dan membantu mencegah penggunaan resource Anda yang tidak sah.

Workload Identity Federation

Tidak perlu kredensial eksternal untuk mentransfer data ke platform dari lingkungan lokal.

Data Catalog

Memberikan indeks aset yang tersedia untuk pengguna.

IAM

Memberikan akses yang terperinci.

Enkripsi

Cloud KMS

Memungkinkan Anda mengelola kunci dan secret enkripsi, serta membantu melindungi data Anda melalui enkripsi dalam penyimpanan dan enkripsi saat dalam pengiriman.

Secret Manager

Menyediakan secret store untuk pipeline yang dikontrol oleh IAM.

Enkripsi dalam penyimpanan

Secara default, Google Cloud mengenkripsi data dalam penyimpanan.

Enkripsi saat transit

Secara default, Google Cloud mengenkripsi data dalam transit.

Detektif

Security Command Center

Membantu Anda mendeteksi kesalahan konfigurasi dan aktivitas berbahaya di organisasi Google Cloud Anda.

Arsitektur berkelanjutan

Terus memeriksa Google Cloud organisasi Anda terhadap serangkaian kebijakan OPA yang telah Anda tentukan.

Pemberi Rekomendasi IAM

Menganalisis izin pengguna dan memberikan saran tentang cara mengurangi izin untuk membantu menerapkan prinsip hak istimewa terendah.

Analisis Firewall

Menganalisis aturan firewall, mengidentifikasi aturan firewall yang terlalu permisif, dan menyarankan firewall yang lebih ketat untuk membantu memperkuat postur keamanan Anda secara keseluruhan.

Cloud Logging

Memberikan visibilitas ke aktivitas sistem dan membantu memungkinkan deteksi anomali dan aktivitas berbahaya.

Cloud Monitoring

Melacak sinyal dan peristiwa utama yang dapat membantu mengidentifikasi aktivitas yang mencurigakan.

Pencegahan

Kebijakan Organisasi

Memungkinkan Anda mengontrol dan membatasi tindakan dalam organisasi Google Cloud.

Workflows

Bagian berikut menguraikan alur kerja produsen data dan alur kerja konsumen data, yang memastikan kontrol akses yang sesuai berdasarkan sensitivitas data dan peran pengguna.

Alur kerja produsen data

Diagram berikut menunjukkan cara data dilindungi saat ditransfer ke BigQuery.

Alur kerja produsen data

Alur kerja untuk transfer data adalah sebagai berikut:

  1. Aplikasi yang terintegrasi dengan Workload Identity Federation menggunakan Cloud KMS untuk mendekripsi kunci enkripsi gabungan.
  2. Aplikasi menggunakan library Tink untuk mende-identifikasi atau mengenkripsi data menggunakan template.
  3. Aplikasi mentransfer data ke project transfer di Google Cloud.
  4. Data akan tiba di Cloud Storage, BigQuery, atau Pub/Sub.
  5. Dalam project penyerapan, data didekripsi atau diidentifikasi ulang menggunakan template.
  6. Data yang didekripsi dienkripsi atau disamarkan berdasarkan template de-identifikasi lain, lalu ditempatkan di project yang tidak bersifat rahasia. Tag diterapkan oleh mesin pemberian tag sebagaimana mestinya.
  7. Data dari project non-rahasia ditransfer ke project rahasia dan diidentifikasi ulang.

Akses data berikut diizinkan:

  • Pengguna yang memiliki akses ke project rahasia dapat mengakses semua data teks biasa mentah.
  • Pengguna yang memiliki akses ke project non-rahasia dapat mengakses data yang disamarkan, di-tokenisasi, atau dienkripsi berdasarkan tag yang terkait dengan data dan izinnya.

Alur kerja konsumen data

Langkah-langkah berikut menjelaskan cara konsumen dapat mengakses data yang disimpan di BigQuery.

  1. Konsumen data menelusuri aset data menggunakan Data Catalog.
  2. Setelah menemukan aset yang dicari, konsumen data akan meminta akses ke aset data.
  3. Pemilik data memutuskan apakah akan memberikan akses ke aset.
  4. Jika mendapatkan akses, konsumen dapat menggunakan notebook dan Solution Catalog untuk membuat lingkungan tempat mereka dapat menganalisis dan mengubah aset data.

Menyatukan semuanya

Repositori GitHub menyediakan petunjuk mendetail tentang cara men-deploy data mesh diGoogle Cloud setelah Anda men-deploy foundation perusahaan. Proses untuk men-deploy arsitektur melibatkan perubahan repositori infrastruktur yang ada dan men-deploy komponen khusus data mesh baru.

Selesaikan langkah-langkah berikut:

  1. Selesaikan semua prasyarat, termasuk hal berikut:
    1. Instal Google Cloud CLI, Terraform, Tink, Java, dan Go.
    2. Deploy blueprint dasar-dasar perusahaan (v4.1).
    3. Mengelola repositori lokal berikut:
      • gcp-data-mesh-foundations
      • gcp-bootstrap
      • gcp-environments
      • gcp-networks
      • gcp-org
      • gcp-projects
  2. Ubah blueprint fondasi yang ada, lalu deploy aplikasi data mesh. Untuk setiap item, selesaikan hal berikut:
    1. Di repositori target, lihat cabang Plan.
    2. Untuk menambahkan komponen data mesh, salin file dan direktori yang relevan dari gcp-data-mesh-foundations ke direktori fondasi yang sesuai. Ganti file jika diperlukan.
    3. Perbarui variabel, peran, dan setelan data mesh dalam file Terraform (misalnya, *.tfvars dan *.tf). Tetapkan token GitHub sebagai variabel lingkungan.
    4. Lakukan operasi inisialisasi, perencanaan, dan penerapan Terraform di setiap repositori.
    5. Lakukan commit pada perubahan, kirim kode ke repositori jarak jauh, buat permintaan pull, dan gabungkan ke lingkungan pengembangan, nonproduksi, dan produksi.

Langkah berikutnya