Tentang pengelolaan metadata di Dataplex Universal Catalog

Dataplex Universal Catalog menyediakan platform pusat untuk menyimpan, mengelola, dan mengakses metadata Anda. Dokumen ini menjelaskan fitur pengelolaan metadata Dataplex Universal Catalog.

Dataplex Universal Catalog menyediakan inventaris terpadu untuk resource lokal dan cloud. Google Cloud Metadata untuk resource Google Cloud diambil dan disimpan secara otomatis oleh Dataplex Universal Catalog. Anda juga dapat membawa metadata Anda sendiri untuk resource pihak ketiga ke Dataplex Universal Catalog.

Anda dapat memperkaya inventaris dengan metadata bisnis dan teknis tambahan yang mencakup konteks dan pengetahuan tentang aset Anda. Anda juga dapat menelusuri dan menemukan data di seluruh organisasi serta mengaktifkan tata kelola data atas aset data Anda.

Anda dapat menyetel pengalaman katalog default ke Katalog Universal Dataplex. Jika Anda menggunakan Data Catalog, alihkan konten dan penggunaan Data Catalog mandiri Anda ke Katalog Universal Dataplex. Untuk mengetahui informasi selengkapnya, lihat Beralih dari Data Catalog ke Dataplex Universal Catalog.

Cara kerja pengelolaan metadata

Fitur pengelolaan metadata di Dataplex Universal Catalog didasarkan pada konsep berikut:

Entri

Entri mewakili aset data. Hal ini mirip dengan entri di Data Catalog.

Contoh: Tabel BigQuery bernama test-project.sales_data.customer_orders direpresentasikan sebagai entri.

Kolom entri mewakili subbagian tertentu dari aset data, seperti satu kolom dalam tabel BigQuery atau kolom dalam file JSON. Kolom memungkinkan Anda melampirkan metadata ke setiap kolom dalam entri, bukan hanya entri secara keseluruhan. Anda tidak menentukan kolom secara langsung; kolom dibuat saat Anda melampirkan aspek jenis schema ke entri. Kolom juga disebut jalur.

Contoh: Untuk mendeskripsikan kolom email_address dalam entri customer_orders sebagai berisi informasi identitas pribadi (PII), Anda dapat melampirkan aspek ke kolom email_address.

Untuk mengetahui informasi selengkapnya tentang entri, lihat Entri.

Aspek

Aspek adalah sekumpulan kolom metadata terkait. Anda dapat melampirkan aspek ke entri untuk mendeskripsikan entri secara keseluruhan. Sebagian besar metadata dijelaskan oleh aspek dalam entri. Hal ini mirip dengan tag di Katalog Data. Namun, aspek disimpan dalam entri dan bukan sebagai resource mandiri.

Contoh: Untuk menentukan semua kolom entri customer_orders, seperti order_id, order_date, dan email_address, Anda dapat melampirkan aspek schema ke entri customer_orders. Untuk menentukan bahwa kolom email_address berisi alamat email, Anda dapat melampirkan aspek schema ke kolom email_address.

Untuk mengetahui informasi selengkapnya tentang aspek, lihat Aspek.

Jenis entri

Jenis entri adalah template untuk membuat entri. Hal ini menetapkan elemen metadata penting, yang diuraikan sebagai daftar aspek yang diperlukan untuk entri jenis ini. Jenis entri menentukan jenis aspek mana yang diperlukan untuk aset data tertentu.

Contoh: Untuk memastikan bahwa semua entri memiliki metadata yang diperlukan, Anda dapat membuat jenis entri yang disebut StandardOperationalTable yang memerlukan aspek OwnerInfo untuk dilampirkan ke entri baru jenis ini.

Untuk mengetahui informasi selengkapnya tentang jenis entri, lihat Jenis entri.

Jenis aspek

Jenis aspek adalah template aspek yang dapat digunakan kembali. Setiap aspek adalah instance dari jenis aspek. Hal ini mirip dengan template tag di Data Catalog.

Contoh: Untuk menentukan template yang dapat digunakan kembali untuk informasi kontak, Anda dapat menentukan jenis aspek bernama ContactInfo dengan kolom untuk owner_name, email, dan support_team. Kemudian, Anda dapat membuat aspek ContactInfo dari template ini dan melampirkannya ke entri atau kolom.

Untuk mengetahui informasi selengkapnya tentang jenis aspek, lihat Jenis aspek.

Grup entri

Grup entri adalah penampung untuk entri yang berfungsi sebagai unit pengelolaan untuk entri ini. Misalnya, gunakan grup entri untuk mengonfigurasi kontrol akses Identity and Access Management, atribusi project, atau lokasi untuk entri dalam grup entri. Hal ini mirip dengan grup entri di Katalog Data.

Contoh: Tim keuangan ingin mengelola izin untuk semua tabel mereka sekaligus. Mereka dapat membuat grup entri bernama production_finance_datadan menyertakan entri untuk tabel customer_orders, tabel quarterly_revenue, dan tabel employee_salaries di dalamnya.

Untuk mengetahui informasi selengkapnya tentang grup entri, lihat Grup entri.

Entri dan grup entri
Gambar 1. Entri dan grup entri
Jenis aspek dan jenis entri
Gambar 2. Jenis aspek dan jenis entri

Dataplex Universal Catalog versus Data Catalog

Dataplex Universal Catalog menyediakan kemampuan terintegrasi untuk mengelola metadata Anda. Metode API dan penyimpanan metadata diintegrasikan ke dalam Dataplex API.

Fitur pengelolaan metadata utama di Katalog Universal Dataplex mencakup hal-hal berikut:

  • Metamodel yang lebih kuat

    • Entri yang diketik. Anda dapat menerapkan standar metadata minimal dengan menentukan konten metadata yang diperlukan untuk entri kustom
    • Metamodel yang dapat dikonfigurasi pengguna untuk entri kustom, yang membantu membuat penyerapan kustom lebih andal dan meningkatkan konsistensi serta kelengkapan metadata kustom.
    • Dukungan untuk berbagai jenis dan kompleksitas metadata, termasuk dukungan untuk struktur bertingkat seperti daftar, peta, dan array.
  • Peningkatan skalabilitas, termasuk kemampuan untuk berinteraksi dengan semua metadata yang terkait dengan entri melalui operasi CRUD atomik tunggal dan kemampuan untuk mengambil beberapa anotasi metadata yang terkait dalam respons penelusuran atau daftar.

Tabel berikut membandingkan fitur pengelolaan metadata Dataplex Universal Catalog dan Data Catalog:

Perbandingan antara Dataplex Universal Catalog dan Data Catalog
Fitur Katalog Universal Dataplex Data Catalog
Sumber Google Cloud yang didukung Semua sumber seperti yang dijelaskan di bagian Sumber yang didukung Google Cloud dalam dokumen ini. Semua sumber yang dijelaskan dalam Entri dan grup entri.
Penyerapan sumber kustom

Penyerapan ke dalam entri kustom dengan struktur yang diatur, yang ditentukan oleh jenis entri.

Entri dan grup entri kustom Data Catalog tersedia di Dataplex Universal Catalog dengan jenis entri generic.

Penyerapan ke dalam entri kustom generik.
Pengayaan metadata Konteks metadata untuk entri diambil menggunakan glosarium bisnis, aspek, dan jenis aspek. Konteks metadata untuk entri diambil menggunakan glosarium bisnis, tag, dan template tag.
Telusuri Penelusuran dilakukan atas hal berikut:
  • Semua Google Cloud sumber yang dijelaskan dalam Sumber Google Cloud yang didukung
  • Entri kustom yang dibuat di Dataplex Universal Catalog
  • Aspek yang dibuat di Dataplex Universal Catalog
  • Entri kustom yang dibuat di Data Catalog dan dimasukkan ke Dataplex Universal Catalog

Hasil penelusuran hanya mencakup resource yang termasuk dalam organisasi yang sama dan perimeter VPC-SC yang sama dengan project yang digunakan untuk melakukan penelusuran. Saat menggunakan konsol Google Cloud , project ini adalah project yang dipilih di konsol.

Perhatikan bahwa untuk menelusuri entri, Anda memerlukan setidaknya salah satu peran IAM di project yang digunakan untuk penelusuran: Admin Katalog Dataplex, Editor Katalog Dataplex, atau Pelihat Katalog Dataplex. Izin pada hasil penelusuran diperiksa secara terpisah dari project yang dipilih.

Penelusuran dilakukan atas hal berikut:
  • Semua Google Cloud sumber yang dijelaskan dalam Entri dan grup entri
  • Entri kustom yang dibuat di Data Catalog
  • Tag yang dibuat di Data Catalog
Silsilah data

Linage data mengambil detail entri untuk node aset dengan menggunakan Dataplex API.

Konsol Google Cloud menampilkan aspek terlampir.

Silsilah data mengambil detail entri untuk node aset menggunakan Data Catalog API.

Glosarium bisnis

Glosarium bisnis memungkinkan Anda membuat taksonomi untuk istilah bisnis, dan mengaitkannya dengan aset dan kolom data. Anda dapat menggunakan penelusuran untuk menemukan aset yang ditautkan ke suatu istilah.

Glosarium bisnis memungkinkan Anda membuat taksonomi untuk istilah bisnis, dan mengaitkannya dengan kolom. Anda dapat menggunakan penelusuran untuk menemukan aset yang ditautkan ke suatu istilah.

Tabel berikut menjelaskan cara resource di Katalog Universal Dataplex berkorespondensi dengan resource Data Catalog:

Pemetaan antara resource Dataplex Universal Catalog dan Data Catalog
Resource Dataplex Universal Catalog Resource Data Catalog Deskripsi
Jenis aspek (global) Template tag publik Template tag adalah resource regional. Namun, Anda dapat menggunakannya untuk membuat tag di seluruh region. Template tag sesuai dengan jenis aspek global di Dataplex Universal Catalog.
Aspek opsional Tag publik Tag publik di Data Catalog sesuai dengan aspek opsional di Dataplex Universal Catalog.
Grup entri Grup entri Untuk sumber Google Cloud , grup entri sistem seperti @bigquery dibuat per project di Dataplex Universal Catalog.
Aspek yang diperlukan untuk entri kustom Entri kustom

Data Catalog dan Dataplex Universal Catalog memiliki konsep serupa untuk entri kustom.

Properti entri standar dimodelkan sebagai aspek wajib di Dataplex Universal Catalog.

Aspek yang diperlukan untuk masuk ke sistem Entri Sistem (Google Cloud) Metadata yang menjelaskan entity bawaan, seperti Schema untuk tabel BigQuery, dicatat dalam aspek yang diperlukan dari jenis aspek yang ditentukan sistem.
Glosarium bisnis Glosarium bisnis Gunakan glosarium untuk membuat taksonomi istilah bisnis yang menstandardisasi konteks bisnis di seluruh perusahaan.

Untuk mengetahui informasi selengkapnya tentang fitur yang tersedia di Data Catalog, tetapi tidak didukung di Dataplex Universal Catalog, lihat bagian Fitur pengelolaan metadata yang tidak didukung di Dataplex Universal Catalog dalam dokumen ini.

Untuk pengguna Data Catalog yang sudah ada

Jika Anda sudah menggunakan Data Catalog, perhatikan hal berikut:

  • Entri kustom, konteks ringkasan, glosarium, dan grup entri yang Anda buat di Data Catalog tersedia di Dataplex Universal Catalog.
  • Sebagai administrator, Anda dapat memilih untuk membuat konten template dan tag Data Catalog tersedia secara bersamaan di Dataplex Universal Catalog. Untuk mengetahui informasi selengkapnya, lihat Beralih dari Data Catalog ke Dataplex Universal Catalog.
  • Saat Anda mencari aset data di Dataplex Universal Catalog, metadata yang dibuat langsung di Dataplex Universal Catalog dan metadata yang dibawa dari Data Catalog ke Dataplex Universal Catalog akan disertakan.
  • Saat Anda menelusuri aset data di Data Catalog, hanya metadata yang dibuat di Data Catalog yang disertakan.
  • Deskripsi grup entri di Data Catalog yang melebihi 1.024 karakter akan dipangkas menjadi 1.024 karakter di Dataplex Universal Catalog.
  • Sebagai administrator, untuk menyediakan glosarium dan link terkait antara istilah bisnis dan kolom yang Anda buat di Data Catalog di Dataplex Universal Catalog, ikuti proses transisi.

Untuk mengetahui informasi selengkapnya tentang cara mentransisikan konten dan penggunaan Data Catalog mandiri ke Dataplex Universal Catalog, lihat Beralih dari Data Catalog ke Dataplex Universal Catalog.

Sumber yang didukung

  • Penemuan otomatis data Cloud Storage
  • Metadata dari sumber berikut otomatis di-ingest ke Dataplex Universal Catalog:
      Google Cloud
    • Pertukaran dan listingan berbagi BigQuery (sebelumnya Analytics Hub)
    • Set data, tabel, model, rutinitas, koneksi, dan set data tertaut BigQuery
    • Instance, cluster, dan tabel Bigtable (termasuk detail grup kolom)
    • Repositori Dataform dan aset kode
    • Instance, database, skema, tabel, tampilan Cloud SQL—lihat Mengaktifkan integrasi Cloud SQL
    • Layanan, database, dan tabel Dataproc Metastore
    • Topik Pub/Sub
    • Instance, database, tabel, dan tampilan Spanner
    • Model, set data, grup fitur, tampilan fitur, dan instance toko online Vertex AI

Untuk mengimpor metadata dari sumber pihak ketiga ke Dataplex Universal Catalog, Anda dapat menggunakan pipeline konektivitas terkelola.

Batasan project dan lokasi

Resource katalog di Dataplex Universal Catalog ditempatkan dalam berbagai project dan lokasi. Batasan berikut berlaku:

  • Lokasi:

    • Lokasi entri harus cocok dengan lokasi jenis entri, atau jenis entri harus global.
    • Aspek yang ditambahkan ke entri harus didasarkan pada jenis aspek yang disimpan di lokasi yang sama dengan entri atau jenis aspek harus berupa global.
    • Jenis entri harus terdiri dari jenis aspek yang disimpan di lokasi yang sama dengan jenis entri.
  • Project:

    • Jika jenis entri mereferensikan jenis aspek kustom, jenis aspek harus berada di lokasi dan project yang sama dengan jenis entri.

Fitur pengelolaan metadata yang tidak didukung di Katalog Universal Dataplex

Fitur berikut yang tersedia di Data Catalog tidak didukung di Dataplex Universal Catalog:

  • Konsep aspek pribadi dan jenis aspek pribadi (padanan untuk tag pribadi dan template tag pribadi di Data Catalog) tidak ada di Dataplex Universal Catalog.
  • Penelusuran tag kebijakan tidak didukung di penelusuran Dataplex Universal Catalog; oleh karena itu, predikat policytag dan policytagid tidak berfungsi di penelusuran Dataplex Universal Catalog.
  • Saat Anda membawa grup entri kustom, entri kustom, template tag, dan tag Data Catalog ke Dataplex Universal Catalog, izin aslinya tidak akan dipertahankan. Anda harus mengonfigurasi izin IAM secara eksplisit untuk metadata yang disalin sebelum menggunakannya.
  • Dukungan Terraform untuk mengelola aspek dan entri kustom tidak tersedia. Sebagai gantinya, Anda dapat mengelola metadata kustom secara terprogram dalam skala besar dengan menggunakan pipeline konektivitas terkelola atau metode API impor metadata. (Dukungan Terraform untuk grup entri, jenis entri, dan jenis aspek tersedia; lihat Menyediakan resource Katalog Universal Dataplex dengan Terraform.)
  • Pengiriman hasil pemeriksaan Perlindungan Data Sensitif langsung ke katalog di Katalog Universal Dataplex tidak didukung. Sebagai gantinya, Anda dapat mengirim hasil pemeriksaan Sensitive Data Protection ke Data Catalog, lalu mentransisikan hasil tersebut ke Dataplex Universal Catalog.
  • Anda tidak dapat mencantumkan jenis entri dan jenis aspek di seluruh project menggunakan API. Anda dapat mencakup permintaan daftar hanya ke project.
  • Pendaftaran data lake, zona, aset, dan entitas sebagai entri Dataplex Universal Catalog tidak didukung. Artinya, metadata Data Catalog yang dilampirkan ke data lake, zona, aset, dan entitas tidak akan diteruskan ke katalog di Dataplex Universal Catalog. Selain itu, saat menggunakan penelusuran Dataplex Universal Catalog, penelusuran zona dan entitas tidak didukung, dan pemfilteran menurut data lake dan zona tidak didukung. Anda dapat menggunakan data lake dan zona secara terpisah dari katalog di Dataplex Universal Catalog.
  • Penelusuran administrator, yang memastikan ingatan penuh, tidak didukung. Sebagai gantinya, Anda dapat mengekspor metadata ke Cloud Storage lalu membuat kueri dari BigQuery.

Untuk perbandingan fitur dan resource yang didukung di Dataplex Universal Catalog dan Data Catalog, lihat bagian Dataplex Universal Catalog versus Data Catalog dalam dokumen ini.

Harga

Katalog Universal Dataplex menggunakan SKU penyimpanan metadata untuk menagih biaya penyimpanan metadata. Untuk mengetahui informasi selengkapnya, lihat Harga Katalog Universal Dataplex.

Tidak ada biaya untuk menggunakan berikut ini:

  • Membuat dan mengelola resource katalog di Dataplex Universal Catalog
  • Panggilan Search API untuk Katalog Universal Dataplex
  • Kueri penelusuran yang dilakukan di halaman Katalog Universal Dataplex di konsolGoogle Cloud

Langkah berikutnya