Pengantar tata kelola data di BigQuery
BigQuery memiliki kemampuan tata kelola bawaan yang menyederhanakan cara Anda menemukan, mengelola, memantau, mengatur, dan menggunakan aset data dan AI.
Administrator, pengelola data, pengelola tata kelola data, dan penjaga data dapat menggunakan kemampuan tata kelola di BigQuery untuk melakukan hal berikut:
- Temukan data.
- Seleksi data.
- Mengumpulkan dan memperkaya metadata.
- Mengelola kualitas data.
- Pastikan data digunakan secara konsisten dan sesuai dengan kebijakan organisasi.
- Berbagi data dalam skala besar dan dengan cara yang aman.
Inti dari kemampuan tata kelola BigQuery adalah katalog universal, inventaris terpusat dari semua aset data di organisasi Anda. Katalog universal menyimpan metadata bisnis, teknis, dan runtime untuk semua data Anda. Fitur ini membantu Anda menemukan hubungan dan semantik dalam metadata dengan menerapkan kecerdasan buatan dan machine learning.
Katalog universal menggabungkan katalog data dan metastore runtime yang dikelola sepenuhnya. Metastore di BigQuery memungkinkan Anda menggunakan beberapa mesin pemrosesan data untuk membuat kueri satu salinan data dengan satu skema, tanpa duplikasi data. Mesin pemrosesan data yang dapat Anda gunakan meliputi BigQuery, Apache Spark, Apache Flink, dan Apache Hive. Data Anda dapat disimpan di lokasi seperti tabel penyimpanan BigQuery, tabel BigQuery untuk Apache Iceberg, atau tabel eksternal BigLake.
BigQuery mendukung siklus proses data secara menyeluruh, mulai dari penemuan hingga penggunaan data. Katalog universal mendukung fitur dan kemampuan tata kelola BigQuery. Fitur pemerintahan juga tersedia di Dataplex.
Penemuan data
BigQuery menemukan data di seluruh organisasi di Google Cloud, baik data tersebut berada di BigQuery, Spanner, Cloud SQL, Pub/Sub, maupun Cloud Storage. BigQuery secara otomatis mengekstrak metadata dan menyimpannya di katalog universal. Misalnya, Anda dapat menggunakan BigQuery untuk mengekstrak metadata untuk data terstruktur dan tidak terstruktur dari Cloud Storage, dan Anda dapat otomatis membuat tabel BigLake siap kueri dalam skala besar. Hal ini memungkinkan Anda melakukan analisis dengan mesin open source tanpa duplikasi data.
Anda juga dapat mengekstrak dan membuat katalog metadata dari sumber data pihak ketiga menggunakan konektor kustom.
BigQuery menawarkan kemampuan penemuan data berikut:
- Telusuri. Telusuri resource data dan AI di seluruh project menggunakan BigQuery di konsol Google Cloud. BigQuery mendukung penelusuran semantik untuk penemuan data, sehingga Anda dapat menelusuri dengan kueri bahasa alami.
- Penemuan otomatis data Cloud Storage. Memindai data di bucket Cloud Storage untuk mengekstrak, lalu membuat katalog metadata. Penemuan otomatis membuat tabel untuk data terstruktur dan tidak terstruktur.
- Impor metadata. Mengimpor metadata dalam skala besar dari sistem pihak ketiga ke katalog universal. Anda dapat membuat konektor kustom untuk mengekstrak data dari sumber data, lalu menjalankan pipeline konektivitas terkelola yang mengatur alur kerja impor metadata.
Seleksi dan pengelolaan data
Untuk meningkatkan visibilitas dan kegunaan data, pengelola dan administrator data dapat menggunakan BigQuery untuk meninjau, memperbarui, dan menganalisis metadata. Kemampuan pengelolaan dan kurasi data BigQuery membantu Anda memastikan bahwa data Anda akurat, konsisten, dan selaras dengan kebijakan organisasi Anda.
BigQuery menawarkan kemampuan pengelolaan dan pemeliharaan data berikut:
- Glosarium bisnis (Pratinjau). Tingkatkan konteks, kolaborasi, dan penelusuran dengan menentukan terminologi organisasi Anda dalam glosarium. Identifikasi pengelola data untuk istilah tersebut, dan lampirkan istilah ke kolom aset data.
- Insight data. Gemini menggunakan metadata untuk membuat pertanyaan bahasa alami tentang tabel Anda dan kueri SQL untuk menjawabnya. Insight data ini membantu Anda menemukan pola, menilai kualitas data, dan melakukan analisis statistik.
- Pembuatan profil data. Identifikasi karakteristik statistik umum kolom dalam tabel BigQuery untuk memahami dan menganalisis data Anda dengan lebih efektif.
- Kualitas data. Tentukan dan jalankan pemeriksaan kualitas data di seluruh tabel di BigQuery dan Cloud Storage, serta terapkan kontrol data reguler dan berkelanjutan di lingkungan BigQuery.
- Linimasa data. Lacak cara data berpindah melalui sistem Anda: tempat asalnya, tempat data diteruskan, dan transformasi yang diterapkan pada data. BigQuery mendukung lineage data di tingkat tabel dan kolom.
Langkah berikutnya untuk kurasi dan pengelolaan data
Tabel berikut menguraikan langkah berikutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur kurasi dan pengelolaan data:
Level pengalaman | Jalur pembelajaran |
---|---|
Pengguna cloud baru |
|
Pengguna cloud berpengalaman |
|
Keamanan dan kontrol akses
Pengelolaan akses data adalah proses menentukan, menerapkan, dan memantau aturan dan kebijakan yang mengatur siapa yang memiliki akses ke data. Pengelolaan akses memastikan bahwa data hanya dapat diakses oleh orang yang memiliki izin untuk mengaksesnya.
BigQuery menawarkan kemampuan kontrol akses dan keamanan berikut:
- Identity and Access Management (IAM). IAM memungkinkan Anda mengontrol siapa saja yang memiliki akses ke resource BigQuery, seperti project, set data, tabel, dan tampilan. Anda dapat memberikan peran IAM kepada pengguna, grup, dan akun layanan. Peran ini menentukan hal yang dapat mereka lakukan dengan resource Anda.
- Kontrol akses tingkat kolom dan kontrol akses tingkat baris. Kontrol akses tingkat kolom dan tingkat baris memungkinkan Anda membatasi akses ke kolom dan baris tertentu dalam tabel, berdasarkan atribut pengguna atau nilai data. Kontrol ini memungkinkan Anda menerapkan akses terperinci untuk membantu melindungi data sensitif dari akses yang tidak sah.
- Pengelolaan transfer data. Kontrol Layanan VPC memungkinkan Anda membuat perimeter di sekitar resource Google Clouddan mengontrol akses ke resource tersebut berdasarkan kebijakan organisasi Anda.
- Log audit. Log audit memberi Anda catatan detail tentang aktivitas pengguna dan peristiwa sistem di organisasi Anda. Log ini membantu Anda menerapkan kebijakan tata kelola data dan mengidentifikasi potensi risiko keamanan.
- Data masking. Penyamaran data memungkinkan Anda menyamarkan data sensitif dalam tabel sambil tetap mengizinkan pengguna yang diotorisasi untuk mengakses data di sekitarnya. Penyamaran data juga dapat mengaburkan data yang cocok dengan pola data sensitif, sehingga melindungi dari pengungkapan data yang tidak disengaja.
- Enkripsi. BigQuery otomatis mengenkripsi semua data dalam penyimpanan dan saat dalam pengiriman, sekaligus memungkinkan Anda menyesuaikan setelan enkripsi untuk memenuhi persyaratan spesifik Anda.
Langkah berikutnya untuk keamanan dan kontrol akses
Tabel berikut menguraikan langkah berikutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur kontrol akses:
Level pengalaman | Jalur pembelajaran |
---|---|
Pengguna cloud baru |
|
Pengguna cloud berpengalaman |
|
Data dan insight bersama
BigQuery memungkinkan Anda membagikan data dan insight dalam skala besar di dalam dan di seluruh batas organisasi. Platform ini memiliki framework keamanan dan privasi yang andal melalui platform pertukaran data bawaan. Dengan menggunakan berbagi BigQuery, Anda dapat menemukan, mengakses, dan menggunakan library data yang diseleksi oleh berbagai penyedia data.
BigQuery menawarkan kemampuan berbagi berikut:
- Bagikan lebih dari sekadar data. Anda dapat membagikan berbagai aset data dan AI seperti set data, tabel, tampilan, streaming real-time BigQuery dengan topik Pub/Sub, prosedur tersimpan SQL, dan model BigQuery ML.
- Mengakses set data Google. Tingkatkan inisiatif analisis dan ML Anda dengan set data Google dari Search Trends, model DeepMind WeatherNext, Google Maps Platform, Google Earth Engine, dan lainnya.
- Berintegrasi dengan prinsip tata kelola data. Pemilik data memiliki kontrol atas data mereka dan memiliki kemampuan untuk menentukan serta mengonfigurasi aturan atau kebijakan untuk membatasi akses dan penggunaan.
- Berbagi data live tanpa salinan. Data dibagikan di tempat tanpa integrasi, perpindahan data, atau replikasi yang diperlukan, sehingga memastikan analisis didasarkan pada informasi terbaru. Set data tertaut yang dibuat adalah pointer aktif ke aset bersama.
- Meningkatkan postur keamanan. Anda dapat menggunakan kontrol akses untuk mengurangi akses yang berlebihan, termasuk dukungan Kontrol Layanan VPC bawaan.
- Meningkatkan visibilitas dengan metrik penggunaan penyedia. Penayang data dapat melihat dan memantau penggunaan untuk aset bersama seperti jumlah tugas yang dijalankan, total byte yang dipindai, dan pelanggan untuk setiap organisasi.
- Berkolaborasi pada data sensitif dengan ruang bersih data. Ruang bersih data menyediakan lingkungan yang ditingkatkan keamanan tempat beberapa pihak dapat berbagi, bergabung, dan menganalisis aset data mereka tanpa memindahkan atau mengungkapkan data pokok.
- Dibuat di BigQuery. Anda dapat membangun skalabilitas dan kemampuan pemrosesan besar di BigQuery, yang memungkinkan kolaborasi skala besar.
Langkah berikutnya untuk berbagi
Tabel berikut menguraikan langkah berikutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur berbagi:
Level pengalaman | Jalur pembelajaran |
---|---|
Pengguna cloud baru |
|
Pengguna cloud berpengalaman |
|
Langkah berikutnya
- Pelajari autentikasi di Google.
- Pelajari penghapusan data di Google Cloud.
- Pelajari lebih lanjut praktik terbaik IAM.
- Pelajari hierarki resource di Google Cloud.
- Pelajari IAM di Google Cloud.