Mengukur risiko identifikasi ulang dan pengungkapan

Analisis risiko identifikasi ulang, atau cukup analisis risiko, adalah proses menganalisis data sensitif untuk menemukan properti yang mungkin meningkatkan risiko subjek yang sedang diidentifikasi. Anda dapat menggunakan metode analisis risiko sebelum de-identifikasi untuk membantu menentukan strategi de-identifikasi yang efektif atau setelah de-identifikasi untuk memantau perubahan atau pencilan.

Sensitive Data Protection dapat menghitung empat metrik risiko identifikasi ulang: k-anonymity, l-diversity, k-map, dan δ-presence. Jika Anda tidak terbiasa dengan analisis risiko atau metrik ini, lihat topik konsep analisis risiko sebelum melanjutkan.

Bagian ini memberikan ringkasan cara menggunakan Perlindungan Data Sensitif untuk analisis risiko data terstruktur menggunakan salah satu metrik ini, serta topik terkait lainnya.

Menghitung risiko identifikasi ulang

Sensitive Data Protection dapat menganalisis data terstruktur Anda yang disimpan dalam tabel BigQuery dan menghitung metrik risiko identifikasi ulang berikut. Klik link untuk metrik yang ingin Anda hitung untuk mempelajari lebih lanjut.

Metrik Deskripsi
k-anonimitas Properti set data yang menunjukkan pengidentifikasian ulang record-nya. Set data bersifat k-anonim jika pengidentifikasi semu untuk setiap orang dalam set data identik dengan setidaknya k – 1 orang lain yang juga ada dalam set data tersebut.
l-diversity Perluasan k-anonymity yang juga mengukur keragaman nilai sensitif untuk setiap kolom tempat nilai tersebut muncul. Sebuah set data memiliki l-diversity jika, untuk setiap set baris dengan pengidentifikasi semu yang identik, terdapat setidaknya l nilai berbeda untuk setiap atribut sensitif.
k-map Menghitung risiko identifikasi ulang dengan membandingkan subjek dalam set data yang di-anonimkan tertentu dengan set data identifikasi ulang—atau "serangan"—yang lebih besar.
δ-presence Memperkirakan probabilitas bahwa pengguna tertentu dalam populasi yang lebih besar ada dalam set data. Hal ini digunakan saat keanggotaan dalam set data itu sendiri merupakan informasi sensitif.

Menghitung statistik lainnya

Sensitive Data Protection juga dapat menghitung statistik numerik dan kategoris untuk data yang disimpan dalam tabel BigQuery menggunakan resource DlpJob yang sama dengan API analisis risiko.

Metrik Deskripsi
Statistik numerik Menentukan nilai minimum, maksimum, dan kuantil untuk setiap kolom BigQuery.
Statistik numerik kategoris Menghitung statistik numerik kategoris untuk setiap bucket histogram dalam kolom BigQuery.

Untuk mengetahui informasi selengkapnya, lihat Menghitung statistik numerik dan kategoris.

Memvisualisasikan risiko identifikasi ulang

Anda dapat memvisualisasikan metrik risiko yang dihitung oleh Sensitive Data Protection langsung di konsol menggunakan Sensitive Data Protection (k-anonimitas atau l-diversitas), atau menggunakan produkGoogle Cloud lainnya. Google Cloud

Produk Deskripsi
Looker Studio Setelah menghitung nilai k-anonimitas untuk set data menggunakan Sensitive Data Protection, Anda dapat memvisualisasikan hasilnya di Looker Studio. Dengan melakukannya, Anda juga akan dapat lebih memahami risiko identifikasi ulang dan membantu mengevaluasi pertukaran utilitas yang mungkin Anda lakukan jika Anda menyamarkan atau menganonimkan data.