Analisis risiko identifikasi ulang

Analisis risiko identifikasi ulang (atau hanya analisis risiko) adalah proses menganalisis data sensitif untuk menemukan properti yang dapat meningkatkan risiko teridentifikasinya subjek, atau terungkapnya informasi sensitif tentang individu. Anda dapat menggunakan metode analisis risiko sebelum de-identifikasi untuk membantu menentukan strategi de-identifikasi yang efektif, atau setelah de-identifikasi untuk memantau perubahan atau pencilan.

De-identifikasi adalah proses menghapus informasi identitas dari data. Perlindungan Data Sensitif dapat mendeteksi dan melakukan de-identifikasi data sensitif untuk Anda sesuai dengan cara Anda mengonfigurasinya agar sesuai dengan persyaratan organisasi Anda.

Sebaliknya, identifikasi ulang adalah proses mencocokkan data yang telah dianonimkan dengan data lain yang tersedia untuk menentukan orang yang memiliki data tersebut. Identifikasi ulang paling sering dibahas dalam konteks informasi pribadi sensitif, seperti data medis atau keuangan.

Untuk mengetahui informasi selengkapnya tentang penggunaan Perlindungan Data Sensitif untuk mengukur berbagai jenis risiko, lihat Mengukur risiko identifikasi ulang dan pengungkapan.

Istilah dan teknik analisis risiko

Jika Anda tidak menganonimkan data sensitif dengan benar atau memadai, Anda berisiko penyerang mengidentifikasi ulang data atau mempelajari informasi sensitif tentang individu, yang dapat menimbulkan implikasi privasi yang serius. Sensitive Data Protection dapat membantu menghitung risiko ini, menurut beberapa metrik.

Sebelum membahas metrik, kita akan menentukan beberapa istilah umum terlebih dahulu:

  • ID: ID dapat digunakan untuk mengidentifikasi individu secara unik. Misalnya, nama lengkap atau nomor tanda pengenal pemerintah seseorang dianggap sebagai ID.
  • Quasi-ID: Quasi-ID tidak mengidentifikasi individu secara unik, tetapi, jika digabungkan dan direferensikan silang dengan catatan individu, quasi-ID dapat secara substansial meningkatkan kemungkinan penyerang dapat mengidentifikasi ulang individu. Misalnya, kode pos dan usia dianggap sebagai kuasi-pengenal.
  • Data sensitif: Data sensitif adalah data yang dilindungi dari paparan yang tidak sah. Atribut seperti kondisi kesehatan, gaji, tindak pidana, dan lokasi geografis biasanya dianggap sebagai data sensitif. Perhatikan bahwa ada kemungkinan tumpang-tindih antara ID dan data sensitif.
  • Kelas kesetaraan: Kelas kesetaraan adalah grup baris dengan quasi-identifier yang identik.

Ada empat teknik yang dapat digunakan Sensitive Data Protection untuk mengukur tingkat risiko yang terkait dengan set data:

  • k-anonymity: Properti set data yang menunjukkan pengidentifikasian ulang record-nya. Set data bersifat k-anonim jika pengidentifikasi semu untuk setiap orang dalam set data identik dengan setidaknya k – 1 orang lain dalam set data tersebut.
  • l-diversity: Perluasan k-anonymity yang juga mengukur keragaman nilai sensitif untuk setiap kolom tempat nilai tersebut muncul. Sebuah set data memiliki l-diversity jika, untuk setiap set baris dengan quasi-ID yang identik, setidaknya ada l nilai berbeda untuk setiap atribut sensitif.
  • k-map: Menghitung risiko identifikasi ulang dengan membandingkan set data subjek yang telah di-de-identifikasi dengan set data identifikasi ulang—atau "serangan"—yang lebih besar. Sensitive Data Protection tidak mengetahui set data serangan, tetapi memodelkannya secara statistik menggunakan data yang tersedia secara publik seperti Sensus AS, menggunakan model statistik kustom (ditunjukkan sebagai satu atau beberapa tabel BigQuery), atau dengan mengekstrapolasi dari distribusi nilai dalam set data input. Setiap set data—set data sampel dan set data identifikasi ulang—memiliki satu atau beberapa kolom kuasi-pengenal yang sama.
  • Kehadiran delta (δ-presence): Memperkirakan probabilitas bahwa pengguna tertentu dalam populasi yang lebih besar ada dalam set data. Hal ini digunakan saat keanggotaan dalam set data itu sendiri merupakan informasi sensitif. Mirip dengan peta k, Sensitive Data Protection tidak mengetahui set data serangan, tetapi secara statistik memodelkannya menggunakan data yang tersedia secara publik, distribusi yang ditentukan pengguna, atau ekstrapolasi dari set data input.

Tentang k-anonimitas

Saat mengumpulkan data untuk tujuan penelitian, penghapusan identitas dapat menjadi hal yang penting untuk membantu menjaga privasi peserta. Pada saat yang sama, penghapusan identitas dapat menyebabkan set data kehilangan kegunaan praktisnya. k-anonimitas dibuat dari kebutuhan untuk mengukur kembali identifikasi set data dan menyeimbangkan kegunaan data orang yang telah dihapus identitasnya dan privasi orang yang datanya digunakan. Ini adalah properti set data yang dapat digunakan untuk menilai pengidentifikasian ulang data dalam set data.

Sebagai contoh, pertimbangkan sekumpulan data pasien:

ID Pasien Nama Lengkap Kode Pos Usia Kondisi ...
746572 John J. Jacobsen 98122 29 Penyakit jantung
652978 Debra D. Dreb 98115 29 Diabetes, Tipe II
075321 Abraham A. Abernathy 98122 54 Kanker, Hati
339012 Karen K. Krakow 98115 88 Penyakit jantung
995212 William W. Wertheimer 98115 54 Asma
...

Set data ini berisi ketiga jenis data yang kami jelaskan sebelumnya: ID, ID semu, dan data sensitif.

Jika data sensitif seperti kondisi kesehatan tidak disamarkan atau disunting, penyerang berpotensi menggunakan kuasi-ID yang terlampir pada setiap data tersebut, berpotensi melakukan referensi silang dengan set data lain yang berisi kuasi-ID serupa, dan mengidentifikasi ulang orang yang data sensitifnya berlaku.

Set data dikatakan k-anonymous jika setiap kombinasi nilai untuk kolom demografi dalam set data tersebut muncul untuk setidaknya k kumpulan data yang berbeda. Ingatlah bahwa sekelompok baris dengan quasi-identifier yang identik disebut "kelas kesetaraan". Misalnya, jika Anda telah menganonimkan pengidentifikasi semu sedemikian rupa sehingga ada minimal empat baris yang nilai pengidentifikasi semunya identik, nilai anonimitas k set data adalah 4.

ID entitas dan penghitungan anonimitas k

Opsi penting yang disertakan Perlindungan Data Sensitif saat menghitung anonimitas k adalah ID entity opsional. k Jika tidak, jika setiap baris, terlepas dari pengguna, dihitung secara terpisah, total jumlah pengguna yang digunakan untuk menghitung nilai k-anonimitas set data akan menjadi tinggi secara artifisial. Hal ini membuat nilai k-anonimitas k yang dihitung menjadi tidak akurat.

Pertimbangkan kumpulan data sederhana berikut:

ID Pengguna Kode pos (ZIP code)
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Tanpa menggunakan ID entitas untuk mencatat kapan baris yang berbeda termasuk dalam pengguna yang sama, total jumlah pengguna yang digunakan saat menghitung anonimitas k adalah 8, meskipun jumlah pengguna sebenarnya adalah 4. Dalam set data ini, menggunakan metode penghitungan anonimitas k tradisional (tanpa ID entitas), 3 orang memiliki nilai anonimitas k 3, dan 5 orang memiliki nilai anonimitas k 5, meskipun hanya ada 4 orang sebenarnya dalam database.

Penggunaan ID entitas menyebabkan Perlindungan Data Sensitif menganggap multiset kode pos yang dikaitkan dengan pengguna sebagai ID semu saat menghitung anonimitas k. Dalam contoh ini, sebenarnya ada tiga nilai quasi-identifier "gabungan" karena ada tiga kombinasi quasi-identifier berbeda yang ditetapkan kepada pengguna: 42000, multiset 17000 dan 42000, serta multiset 17000, 42000, dan 42000. ID tersebut sesuai dengan pengguna sebagai berikut:

  • [42000] dikaitkan dengan 1 pengguna unik (01).
  • [17000, 42000] dikaitkan dengan 2 pengguna unik (02 dan 04).
  • [17000, 42000, 42000] dikaitkan dengan 1 pengguna unik (03).

Seperti yang dapat Anda lihat, metode ini mempertimbangkan bahwa pengguna dapat muncul lebih dari sekali dalam database kode pos kami, dan memperlakukannya dengan tepat saat menghitung k-anonimitas.

Resource k-anonymity

Untuk mengetahui informasi selengkapnya tentang anonimitas k, lihat Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression, oleh Pierangela Samarati dan Latanya Sweeney dari Harvard University Data Privacy Lab.

k

Tentang l-diversity

l-diversity terkait erat dengan k-anonymity, dan dibuat untuk membantu mengatasi kerentanan set data yang di-de-identifikasi terhadap serangan seperti:

  • Serangan homogenitas, di mana penyerang memprediksi nilai sensitif untuk sekumpulan data yang dianonimkan k dengan memanfaatkan homogenitas nilai dalam sekumpulan k kumpulan data.
  • Serangan pengetahuan latar belakang, di mana penyerang memanfaatkan asosiasi antara nilai kuasi-ID yang memiliki atribut sensitif tertentu untuk mempersempit kemungkinan nilai atribut.

l-diversity berupaya mengukur seberapa banyak penyerang dapat mempelajari orang-orang dalam hal k-anonymity dan kelas kesetaraan (set baris dengan nilai quasi-ID yang identik). Set data memiliki l-diversity jika, untuk setiap kelas kesetaraan, terdapat setidaknya l nilai unik untuk setiap atribut sensitif. Untuk setiap kelas kesetaraan, berapa banyak atribut sensitif yang ada dalam set data? Misalnya, jika l-diversity = 1, berarti setiap orang memiliki atribut sensitif yang sama. Jika l-diversity = 2, berarti setiap orang memiliki salah satu dari dua atribut sensitif, dan seterusnya.

Sumber daya l-diversity

Untuk mengetahui informasi selengkapnya tentang keragaman l, lihat l-Diversity: Privacy Beyond k-Anonymity, oleh Ashwin Machanavajjhala, Johannes Gerke, dan Daniel Kifer dari Departemen Ilmu Komputer Universitas Cornell.

Untuk mempelajari cara menghitung l-diversity dengan Sensitive Data Protection, lihat Menghitung l-diversity untuk set data.

Tentang peta k

Peta k sangat mirip dengan k-anonimitas, kecuali karena mengasumsikan bahwa penyerang kemungkinan besar tidak mengetahui siapa yang ada dalam set data. Gunakan peta k jika set data Anda relatif kecil, atau jika tingkat upaya yang diperlukan untuk menggeneralisasi atribut terlalu tinggi.

Sama seperti k-anonimitas, k-peta mengharuskan Anda menentukan kolom mana dalam database yang merupakan pengidentifikasi semu. Dengan melakukannya, Anda menyatakan data apa yang kemungkinan besar akan digunakan penyerang untuk mengidentifikasi ulang subjek. Selain itu, penghitungan nilai peta k memerlukan set data identifikasi ulang: tabel yang lebih besar untuk membandingkan baris dalam set data asli.

Pertimbangkan contoh kecil set data berikut. Data sampel ini adalah bagian dari database hipotetis yang lebih besar, yang dikumpulkan dari survei yang jawabannya mencakup informasi sensitif.

Kode pos (ZIP code) age
85535 79
60629 42

Jika dilihat secara terpisah, tampaknya jumlah informasi untuk kedua individu tersebut sama. Faktanya, mempertimbangkan k-anonimitas untuk set data yang lebih besar dapat menyebabkan pernyataan bahwa subjek yang sesuai dengan baris kedua sangat dapat diidentifikasi. Namun, jika Anda mencadangkan dan mempertimbangkan data tersebut, Anda akan menyadari bahwa data tersebut tidak benar. Secara khusus, pertimbangkan kode pos 85535 di Amerika Serikat, tempat sekitar 20 orang tinggal saat ini. Mungkin hanya ada satu orang yang berusia tepat 79 tahun yang tinggal di kode pos 85535. Bandingkan dengan kode pos 60629, yang merupakan bagian dari wilayah metropolitan Chicago dan menampung lebih dari 100.000 orang. Ada sekitar 1.000 orang yang berusia tepat 42 tahun di kode pos tersebut.

Baris pertama dalam set data kecil kami mudah diidentifikasi ulang, tetapi tidak dengan baris kedua. Namun, menurut k-anonimitas, kedua baris tersebut mungkin sepenuhnya unik dalam set data yang lebih besar.

Peta k, seperti k-anonimitas, mengharuskan Anda menentukan kolom mana dalam database Anda yang merupakan pengidentifikasi semu. API analisis risiko Perlindungan Data Sensitif mensimulasikan set data identifikasi ulang untuk memperkirakan langkah-langkah yang mungkin dilakukan penyerang untuk membandingkan set data asli guna mengidentifikasi ulang data. Untuk contoh sebelumnya, karena contoh tersebut berkaitan dengan lokasi di Amerika Serikat (kode pos) dan data pribadi (usia), dan karena kita mengasumsikan bahwa penyerang tidak mengetahui siapa yang berpartisipasi dalam survei, set data identifikasi ulang dapat berupa semua orang yang tinggal di Amerika Serikat.

Setelah memiliki pengidentifikasi semu dan set data identifikasi ulang, Anda dapat menghitung nilai peta k: Data Anda memenuhi peta k dengan nilai k jika setiap kombinasi nilai untuk pengidentifikasi semu muncul setidaknya k kali dalam set data identifikasi ulang.

Dengan definisi ini, dan karena baris pertama dalam database kita kemungkinan hanya sesuai dengan satu orang di Amerika Serikat, contoh set data tidak memenuhi persyaratan nilai peta k 2 atau lebih. Untuk mendapatkan nilai peta k yang lebih besar, kita dapat menghapus nilai usia seperti yang telah kita lakukan di sini:

Kode pos (ZIP code) age
85535 **
60629 **

Seperti yang disebutkan sebelumnya, kode pos 85535 memiliki sekitar 20 orang dan 60629 memiliki lebih dari 100.000 orang. Oleh karena itu, kita dapat memperkirakan bahwa set data baru yang digeneralisasi ini memiliki nilai pemetaan k sekitar 20.

Resource peta k

Untuk mengetahui informasi selengkapnya tentang peta k dan hubungannya dengan k-anonimitas, lihat Protecting Privacy Using k-Anonymity, oleh Khaled El Emam dan Fida Kamal Dankar, di Journal of the American Medical Informatics Association.

Untuk mempelajari cara menghitung estimasi peta k dengan Sensitive Data Protection, lihat Menghitung peta k untuk set data.

Tentang kehadiran δ

Kehadiran delta (δ-presence) memperkirakan risiko yang terkait dengan penyerang yang ingin mengetahui apakah targetnya ada dalam set data. Hal ini sedikit berbeda dengan risiko identifikasi ulang karena tujuannya bukan untuk menemukan catatan persis mana yang sesuai dengan individu mana, hanya untuk mengetahui apakah individu tersebut merupakan bagian dari set data. Penggunaan metrik ini sangat tepat jika semua individu dalam set data memiliki atribut sensitif yang sama; misalnya, mereka semua memiliki diagnosis medis yang sama.

Seperti metrik risiko lainnya, kehadiran δ mengharuskan Anda menentukan kolom database mana yang merupakan kuasi-pengenal. Dengan melakukannya, Anda menyatakan data apa yang kemungkinan besar akan digunakan penyerang untuk mengetahui individu mana yang ada dalam set data. Seperti peta k, penghitungan kehadiran δ memerlukan set data serangan: tabel yang lebih besar untuk membandingkan baris dalam set data asli.

Pertimbangkan contoh kecil set data berikut. Data sampel ini adalah bagian dari database hipotetis yang lebih besar tentang orang-orang dengan penyakit genetik tertentu.

Kode pos (ZIP code) age
85942 72
85942 72
62083 53

Di kode pos 85942 Amerika Serikat, ada sekitar 2 orang berusia 72 tahun, dan di kode pos 62083, ada sekitar 5 orang berusia 53 tahun. Dua kumpulan data pertama tidak dapat diidentifikasi ulang secara persis karena keduanya memiliki quasi-identifier yang sama. Namun, karena hanya dua individu yang memiliki kuasi-pengenal ini dalam populasi yang lebih besar, penyerang dapat menyimpulkan bahwa keduanya menderita penyakit genetik. δ-kehadiran mengukur risiko khusus ini dengan menghitung rasio orang dengan kuasi-pengenal tertentu yang ada dalam set data.

Kehadiran δ, seperti metrik risiko lainnya, mengharuskan Anda menentukan kolom database mana yang merupakan kuasi-pengenal. Seperti perkiraan peta k, API analisis risiko Sensitive Data Protection mensimulasikan set data populasi untuk memperkirakan set data yang mungkin digunakan penyerang untuk mengetahui siapa yang ada dalam set data tersebut. Untuk contoh sebelumnya, karena berkaitan dengan lokasi AS (kode pos) dan data pribadi (usia), dan karena kita mengasumsikan bahwa penyerang tidak tahu siapa yang menderita penyakit genetik, set data populasi ini bisa mencakup semua orang yang tinggal di AS.

Setelah memiliki pengidentifikasi semu dan set data identifikasi ulang, Anda dapat menghitung nilai kehadiran δ: data Anda memenuhi kehadiran δ dengan nilai δ jika setiap kombinasi nilai untuk pengidentifikasi semu muncul paling banyak δ * k kali dalam set data Anda, dengan k adalah jumlah total orang dengan nilai pengidentifikasi semu ini dalam set data populasi. Tidak seperti k dalam k-anonimitas atau k-peta, δ dalam δ-kehadiran adalah bilangan real antara 0 dan 1.

Mengingat definisi ini, dan bahwa kedua orang berusia 72 tahun di kode ZIP 85942 dalam populasi umum juga ada dalam database kami, set data ini tidak memenuhi δ-kehadiran untuk δ yang lebih kecil dari 1. Untuk mendapatkan nilai kehadiran δ yang lebih rendah, kita dapat menghapus nilai usia dari dua baris pertama:

Kode pos (ZIP code) age
85942 **
85942 **
62083 53

Sekarang, karena ada 80 orang yang tinggal di kode pos 85942, nilai δ untuk dua data pertama adalah sekitar 2 / 80 = 2,5%; dan nilai δ untuk data ketiga adalah sekitar 1 / 5 = 20%. Oleh karena itu, kita dapat memperkirakan bahwa set data baru yang digeneralisasi ini memiliki nilai kehadiran δ sekitar 20%.

Resource kehadiran δ

Untuk mengetahui informasi selengkapnya tentang estimasi kehadiran δ berdasarkan data statistik, lihat δ-Presence Without Complete World Knowledge, oleh Mehmet Ercan Nergiz dan Chris Clifton dari Department of Computer Science Technical Reports, Purdue University.

Untuk mempelajari cara menghitung estimasi kehadiran δ dengan Perlindungan Data Sensitif, lihat Menghitung kehadiran δ untuk set data.